统计学有哪三个理论基础

2024-05-06 13:34

1. 统计学有哪三个理论基础

统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方法和推断统计方法。
为了实际的理由,我们选择研究母体的子集代替研究母体的每一笔资料,这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。

相关观念:
为了实际的理由,我们选择研究母体的子集代替研究母体的每一笔资料,这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。
资料是统计分析的对象,并且被用做两种相关的用途:描述和推论。描述统计学处理有关叙述的问题:资料是否可以被有效的摘要,不论是以数学或是图片表现,以用来代表母体的性质?基础的数学描述包括了平均数和标准差。图像的摘要则包含了许多种的表和图。

统计学有哪三个理论基础

2. 简述什么是统计学

统计学是关于认识客观现象总体数量特征和数量关系的科学。

它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。

由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,广泛适用于自然、社会、经济、科学技术各个领域的分析研究

统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。

所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。

统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。

描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。

推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。

变量(variable):每次观察会得到不同结果的某种特征。

分类变量(categorical variable):观测结果表现为某种类别的变量。

顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。

数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。

均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。

中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。

众数(mode):众数也就是数据集中出现频率最多的数字。

任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。误用统计学可能会导致描述面或是推论面严重的错误,这个错误可能会影响社会政策,医疗实践以及桥梁或是核能发电计划结构的可靠性。

即使统计学被正确的应用,结果对于不是专家的人来说可能会难以陈述。举例来说,统计资料中显著的改变可能是由样本的随机变量所导致,但是这个显著性可能与大众的直觉相悖。人们需要一些统计的技巧(或怀疑)以面对每天日常生活中透过引用统计数据所获得的资讯。

在具体进行取样时,必须根据研究目的的不同,选择不同的取样方法。

①单纯随机取样法先把每个个体编号,然后用抽签的方式从总体中抽取样本。这种方法适用于个体间差异较小、所需抽选的个体数较少或个体的分布比较集中的研究对象。

②分区随机取样法将总体随机地分成若干部分,然后再从每一部分随机抽选若干个体组成样本。这种抽样法可以更有组织地进行,而且中选的个体在总体的分布比单纯随机取样更均匀。

③系统取样法先有系统地将总体分成若干组,然后随机地从第一组决定一个起点,如每组15个元素,决定从第一组的第13个元素选起,那么以后选定的单位即28,43,58,73等等。

④分层取样法根据对总体特性的了解,把总体分成若干层次或类型组,然后从各个层次中按一定比例随机抽选。这种方法的代表性好,但若层次划分得不正确,也不能获得有高度代表性的样本

3. 统计学基础理论

统计学:科学方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的科学; 
  
 归纳统计学/统计推断:通过样本分析来给总体下结论
  
 描述性统计学/演绎统计学:值描述和分析特定对象而不下结论或推断
  
 变量、常量、连续变量、离散变量、连续数据、离散数据
  
 自变量、因变量、函数、单值函数、多值函数
  
 数组阵列:原始数据按照数量大小升序或者降序排列,最大值与最小值的差为全距;
  
 组距、组限、组界、组中值、直方图与频率多边形
  
  频率分布=某一组频数/总频数 
  
 累计频数分布/累计频数表,累计频数多边形/卵形线
  
  累计频率分布/百分率累计频数=累计频数/总频数 
  
 一、中位数
  
  定义/解释 :按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小
  
   # 如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
                                          
 二、方差
  
 参考百科:  方差  
  
   1)定义 
  
     方差(variance) :是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量
  
 
  
  
  2)应用
  
   1、在统计描述中
  
 方差用来计算 每一个变量 (观察值)与总体均数之间的差异
  
 在许多实际问题中,研究方差即偏离程度有着重要意义
  
 为避免出现 离均差 (X - 
  
 )总和为零,离均差平方和受样本含量的影响,统计学采用 平均离均差平方和 来描述变量的变异程度
                                          
 总体方差计算公式:
  
 :总体方差
                                          
 :变量
                                          
 :总体均值
                                          
 :总体例数
                                          
 实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式: S2 = ∑(X - 
  
 )2/ (n - 1)   
                                          
  S2 :样本方差
  
  X :变量
  
 :为样本均值
                                          
  n :样本例数。
  
   2、在概率分布中
  
 用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。
  
 在概率分布中,设X是一个离散型 随机变量 ,若E{[X - E(X)]2}存在,则称E{[X - E(X)]2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。
  
 离散型随机变量方差计算公式: D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2 
  
 当D(X) = E{[X-E(X)]2}称为变量X的方差,而
  
 称为标准差(或 均方差 )。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的 统计量  
                                          
 对于连续型随机变量X,若其定义域为(a, b),概率密度函数为f(x),连续型随机变量X方差计算公式:D(X) =
  
 (x - μ)2* f(x)dx,方差刻画了随机变量的取值对于其数学期望的 离散程度 。(标准差、方差越大,离散程度越大),若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。
                                          
 
  
  
 三、标准差
  
 # 参考百科:  标准差  
  
  1)定义
  
 标准差(Standard Deviation)又常称  均方差  ,是方差的算术平方根,反映一个数据集的离散程度
  
  2)应用
  
 在 概率 统计中:最常使用作为 统计分布 程度(statistical dispersion)上的测量。
  
 标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的 平方根 。它反映组内个体间的离散程度
  
 测量到分布程度的结果,原则上具有两种 性质 :
  
 为非负数值, 与测量 资料 具有相同单位
  
 一个总量的标准差或一个 随机变量 的标准差,及一个子集合样品数的标准差之间,有所差别。
  
 公式:
  
 假设有一组数值X₁,X₂,X₃,......Xn(皆为 实数 ),其 平均值 ( 算术平均值 )为μ
  
 标准差也被称为 标准偏差 ,或者实验标准差,公式:
                                          
  3)其它
  
 简单来说,标准差是一组数据 平均值 分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值
                                                                                  
 
  
  
 
  
  
 四、均方误差
  
  1)定义
  
 均方误差(mean-square error, MSE)是反映 估计量 与被估计量之间差异程度的一种度量。
  
 设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的 数学期望 ,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的 方差 与 偏倚 。
  
 
  
  
  2)名词介绍
  
  相合估计 (或一致估计)是在大样本下评价估计量的标准,在样本量不是很多时,人们更加倾向于基于小样本的评价标准,此时,对 无偏估计 使用 方差 ,对 有偏估计 使用均方误差。
  
 一般地,在 样本量 一定时,评价一个点估计的好坏标准使用的指标总是点估计
  
 与参数真值
                                          
 的距离的函数,最常用的函数是距离的平方,由于估计量
                                          
 具有随机性,可以对该函数求 期望 ,这就是下式给出的均方误差:
                                                                                  
 
  
  
 均方误差是评价 点估计 的最一般的标准,自然,我们希望估计的均方误差越小越好,注意到
                                                                                                                          
 上式说明,均方误差
  
 由点估计的方差
                                          
 与偏差
                                          
 的平方两部分组成。
                                          
 如果 
  
 是 θ 的无偏估计,则
                                          
 ,此时用均方误差评价点估计与用方差是完全一致的,这也说明了用方差考察无偏估计是合理的。
                                          
 当
  
 不是 θ 的无偏估计,就要看其均方误差
                                          
 ,即不仅看方差大小,还要看其偏差大小,下面的例子说明在均方误差的含义下,有些有偏估计优于无偏估计。
                                          
 
  
  
  3)一致性最小的均方误差估计
  
  定义1 :
  
 设有样本
  
 对待估参数 θ,有一个估计类,称
                                          
 是该类中θ的一致最小均方误差估计,如果对该类估计中另外任意一个θ的估计
                                          
 ,在 参数空间 
                                          
 上都有
                                                                                  
 使用情况:
  
 一致最小均方误差估计通常是在一个确定的估计类中进行的,一致最小均方误差估计一般是不存在的。
  
 既然一致最小均方误差估计一般是不存在的,人们通常就对估计提出一些合理性要求,如 无偏性 就是一个常见的合理性要求。 
  
 一致最小方差无偏估计前面曾指出,均方误差
  
 由点估计的方差
                                          
 与偏差
                                          
 的平方两部分组成,当
                                          
 是 θ 的无偏估计时,均方误差就简化为方差,此时一致最小均方误差估计就是一致最小方差无偏估计。
                                          
 
  
  
  定义2 : 
  
 设
  
 是 θ 的无偏估计,如果对于任意一个θ的无偏估计
                                          
 ,在参数空间
                                          
 上都有
                                          
 则称
                                          
 是 θ 的一致最小方差无偏估计,简记为UMVUE。 
                                          
 
  
  
 
  
  
 五、估计量
  
  1)定义
  
  用来估计总体未知参数用的 统计量  。
  
 在 统计学 中,估计量是基于观测数据计算一个已知量的估计值的法则:于是 估计量 (estimator)、被估量(estimand)和估计值(estimate)是有区别的。
  
  估计值 :当经 测定 的具体 数值 代入估计量时,它就是一个具体的数值,称为 估计值 ,英文是estimator。
  
 
  
  
  2)举例
  
 设(X1,……,Xn)为来自总体X的样本,(X1,……,Xn)为相应的样本值,θ是总体分布的未知参数,θ∈Θ。
  
  Θ  表示 θ 的取值范围,称 Θ 为参数空间。尽管 θ 是未知的,但它的参数空间 Θ 是事先知道的,为了估计未知参数θ,我们构造一个统计量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 来估计θ的真值,称h(X1,……,Xn)为θ的估计量。
  
 
  
  
 假设存在一个固定的待估参数。那么"估计量"是 样本空间 映射到 样本估计值 的一个函数。
                                          
 的一个估计量记为
                                          
 。很容易用随机变量的代数来阐述这个理论:因而如果用 X 来标记对应观测数据的 随机变量 ,估计量(本身视为随机变量)的符号表示为该随机变量的函数,
                                          
 。对特定观测数据集(即对于 X = x )的估计值为一固定值
                                          
 。通常使用简化标记,用
                                          
 表示随机变量,不过这会造成误解。
                                          
 
  
  
  个人理解: 
  
 目的:估计总体数据集 X 的分布情况,即 θ;
  
 方法:从总体数据集 X 中抽取一组样本 h,根据 h 的分布以及 θ  的取值范围 Θ  来估计总体数据集 X 的分布情况 θ。
  
 
  
  
  3)误差
  
 对于一个给定样本x,估计量
  
 的" 误差 "定义为
                                          
 其中
                                          
 是待估参数。
                                          
 注意误差 e 不仅取决于估计量(估计公式或过程),还取决于样本。
  
 
  
  
  4)均方误差
  
 估计量
  
 的均方误差被定义为误差的平方的 期望值 ,即为:
                                          
 。
                                          
 它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比:假设“参数”是靶子的靶心,“估计量”是向靶子射箭的过程,而每一支箭则是“估计值”(样本)。那么,高均方误差就意味着每一支箭离靶心的平均距离较大,低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚,也可能不。比如说,即使所有箭支都射中了同一个点,同时却严重偏离了靶子,均方误差相对来说依然很大。然而要注意的是,如果均方误差相对较小,箭支则更有可能集聚(而不是离散)。
  
 
  
  
  5)一致性
  
 一致估计量序列是一列随着序号(通常是样本容量)无限增大时依概率 收敛 于被估量的估计量序列。换句话说,增加样本容量增大了估计量接近总体参数的概率。
  
 在数学上,一个估计量序列 { tn ; n ≥ 0} 是参数 θ  的一致估计量当且仅当对于所有 ϵ  > 0,不管多小,我们都有
  
 ;
                                          
 就如,一个人不断地抛硬币,随着次数的增多,任何一面出现的 概率 (机率)就会趋于0.5。那么这个0.5就是这个抛硬币事件中任何一面出现概率的一致估计量,或者说一致估计值。
  
 
  
  
 
  
  
 六、高斯函数、正态分布
  
  1)定义
  
  格式 :
                                          
  a 、 b 与 c 为 实数 常数,且 a > 0;
  
  c = 2的高斯函数是 傅立叶变换 的 特征函数 。这就意味着高斯函数的傅立叶变换不仅仅是另一个高斯函数,而且是进行傅立叶变换的函数的 标量 倍。
                                          
 
  
  
  2)积分
  
 任意高斯函数的积分是:
                                          
 另一种形式是:
                                          
 其中 f  必须是严格积分的积分收敛;
  
 
  
  
  3)正态分布
  
 参见百科:  https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83  
  
 公式:
                                          
 正态分布(Normal distribution),也称“常态分布”,又名 高斯分布 (Gaussian distribution)
  
 高斯函数是  正态分布  的密度函数,根据  中心极限定理  它是复杂总和的有限  概率分布  ;
  
 若 随机变量 X服从一个 数学期望 为μ、 方差 为σ^2的正态分布,记为N(μ,σ^2)。其 概率密度函数 为正态分布的 期望值 μ决定了其位置,其 标准差 σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是 标准正态分布 。
  
 
  
  
 定理:
  
 由于一般的正态

统计学基础理论

4. 统计学的三大基石是哪三个理论

统计学有三大基石,即正态分布、大数定律和中心极限定理。
其中“大数定律”解决了样本和总体的关系问题,其核心思想就是当样本量足够大的时候,样本的分布(均值)与总体的分布(真实均值)充分接近,也就是可以把二者看作是相等的。
大数定律告诉我们只要获取适合的数据样本量就可以把握住事物的分布规律,而不需要所谓的海量数据。关键是数据样本的代表性、数据的真实性有效性以及适合的样本量。

其实,大数据的“大”包括两方面的含义,其一是指数据的数量,其二是指数据的种类。在获取数据手段技术不断创新、成本下降的情况下,可以增加指标库,把我们过去无法获得或获取成本较高的指标数据纳入到我们的数据库。
比如说,过去人才库只有性别、年龄、学历、工龄等基本数据,现在我们可以通过测评把一个人的能力、个性、动力等特征数据放进去,这些数据能够帮助管理者实现更精准的人岗匹配,降低用人风险,优化人才结构,控制人力成本,提升人力资源的价值贡献度。

5. 统计学的经济理论基础是什么

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。
配第在书中使用的数字有三类:
第一类是对社会经济现象进行统计调查和经验观察得到的数字。因为受历史条件的限制,书中通过严格的统计调查得到的数据少,根据经验得出的数字多;
第二类是运用某种数学方法推算出来的数字。其推算方法可分为三种:
(1)以已知数或已知量为基础,循著某种具体关系进行推算的方法;
(2)通过运用数字的理论性推理来进行推算的方法;
(3)以平均数为基础进行推算的方法”;
第三类是为了进行理论性推理而采用的例示性的数字。配第把这种运用数字和符号进行的推理称之为“代数的算法”。

统计学的经济理论基础是什么

6. 统计学中的三大基石是哪三个理论

统计学的三大基石对应的三个理论,分别是:正态分布,大数定律,中心极限定理。

正态分布,一般是指一个指标并不是只受到某一种因素决定的,而是受到各种综合因素的影响来决定。从统计图来看,正态分布的数值趋势是呈钟型,即两头数值低,中间数值高。例如,社会上需要政府资助的人和上层人士数值在两端,很少。但中层等人的数值在中间,非常多。
大数定律,一般是指在随机事件的大量重复出现中,呈现几乎必然的规律。就是得到合适的样本数据的量就可以大概掌握事物的规律。但大数定律要求数据样本是真实的,有效的。
中心极限定理和正态分布有相关联系,中心极限定理的分布与正态分布的分布相似。中心极限定理可以描述为样本平均值约等于总体的平均值。

7. 统计学的经济理论基础是什么

1、什么是统计学?统计方法可以分为哪两大类?
统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方法和推断统计方法。
2、统计数据可分为哪几种类型?不同类型的数据各有什么特点?
按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。
按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。
3、举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含研究的全部个体的集合。比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体。样本是从总体中抽取的一部分元素的集合。比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。参数是用来描述总体特征的概括性数字度量。比如要调查一个地区所有人口的平均年龄,“平均年龄”即为一个参数。统计量是用来描述样本特征的概括性数字度量。比如要抽样调查一个地区所有人口的平均年龄,样本中的“平均年龄”即为一个统计量。变量是说明现象某种特征的概念。比如商品的销售额是不确定的,这销售额就是变量。
第二章:数据的收集
1、调查方案包括哪几个方面的内容?
调查目的,是调查所要达到的具体目标。调查对象和调查单位,是根据调查目的确定的调查研究的总体或调查范围。调查项目和调查表,要解决的是调查的内容。
2、数据的间接来源(二手数据)主要是公开出版或公开报道的数据;数据的直接来源一是调查或观察,二是实验。
3、统计调查方式:抽样调查、普查、统计报表等。
抽样调查是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种数据收集方法。特点:经济性,时效性强,适应面广,准确性高。普查是为某一特定目的而专门组织一次性全面调查。我国进行的普查主要有人中普查、工业普查、农业普查等。统计报表是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。
除此之外,还有重点调查和典型调查。
4、统计数据的误差通常是指统计数据与客观现实之间的差距,误差的主要类型有抽样误差和非抽样误差两类。
抽样误差主要是指在样本数据进行推断时所产生的随机误差(无法消除);非抽样误差是人为因素造成的(理论上可以消除)
5、统计数据的质量评价标准:精度,即最低的抽样误差或随机误差;准确性,即最小的非抽样误差或偏差;关联性,即满足用户决策、管理和研究的需要;及时性,即在最短的时间里取得并公布数据;一致性,即保持时间序列的可比性;最低成本,即在满足以上标准的前提下,以最经济的方式取得数据。
6、数据的收集方法分为询问调查与观察实验。
7、统计调查方案包括哪些内容?
调查目的即调查所要达到的具体目标;调查对象和调查单位,调查对象是根据调查目的确定的调查研究的总体或调查范围,调查单位是构成调查对象中的每一个单位;调查项目和调查表,就是调查的具体内容;其它问题,即明确调查所采用的方式和方法、调查时间及调查组织和实施细则。
第三章:数据整理与展示
1、对于通过调查取得的原始数据,应主要从完整性和准确性两个方面去审核。
2、对分类数据和顺序数据主要是做分类整理,对数值型数据则主要是做分组整理。
3、数据分组的步骤:确定组数、组距,最后制成频数分布表
统计分组时“上组限不在内”,相邻两组组限间断,上限值采用小数点。
组中值=(下限值+上限值)/2
4、频数:落在各类别中的数据个数;频数分布指把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来;比例:某一类别数据占全部数据的比值;百分比:将对比的基数作为100而计算的比值;比率:不同类别数值的比值;分类数据的图示包括条形图和饼图。
5、直方图与条形图的差别:条形图是用条形的长度表示各类别频数的多少,宽度则是固定的,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
第四章:数据分布特征的测度
1、一组数据的分布特征可以从哪几个方面进行测度?
一是分布的集中趋势反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
2、简述众数、中位数和均值的特点和应用场合及关系。
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数主要作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。
均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。
关系:如果数据的分布是对称的,众数、中位数和均值必定相等,即Mo=Me=xbar;如果数据是左偏分布,说明数据存在极小值,三者之间的关系表现为:xbar<Me<Mo;如果数据是右偏公布,说明数据存在极大值,必然拉动均值向极大值一方靠,则Mo<Me<xbar(图)
3、为什么要计算离散系数?
第一,极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小取决于原变量值本身水平高低的影响。第二,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,为消除变量值水平高低和计量单位不同对离散程度的测度值的影响,需要计算离散系数。
4、均值是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。
5、四分位差主要用于测度顺序数据的离散程度,数值型数据也可以计算四分位差,但不适合于分类数据。
6、方差是各变量值与其均值离差平方的平均数。方差的平方根是标准差。
方差、标准差计算公式(分组数据、未分组数据两种,自己写)
样本方差和标准差计算公式(同上)
7、对于分类数据,主要用异众比率来测度其离散程度;对于顺序数据,主要用四分位差来测度其离散程度;对于数值型数据,主要用方差或标准差来测度其离散程度。
8、经验法则:68%-1;95%-2;99%-3
第五章:抽样与参数估计
1、常用的概率抽样方法主要有:简单随机抽样,分层抽样,系统抽样,整群抽样
2、置信水平(P115)
第七章:相关与回归分析
1、解释相关关系的含义,并说明其特点。
相关关系是变量与变量之间存在的不确定的数量关系。特点是:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。

统计学的经济理论基础是什么

8. 为什么说描述统计学是推断统计学的基础

统计学发展史说明,先有社会统计学后有数理统计学;先有变量后哟随机变量。社会统计学描述的是变量,数理统计学描述的是随机变量,而变量和随机变量是两个既有区别又有联系,且在一定条件下可以相互转化的数学概念。社会统计学以变量为基础,数理统计学以随机变量为基础。
当变量取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。
由于我们概准确地界定了社会统计学变量与数理统计学随机变量的各自研究的范围,。 既然社会统计学描述的是变量,而变量描述的范围是极其宽广的,绝非某些数理统计学者所云:社会统计学只作简单的加、减、乘、除。从理论上讲,社会统计学应该复盖除了数理统计学之外的绝大多数数学学科的运作。所以王见定教授提出的:“社会统计学与数理统计学统一”理论,从根本上纠正了统计学界长期存在的低估社会统计学的错误学说,并从理论上和应用上论证了社会统计学的广阔前景。
从统计学上看,统计学的主要问题是变量(或近似变量问题),近似变量问题是微积分的扩展;而不是随机变量,就象牛顿力学在今天在使用上仍占主导地位,而不是相对论力学;因为物体在多数情况下是远离光速的。
最新文章
热门文章
推荐阅读