统计学有哪三个理论基础

2024-05-06 12:49

1. 统计学有哪三个理论基础

统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方法和推断统计方法。
为了实际的理由，我们选择研究母体的子集代替研究母体的每一笔资料，这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。

相关观念：
为了实际的理由，我们选择研究母体的子集代替研究母体的每一笔资料，这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。
资料是统计分析的对象，并且被用做两种相关的用途：描述和推论。描述统计学处理有关叙述的问题：资料是否可以被有效的摘要，不论是以数学或是图片表现，以用来代表母体的性质？基础的数学描述包括了平均数和标准差。图像的摘要则包含了许多种的表和图。

统计学有哪三个理论基础

2. 统计学基础

 最近休息在家无聊，整理下之前看的统计学的一些基础知识，方便以后查阅吧。
                                                                                                                                                                                                           刚开始接触这个公式的话可能会有一个疑问就是：为什么样本方差要除以（n-1）而不是除以 n？为了解决这个疑惑，我们需要具备一点统计学的知识基础，关于总体、样本、期望（均值）、方差的定义以及统计估计量的评选标准。有了这些知识基础之后，我们会知道样本方差之所以要除以（n-1）是因为这样的方差估计量才是关于总体方差的无偏估计量。这个公式是通过修正下面的方差计算公式而来的：
                                            彻底理解样本方差为何除以 n-1 
                                                                                   
   
                                           
   
                                            (x 为平均数)
    样本均值的抽样分布 
   ps：这里的样本均值，是指抽离多个样本的均值，不是单个样本的均值 ！！！
   随机变量（random variable）表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达
   在数学中，连续型随机变量的概率密度函数（在不至于混淆时可以简称为密度函数）是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候，累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记。
                                                                                                                           组合
                                           排列
                                                                                    期望公式： 
                                                                                   E(X) = np (若 X 服从二项分布 B(n,p))
                                            频率和概率以及均值和期望的联系区别 
   泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA 序列的变异数、放射性原子核的衰变数等等。
                                                                                   泊松分布的参数 λ 是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。
   实验结果满足泊松分布的实验即为泊松过程。
                                            泊松过程 
    泊松分布、泊松过程、泊松点过程 
   是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到，大数定律并不是经验规律，而是在一些附加条件上经严格证明了的定理，它是一种自然规律因而通常不叫定理而是大数“定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理，如伯努利大数定理 [2] 。   （抛硬币概率在测试次数很多的时候正反的概率应该都趋势与.5）
    样本值落在两个标准差范围内的概率是 95.4% 
                                                                                   中心极限定理，是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理，有广泛的实际应用背景。在自然界与生产中，一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。最早的中心极限定理是讨论重点，伯努利试验中，事件 A 出现的次数渐近于正态分布的问题。
   伯努利分布亦称“零一分布”、“两点分布”。称随机变量 X 有伯努利分布, 参数为 p(0<p<1),如果它分别以概率 p 和 1-p 取 1 和 0 为值。EX= p,DX=p(1-p)。伯努利试验成功的次数服从伯努利分布,参数 p 是试验成功的概率。伯努利分布是一个离散型机率分布，是 N=1 时二项分布的特殊情况，为纪念瑞士科学家詹姆斯·伯努利(Jacob Bernoulli 或 James Bernoulli)而命名。
                                                                                                                           
   
                                           样本数量大于 n > 30 用 Z-table，反之用 T-Table
   在进行假设检验时，由于检验统计量是随机变量，有一定的波动性，即使原假设 H0 为真，在正常的情况下，计算的统计量仍有一定的概率 α(α 称为显著性水平)落入拒绝域内，因此也有可能会错误地拒绝原假设 H0，这种当原假设 H0 为真而拒绝原假设的错误，称为假设检验的第一类错误，又称为拒真错误。
   线性回归方程是利用数理统计中的回归分析，来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一。线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。
                                                                                   在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。 [1]
   期望值分别为 E[X]与 E[Y]的两个实随机变量 X 与 Y 之间的协方差 Cov(X,Y)定义为：
   Cov(x,y) = E[(x - E[x])(y - E(y))]   = E[xy] - 2E[y]E[x] + E[x]E[y]   = E[xy] - E[y]E[x]   从直观上来看，协方差表示的是两个变量总体误差的期望。
   如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。
   如果 X 与 Y 是统计独立的，那么二者之间的协方差就是 0，因为两个独立的随机变量满足 E[XY]=E[X]E[Y]。
   但是，反过来并不成立。即如果 X 与 Y 的协方差为 0，二者并不一定是统计独立的。
   协方差 Cov(X,Y)的度量单位是 X 的协方差乘以 Y 的协方差。而取决于协方差的相关性，是一个衡量线性独立的无量纲的数。
   协方差为 0 的两个随机变量称为是不相关的。
   回归线斜率 ： m = Cov(X,Y)/Var(X)
   卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为 0，表明理论值完全符合。
                                           F 检验（F-test），最常用的别名叫做联合假设检验（英语：joint hypotheses test），此外也称方差比率检验、方差齐性检验。它是一种在零假设（null hypothesis, H0）之下，统计值服从 F-分布的检验。其通常是用来分析用了超过一个参数的统计模型，以判断该模型中的全部或一部分参数是否适合用来估计母体。

3. 统计学是以什么为理论基础的根据

答：统计学的理论基础是----概率论与正态分布曲线方程的产生

（1）16世纪，伽利略为解答赌徒们提出的问题提出了概率论的基本理论17世纪中期，法国数学家帕斯卡(BlaisePascal,1623-1662)和费马(Pierre deFermat,1601-1665)在讨论解决赌博难题中，创立了概率论，为统计业的发展奠定了重要理论基础。

（2）17世纪末18世纪初瑞士数学家贝努里(JakobBernoulli，1654--1705)创立了贝努里定理，并提出概率论可应用于社会、伦理及经济事务的见解。贝努里定理的产生，为发现正态概率分布创造了条件。1733年，棣莫弗(Abraham de Moivre,1667-1754)提出了正态分布概率和概率的乘法运算法则，推广了贝努里定理，推导出“正态曲线方程”。几十年后，高斯(Karl Friedrich Gauss,1777-1855)和拉普拉斯(Pierre Simon de Laplace,1749-1827)各自独立发现了这个方程。高斯还首次提出了正态分布曲线。到19世纪初期，泊松(SiméonDenis Poisson，1781-1840)积极推广贝努里定理，提出“大数定理”。这些数学家为概率论的发展作出了很大贡献。这个时期的概率论称为古典概率论。

补充：统计学内容：科学方法收集、整理、汇总、描述和分析数据资料，并在此基础上进行推断和决策的科学；归纳统计学/统计推断：通过样本分析来给总体下结论

统计学是以什么为理论基础的根据

4. 统计学概论的计算

因为总样本是10000，而从中抽出4%即样本容量n为10000*4%=400，而由概率度可知临界值为2，由公式极限误差等于临界值乘以标准差除以根号小样本容量，可得极限误差为根号150所以该批电子管的平均寿命为4500加减根号150

5. 统计学基础一

 将所有的数加起来，然后除以数字的个数，这个就是均值，也是我们在计算平均值时最常用的方法。
   在计算均值时，我们需要将所有的数字进行相加，通常是这样：
                                           而为了简化，我们通常用符号∑来表示相加（读作西格玛），上边的相加数学式可以如下表达
                                           均值是最常用的一个平均值，它有一个专门的符号来表示µ（读作缪），所以上述均值表达式如下：
   
                                           
   当数据发生倾斜时，我们往往还要看另外一个数值，叫“中位数”，顾名思义就是处在中间位置的数。比如：我们找了9个人，他们的财富值按从小到大的升序分别是：2万，3万，3万，4万，5万，6万，20万，30万，2亿。这个时候处于中间的是第五个数值：5万，那么5万就是这组数字的中位数。   当有10个人进行统计时，中位数就要计算第5个和第6个数值的均值作为中位数。
   有时候均值和中位数都无法反应实际情况，尤其是数据的分布是两边极大值，极小值偏多，中间值偏少时就会出现偏差，这种情况下我们就需要众数。   比如下边的一组数据：
   这组数据中有20万财富的人数最多有30个，所以这组数据的众数就是20万，也就是说频次最多的数就是众数。
   有时候我们希望度量各个数值相对于均值的距离是怎样的，也就是衡量数值相对于均值是很分散，还是相对集中，这个时候我们怎么计算呢？最初的想法可能是这样的，使用如下方式计算平均距离
                                           我们看一个实际的例子，假设一个公司上半年的销售额如下表所示：
   上半年销售额的均值很容易计算是40万，那么我们计算下平均距离
                                           可以看出这里有一个问题，就是这样求和之后总是为0，因为有大于均值的数值减去均值得正，而小于均值的数值则为负，最后相加为0，因此这样无法反应平均距离。此时我们的 方差 出场了。   为了不出现负值，我们让这个距离值都平方后再相加，如下：
                                           具体到我们的例子，计算如下：
   方差毕竟是平方后的结果，在反映平均距离的时候不够直观，因此我们通常再取其平方根，这样就得到了 标准差 （也叫均方差），使用符号小写的西格玛表示，如下：

统计学基础一

6. 统计基础理论及相关知识的介绍

《统计基础理论及相关知识》是由中国统计出版社2005年04月出版的一本书籍。

7. 统计学概论的介绍

《统计学概论(应用型)》针对应用型院校复合型人才的培养目标，适当弱化了统计学中的数学理论推理，更注重统计学的基本概念和基本原理，增强实验教学，培养学生分析问题、解决问题和动手实践的能力，突出了应用统计的特点。出版社是清华大学出版社。

统计学概论的介绍

8. 统计学基础的介绍

《统计学基础》是2010年由中国人民大学出版社出版的图书，作者是贾俊平。统计学是收集、分析、表述和解释数据的科学。作为数据分析的一种有效工具，统计方法已广泛应用于社会科学和自然科学的各个领域，是各学科领域研究者和实际工作者的必备知识。