白话统计的乐趣 - 基础应用统计的入门佳作

eric
2018-04-05 22:23:12

本科时候对统计学的印象,就是几本不厚的书,里面一堆又一堆莫名其妙的公式,背下来考试时候套一套就可以过了。然而发现统计在生活工作中如此深刻而有效的应用后,才会发觉统计的乐趣。

基础的应用统计有两个作用:

1. 已知一个分布的模型,然后应用到实际问题中来。所有的模型性质和样本产生的机制都清清楚楚,那么分析和预测是多么愉快的一件事。

2. 已知一大堆的样本数据和相关信息,来做实际的分析工作。什么都没有,只有一堆数据,也能进行大量有效的分析,这个就更厉害了。

一、基础应用统计的三大奇迹

三个具有历史意义的重大发现,现在看来无比的简单,却蕴含着深刻的哲理,也是最有效的理论工具。第一、随机变量的相关性。任何一大堆X的样本值和Y的样本值,他们有没有什么联系,一个变化了另一个会怎样变化,这就是相关性;第二,中心极限定理。一大堆独立同分布的任何随机变量(存在均值和方差),数量足够多的情况下,这一堆数的均值都是正态分布,而且方差和根号n成反比

...
显示全文

本科时候对统计学的印象,就是几本不厚的书,里面一堆又一堆莫名其妙的公式,背下来考试时候套一套就可以过了。然而发现统计在生活工作中如此深刻而有效的应用后,才会发觉统计的乐趣。

基础的应用统计有两个作用:

1. 已知一个分布的模型,然后应用到实际问题中来。所有的模型性质和样本产生的机制都清清楚楚,那么分析和预测是多么愉快的一件事。

2. 已知一大堆的样本数据和相关信息,来做实际的分析工作。什么都没有,只有一堆数据,也能进行大量有效的分析,这个就更厉害了。

一、基础应用统计的三大奇迹

三个具有历史意义的重大发现,现在看来无比的简单,却蕴含着深刻的哲理,也是最有效的理论工具。第一、随机变量的相关性。任何一大堆X的样本值和Y的样本值,他们有没有什么联系,一个变化了另一个会怎样变化,这就是相关性;第二,中心极限定理。一大堆独立同分布的任何随机变量(存在均值和方差),数量足够多的情况下,这一堆数的均值都是正态分布,而且方差和根号n成反比。第三,正态分布。

二、已发现并研究透彻的分布模型

先人们通过观察和认真思考,发现了这些无处不在的总体分布模型,并透彻研究了他们的均值,方差,概率函数,分布函数与各种特性。我们遇到同样的问题,可以直接套用前辈们的研究成功,多么开心的一件事。

离散型: 1. 多次抛硬币的正反面出现次数的分布-> 伯努利分布

2. 公司每分钟接到电话数量的分布(同样事件在单位时间内发生的次数 )-> 泊松分布

3. 一堆白球一堆黑球,抽取n次刚好x个白球的分布(不放回的二次分布) -> 超几何分布

连续型:1.扔塞子的点数的分布 -> 均匀分布

2.身高/考试成绩分布 -> 正态分布

3. 公司每接到两个电话之间间隔的时间的分布(同样时间发生的时间间隔分布) -> 指数分布

4. 收入财富的分布 -> 幂率分布

、从数据样本下手 - 用统计量和统计量的分布(抽样分布/点估计/区间估计/检验假设/统计推断)

不知道分布的情况下,没法套用模型。只能从一堆抽样的样本中,找寻数据的价值,幸好先人们对样本分布研究了一些方法。对独立同分布的随机变量的总体均值的分布研究思路如下:

1.万物均值皆正态。 不知道随机变量的分布没关系,根据中心极限定理,大量独立同分布随机变量的样本的整体均值分布都是正态分布,符合N(μ,σ2/sqrt(n))。并且样本均值分布的μ就是原随机变量的均值,那么即便不知道随机变量的分布,至少均值是很容易知道了。

2. 通过样本统计量的分布的计算,进行样本分布的各种估计与推断。核心在于找到对应的样本统计量,并运用统计量分布来推导当前样本的分布。

点估计:

样本均值,算出来就是随机变量均值μ 的无偏估计量

样本方差,算出来就是随机变量方差σ2 的无偏估计量

区间估计:

无偏是不够的,还要说明一下上下波动的范围,以及对应的置信度。这就是区间估计。对于样本均值的区间:如果知道分布模型的方差,样本的Z统计量满足标准正态分布,对着正态分布的概率密度图,根据自己期望的置信区间换算出来对应的置信度,或者反之;如果不知道分布模型的方差,样本的T统计量满足自由度为n-1的t分布,对着t分布的概率密度图,做同样的换算即可。同理,通过样本方差和卡方分布可以计算出方差的区间估计。

检验假设:

实质上和区间估计一回事,就是从假设的反命题入手,应用的更广泛一些。区间估计是根据样本统计量分布的置信度来确定置信区间;检验假设也是根据样本统计量分布,不过是通过反命题的拒绝域(p值)出发,来确定拒绝空间(t分布情况的t值,正态分布的z值,卡方分布的卡方值等)。

统计推断:

对非总体均值的研究,也是类似的方法,可以通过适当的统计量的分布,来推断一些其他的问题。如两总体均值之差是否相等,一个整体方差的区间估计,两个整体方差是否相等等等问题。核心都是找到适合的已知分布的统计量,总的思路大同小异:对于总体均值类问题,用正态分布/t分布的统计量来进行区间估计和检验假设;对于总体方差类问题,用卡方和F分布的统计量进行区间估计和检验假设。

、从数据样本下手 - 相关性分析(回归模型)

有很多种计算随机变量X和Y的相关性的方法,皮尔森相似度,线性回归,决策树等等。线性回归是一种针对,XY有存在单调性关系的有效的解决方法。

模型公式:y=b0+b1*x+e

前提与假设:e是独立同分布的随机扰动变量。且满足均值为0,标准差未知的正态分布。

求解参数方法: 最小二乘法,目标函数为最小化残差的平方和。

拟合优度与相关系数:拟合结果的评估可以用分解平方和的方式进行归一化。SSE为残差部分的平方和,SSR为回归部分的平方和,SST是总的平方和。在最小二乘的约束下,可以证明SST=SSR+SSE。那么拟合优度的计算就很简单了,用SSR/SST,或者1-SSE/SST。总之,求得总平方和种,回归部分的占比,或者1-残差部分的占比,越高表示回归的结果越强。开方该值介于-1到1之间,可以作为相关系数的一种求法,和皮尔森相关系数的计算结果非常接近。

显著性分析:书中这部分直接摆公式教你怎么用,其实每一步的证明都可以单独列为一个章节。采用检验假设的方法,构建虚无假设:X与Y无关,即b1的期望为0。由于残差e有正态分布的前提,系数b1可视为一个统计量,可以证明b1的样本分布也为正态分布,b1的期望为0并且b1的样本方差可以由y和x的样本推导出来。于是,对于统计量b1,进行t检验,由给定的p值拒绝域,计算出对应的t值。该p值表示了,b1在期望为0的情况下,得到当前期望值的概率。如果p极低,可以拒绝虚无假设。

残差分析:回归模型以e是独立同分布,且均值为0的正态分布作为前提。因此参数得出后,可以观察残差的分布。如果是独立的正态的,则说明假设正确,拟合的不错;如果前后存在明显的相关性,或者明显不是正态,那么就是有问题的。回归的结果不可靠。

共线性问题:多元变量很容易出现共线性问题,多个自变量有相关性。直接造成参数估计量的方差变大,各个变量的t值变小,显著性检验变得无效。如果发现回归的F值(根据残差平方和占比计算)很大,t值确很小,即回归有效的降低了残差平方和,但是各个自变量都不显著,通常就是发生了共线性问题。也可以直接对各个自变量做相关性分析,相关性高的话就要注意一下了。解决这个问题方法很多,比如增加样本数据量,可以降低参数统计量的方差,降低共线性造成的影响;也可以降维,如PCA方法,把自变量投影到低维度的正交的新坐标中;也可以通过rigde/lasso增加正则惩罚,限制自变量的权重和数量的增加。

先写这么多吧。总之,这本书是面向统计学新人的一本好书。感觉像一堆教授用很啰嗦的例子,各种白话教小朋友。很适合入门的新人理解并打基础。但是,如果有了不错的基础,估计就翻小说一样看了,并没有很深入的探究。

1
0

查看更多豆瓣高分好书

回应(0)

添加回应

商务与经济统计的更多书评

推荐商务与经济统计的豆列

了解更多图书信息

豆瓣
免费下载 iOS / Android 版客户端