统计思维 6.8分
读书笔记 9 相关性
🐶
  • 确定系数(coefficient of determination) 衡量模型拟合结果好坏的指标。
  • 对照组(control group) 对照试验中没有接受处理的组,或受到已知效应处理的组。
  • 相关性(correlation) 对两个变量关系的一种描述。
  • 协方差(covariance) 衡量两个变量变化方向是否一致的统计量。
  • 因变量(dependent variable) 我们想要解释或者预测的变量。
  • 自变量(independent variable) 用于预测因变量的变量,也称解释变量。
  • 最小二乘拟合(least squares fit) 最小化残差平方和的数据拟合方法。
  • 自然试验(natural experiment) 一种试验设计的方法,就是利用自然形成的界限将受试者分成几个分组,并且大体上使得分组结果接近随机分组。
  • 归一化(normalize) 将一组数据进行转换,使其均值为0,方差为1。
  • 随机对照试验(randomized controlled trial) 一种试验设计的方法,将受试者随机分成几个分组,并对不同的分组实施不同的处理。
  • 秩(rank) 将一个序列按大小排序后,序列中的某个元素所处的位置。
  • 残差(residual) 衡量模型预测结果与真实值离差的值。
  • 标准分数(standard score) 归一化后的值。
  • 处理(treatment) 对照试验中对一个分组所做的干预或改变。

在衡量相关关系的时候会出现的一个问题是,两个变量有不同的度量衡

有两种方法可以解决这些问题。

  1. 将所有的值转换成标准分数(standard score),这就引出了皮尔逊相关系数。
  2. 将所有的值转换成百分等级,这就引出了斯皮尔曼相关系数。

Z公式。。。。xi均值的差异表示一个离差,除以σ是为标准化偏差。且均值为0,方差为1。Z的分布形状与X相似,即如果X是一个正态分布,那么Z也是一个正态分布;如果X的分布函数非对称,或者有一些异常值,那么Z也是如此。这类情况下,百分等级转换会提供更为鲁棒的结果。如R是X的一个百分等级转换结果,那么不论X服从什么类型的分布,R都服从0到100上的均匀分布(R的单位为%)。

协方差(covariance)可以用来衡量相关变量变化趋势是否相同。协方差一般较少使用,因为这个值很难解释。另一个问题是,协方差的单位是X和Y的单位的乘积。(这块想起来了,是学过用过的

相关性

然后用一节拿pyplot和hexbin做了BRFSS的几个散点图。。。可以看一下。。。

如果两组数据的变量分别大致正常,而且两者呈线性关系,那么皮尔逊相关系数可以很好地刻画它们之间的关系。但是皮尔逊相关系数对异常值的影响很敏感。Anscombe构造的4组数据(Anscombe's quartet)说明了这个问题。

斯皮尔曼秩相关系数(Spearman's Rank Correlation)可以用在存在异常值和变量分布非常不对称的情况。为了计算斯皮尔曼秩相关系数,我们先计算序列中数值的秩(rank),即某个值在序列中按大小排序后的位置。将序列转换成秩之后,再计算皮尔逊相关系数,得到的结果就是斯皮尔曼秩相关系数。

除了斯皮尔曼秩相关系数,另一种方法是对原始的数据做一个变换,使得变换之后的结果接近正态分布,然后再算皮尔逊相关系数。例如,如果数据近似服从对数正态分布,那么我们可以先对数据取对数,然后再算相关系数。

相关系数可以衡量两个变量之间线性相关的强度和正负,但是无法知道它们的斜率。有很多方法可以用来估计斜率,其中线性最小二乘拟合(linear least square fit)是最常用的一种方法。线性拟合(linear fit)指的是用一个线性的方程来拟合两个变量之间的关系。最小二乘法(least square)是使拟合函数与数据之间的均方误差达到最小的拟合方法

在用线性模型拟合完数据之后,我们需要评估模型拟合的好坏情况。一种评估模型的办法是计算模型的预测能力。

在一个预测模型中,我们要预测的值称为因变量(dependent variable),而用于预测的值称为解释变量或自变量(explanatory variable或independent variable)。

所以,Var(ε)/Var(Y)表示的是有解释变量情况下的均方误差与没有解释变量情况下的均方误差的比值,也即不能被模型解释的均方误差占总的均方误差的比例。这样R2表示的就是能被模型解释的变异性的比例。

假如一个模型的R^2=0.64,那么我们就可以说这个模型解释了64%的变异性,或者可以更精确地说,这个模型使你预测的均方误差降低了64%。

在线性最小二乘模型中,我们可以证明确定系数和两个变量的皮尔逊相关系数存在一个非常简单的关系,即:

R^2 =ρ^2

一般说来,两个变量之间的相关关系并不能告诉我们一个变量的变化是否是由另一个变量的变化引起的

http://en.wikipedia.org/wiki/Correlation_does_not_imply_causation

那么我们怎么样才能从相关性的信号中得到因果关系的结果呢?

利用时间的先后关系。利用随机性。

随机对照试验(randomized controlled trial)就是根据这些想法设置的。在这种试验中,被试者被随机地分成两组(或多组):实验组(treatment group)会接受某种干预,例如服用某种新药;而对照组(control group)则不接受这种干预,或者只接受已知效应的处理。

随机对照试验的结果在因果关系的鉴定上是最可信赖的方法之一,在循证医学中有广泛的应用。

另外一种方式是进行自然试验(natural experiment)。在这种试验中,我们尽量控制群体在各个方面都是相似的,然后对不同的群体实施不同的处理。这里会涉及的一个问题是各个群体可能存在一些我们观测不到的差异。

在某些情况下我们能通过回归分析(regression analysis)推断出因果关系。线性最小二乘是用自变量解释因变量的简单回归。(一个变量or多个变量的regression

0
《统计思维》的全部笔记 9篇
豆瓣
我们的精神角落
免费下载 iOS / Android 版客户端