深入浅出的统计学

phoenix
2015-03-29 看过
稍微对本书一些在意的地方做个总结。
一、数据与偏见
1.选择性偏见。
样本选择存在偏见。
2.发表性偏见。
肯定性的研究发现比否定性的研究发现更容易被发表。
3.记忆性偏见。
记忆会“由果推因”,没有记忆性偏见是纵向研究优于横向研究的原因之一。
4.幸存者偏见。
让表现差的退场。
5.健康用户偏见。
用户之所以健康,是因为他们本身更关注健康。

二、中心极限定理
中心极限定理的核心要义是:一个大型样本的正确抽样与其所代表的群体存在相似关系。
虽然每个样本之间可能存在差异,单任一样本与整体之间存在巨大差异的概率是较低的。
应用场景:
1.如果我们掌握了某个群体的具体信息,就可以推理出从这个群体中正确抽取的随机样本的情况。
2.如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精确推理。
3.如果我们掌握了某个样本数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。
4.如果我们已知两个样本的基本特征,就能推理出这两个样本是否去自同一群体。

三、假阳性与假阴性
零假设为“阴性”。
1.如果检测结果推翻了零假设,而事实上并没有患病,那么即是“假阳性”,犯假阳性错误的概率即犯第一类错误(去真)的概率。
2.如果检测结果没有推翻零假设,而事实上患病,那么及时“假阴性”,犯假阴性错误的概率即犯第二类错误(取伪)的概率。

四、回归分析错误
1.用回归方程来分析非线性关系。
2.相关关系并不等同于因果关系。
回归分析只能证明两个变量之间存在关系,仅凭数据无法证明其中一个变量变化就一定能导致另一个变量也发生变化。
3.变量A与变量B的因果倒置。
不应该使用受结果影响的解释变量。
4.变量遗漏偏差。
解释变量A可能会“覆盖”解释变量B,内生性。
5.高度相关的解释变量。
多重共线性,解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
6.脱离数据进行推断。
7.数据矿。
变量过多,如果取显著性水平0.05,那么每20个变量就可能出现一个假显著性。

五、项目评估与“反现实”—对照组即是“反现实”
1.随即控制实验。
安排实验组和对照组。
2.自然实验。
3.非对等对照组实验。
实验组和对照组之间存在一些难以察觉的差异,这些差异影响了小组成员的分配和组成,从而产生和现实有偏差的结论,这就是”非对等对照“,可以这样设置实验组和对照组:实验组为”进入名牌大学学习的同学“,对照组为”凭才华和实力可以进入名牌大学却选择去竞争没那么激烈的高校的同学“。
4.差分类差分实验。
首先,对某个群体接受某项介入因素或治疗之前和之后的数据进行比较,其次,将这些数据与另一个没有推出就业政策的同类组同样的指标进行比较。重要的是,用于分析的两个对象除了是否有介入因素之外,其他方面的情况基本相似,因此若两组结果之间存在显著差异,则可以认为是所评估的项目或政策的效果。
5.不连续分析实验。
将那些刚好符合介入或治疗条件的对象,以及以毫厘之差错失治疗机会的对象进行比较,即取两个群体的边界值。
5 有用
0 没用

查看更多豆瓣高分好书

评论 0条

添加回应

赤裸裸的统计学的更多书评

推荐赤裸裸的统计学的豆列

了解更多图书信息

豆瓣
免费下载 iOS / Android 版客户端