具有启发性的地方

泉達栎
2018-03-05 16:31:34

1. expected test MSE

use:to assess the accuracy of model predictions.

obtain: repeatedly estimate f using a large number of training sets and test each at x0.

decompose: into 3 parts -- variance, bias and irreducible error.

note: the meaning of variance and bias, the trade-off between variance and bias (geneally, more flexible methods result in higher variance and less bias).

2. 理解 the standard error of the mean (SEM)

1) 为什么要提出 SEM 的概念?

因为在平均意义上,样本均值作为总体均值的估计是无偏的。但是,对于一个单独的样本来说,我们把它的均值作为总体均值的估计会造成偏差。这种偏差的平均水平将由 SEM 来度量。

2) 一个 population 有自身的分布,因而有自身的 mean 和 variance。现在由于观测不到 population mean,用 sample mean 作为 population mean 的估计(样本统计量作为总体参数的估计值例子之一)。重复抽样并记录下多个 sample mean,这些 sample mean 形成了一个新的分布,叫做 the sampling distribution of the population mean,这个分布又有自身的 mean 和 variance。

- 新分布的 mean 等于 population mean(unbiasedness)。

- 新分布的 variance 等于 population variance 除以样本容量n。

注:SEM 的概念本身没什么好说的,但对于区分总体分布、样本分布、样本统计量的分布有益。譬如问到估计 population mean 的 standard error 是什么(怎样获得),它与 population 的 standard deviation/variance 有什么区别和联系,应该用上述过程作答。

3. 解释 simple linear regression 和 multiple linear regression 结论中看似矛盾之处

simple linear regression 显示 sales 和 newspaper 显著相关,然而在 sales 对 newspaper、TV、radio 的 multiple linear regression 中,sales 和 newspaper 的相关关系却并不显著,如何解释这种矛盾?

关键在于,simple 是 ingnoring other predictors,而 multiple 是 holding other predictors fixed.

检查相关系数矩阵可以发现,newspaper 和 radio 之间的相关系数很大。那么极有可能是,newspaper 本身对 sales 没什么影响,但更高的 newspaper 时常伴随着更高的 radio,而 radio 对 sales 有显著影响。因此,simple 显示的是伪相关关系,newspaper 只是 radio 的一个代理变量。

常见的例子还有溺水率--天气--冰淇淋销量,并不是冰淇淋导致了溺水率的上升,而是冰淇淋的高销量时常伴随着高温天气,高温天气导致高溺水率。

这种矛盾间接说明了选取控制变量的重要性。

===

2018/5/6 补充:

刚刚读到 Bruce Hansen 的 notes,发现有更本源的解释。2.14 节 regression derivative

But in the case of a regression derivative, the conditional mean does not literally hold all else constant. It only holds constant the variables included in the conditional mean. This means that the regression derivative depends on which regressors are included. For example, in a regression of wages on education, experience, race and sex, the regression derivative with respect to education shows the marginal effect of education on mean wages, holding constant experience, race and sex. But it does not hold constant an individual’s unobservable characteristics (such as ability), nor variables not included in the regression (such as the quality of education).

4. 有了 t 检验为什么还需要 F 检验

学统计学的时候,问题的答案很明显,因为 t 检验针对单个参数,而 F 检验针对回归方程(多个参数)。但这样回答只是因为 we're taught to believe this。进一步追问,F 检验的 alternative hypothesis 是至少有一个参数不为0,那我直接看各个参数的 t-statistic 或者 p-value,只要有一个显著,不就可以拒绝 F 检验的 H0 了吗?

这个逻辑是错误的,因为在变量个数 p 很大时会出问题。假设 F 检验的 H0 为真,每个参数都等于0,在5%的显著性水平下,p-values 仅凭运气小于 0.05 的概率为 5%,100个变量参数平均而言会有5个显著,至少有1个显著的概率几乎是100%,问题就在这里。而 F-statistic 根据变量个数进行了调整,不管有多少个变量,p-value 小于 0.05 的概率均为 5%。

5. 解释 simple logistic regression 和 multiple logistic regression 结论中看似矛盾之处

在 default 对 balance, income, student [Yes] 的 multiple logistic regression 中,student [Yes] 这个 dummy variable 的系数为负,而在 default 对 student [Yes] 的 simple logistic regression 中系数为正。如何解释?

和 3 一样,关键在于 simple 是 ingnoring other predictors,而 multiple 是 holding other predictors fixed. 余额相同时,非学生比学生的违约概率更高,但是由于学生比非学生通常持有更多余额,学生的平均违约概率高于非学生。

6. the overall error rate is not of interest

2
0

查看更多豆瓣高分好书

回应(0)

添加回应

An Introduction to Statistical Learning的更多书评

推荐An Introduction to Statistical Learning的豆列

了解更多图书信息

豆瓣
免费下载 iOS / Android 版客户端