# 一点读书笔记

find_my_way
2018-01-31 17:05:59

## Computer Age Statistical Inference读书笔记

Very broadly speaking, algorithms are what statisticians do while inference says why they do them.

...

## Computer Age Statistical Inference读书笔记

Very broadly speaking, algorithms are what statisticians do while inference says why they do them.

## Ch1 Algorithms and Inference

σx¯=σn−−√≈∑ni=1(xi−x¯)2n(n−1)−−−−−−−−−−−−√(1)(1)σx¯=σn≈∑i=1n(xi−x¯)2n(n−1)

``````using CSV
using Plots
using StatPlots
using DataFrames
using GLM

gr()
cd(raw"D:\workspace\github\blog-py\blog\static\essay_resources\Notes_on_Computer_Age_Statistical_Inference")

@df kidney scatter(:age, :Tot)

X = hcat(ones(nrow(kidney)), kidney[:age])
y = kidney[:Tot]
OLS = fit(LinearModel, X, y)
# GLM.LinearModel{GLM.LmResp{Array{Float64,1}},GLM.DensePredChol{Float64,Base.LinAlg.Cholesky{Float64,Array{Float64,2}}}}:

# Coefficients:
#        Estimate Std.Error  t value Pr(>|t|)
# x1      2.86067  0.359561  7.95603   <1e-12
# x2   -0.0786009 0.0090557 -8.67972   <1e-14

age_samples = collect(20:10:90)
Xtest = hcat(ones(length(age_samples)), age_samples)
pred = predict(OLS, Xtest, :confint)

for i in 1:size(pred, 1)
y_pred, y_lower, y_upper = pred[i, :]
display(plot!([age_samples[i],age_samples[i]], [ y_lower, y_upper], linewidth = 3))
end

plot!(age_samples[[1, end]], pred[[1, end], 1], legend=:none, linewidth=3)
savefig("Figure_1_1.png")``````

Figure_1_1

## Ch2 Frequentist Inference

F→X(2)(2)F→X

θ=EF{X}(3)(3)θ=EF{X}

θ^=t(x)(4)(4)θ^=t(x)

Θ^=t(X)(5)(5)Θ^=t(X)

(4)(4)和(5)(5)的联系在于xx可以看作是XX的一个sample，因而θθ也可以看作是ΘΘ的一个实例。这样，频率学派的Inference可以定义为:

The accuracy of an observed estimate θ^=t(x)θ^=t(x) is the probabilistic accuracy of Θ^=t(X)Θ^=t(X) as an estimator of θθ（这句话有点绕，好难翻译，先贴个原文）

μ=EF{Θ^}(6)(6)μ=EF{Θ^}

bias=μ−θandvar=EF{(Θ^−μ)2}(7)(7)bias=μ−θandvar=EF{(Θ^−μ)2}

se(X¯)=[varF(X)/n]1/2(8)(8)se(X¯)=[varF(X)/n]1/2

var^F=∑(xi−x¯)2/(n−1)(9)(9)var^F=∑(xi−x¯)2/(n−1)

Ch2.2部分提到的likelihood ratio的思想似乎在其它地方见到过。

## Ch3 Bayesian Inference

F={fμ(x); x∈X,μ∈Ω}(10)(10)F={fμ(x); x∈X,μ∈Ω}

g(μ|x)=g(μ)fμ(x)/f(x),μ∈Ω(11)(11)g(μ|x)=g(μ)fμ(x)/f(x),μ∈Ω

3.2部分有意思的是第二个example，作者用心良苦，引出了均匀先验、Jeffrey先验和Triangle先验。

3.4部分对二者做了完整的比较，对于低维参数，下图非常形象（对于高维情况有所不同，书中有阐述）：

## Ch4 Fisherian Inference and Maximum Likelihood Estimation

Fisher Information的核心是log似然相对于x微分的variance，这部分的推导以前没接触过，只是粗略知道说，MLE估计附近近似服从θ^∼N(θ,σ2/n)θ^∼N(θ,σ2/n)。

## Ch5 Parametric Models and Exponential Families

μ|x∼N(M+AA+σ2(x−M),Aσ2A+σ2)(12)(12)μ|x∼N(M+AA+σ2(x−M),Aσ2A+σ2)

5.4节将多项分布与单纯形（Simplex）以及泊松分布之间的联系描述得很清楚。

Nonparametrics, and the multinomial, have played a larger role in the modern environment of large, difficult to model, data sets

## Ch6 Empirical Bayes

6.1中的例子很巧妙，Robbins' Formula，借用泊松分布的性质，在计算边缘分布的时候将先验消去了，然后根据样本估计得出参数期望的估计。这里稍微展开讲下，6.2也会用到。

Counts of Claims

Pr{xk=x}=pθk(x)=e−θkθxk/x!(13)(13)Pr{xk=x}=pθk(x)=e−θkθkx/x!

E{θ|x}=∫∞0θpθ(x)g(θ) dθ∫∞0pθ(x)g(θ) dθ(14)(14)E{θ|x}=∫0∞θpθ(x)g(θ) dθ∫0∞pθ(x)g(θ) dθ

E{θ|x}=(x+1)f(x+1)/f(x)(15)(15)E{θ|x}=(x+1)f(x+1)/f(x)

f(x)=∫∞0pθ(x)g(θ) dθ=∫∞0[e−θθx/x!]g(θ) dθ(16)(16)f(x)=∫0∞pθ(x)g(θ) dθ=∫0∞[e−θθx/x!]g(θ) dθ

f^(x)=yx/N,with N=∑xyx(17)(17)f^(x)=yx/N,with N=∑xyx

6.3中用一个完整的例子阐述了如何估计先验分布的参数，作者在这里是想强调21世纪以来，统计学的一些变化（逐渐在接纳indirect evidence）。

## Ch7 James-Stein Estimation and Ridge Regression

B^=1−(N−3)/S[S=∑i=1N(x−x¯)2](18)(18)B^=1−(N−3)/S[S=∑i=1N(x−x¯)2]

7.2部分用一个实际的例子，阐述了James-Stein的over-shrinking特性。

Figure_7_1

7.3是熟悉的Ridge Regression，参数λλ会对稀疏化程度有影响。

Figure_7_2

7.4对一类Corner Case做了解释和说明，尽管risk降低了，但是毕竟是有偏估计（这在某些情况下是不能接受的）。

## Ch10 The Jackknife and the Bootstrap

se^jack=[n−1n∑1n(θ^(i)−θ^(.))2]1/2(19)(19)se^jack=[n−1n∑1n(θ^(i)−θ^(.))2]1/2

Bootstrap则往前再迈了一步，原来θ^θ^的估计可以看作是分两步得到的：首先从概率分布FF中得到样本xx，然后根据某种计算方式s(.)s(.)得到估计值θ^θ^：

F−→iidx→sθ^(20)(20)F→iidx→sθ^

F^−→iidx∗→sθ^∗(21)(21)F^→iidx∗→sθ^∗

10.3中的多种重采样方案是对前面用bootstrap估计标准差的一些扩展，与前面Simplex的思想进行了统一。

Figure_12_6

## Ch13 Objective Bayes Inference and Markov Chain Monte Carlo

Ah, 终于到了贝叶斯推断。大多数内容在其它地方读到过，记下几点印象深刻的。

Gibbs采样的做法是将其它变量积分掉了再采样，而MCMC的做法则是先随机候选样本然后决定接受或拒绝。想要详细了解恐怕这几页是不够的，不过这本书的好处就在于提供了很丰富的参考文献。

1
0