数学基本思想18讲 评价人数不足
读书笔记 第五讲 随机变量与数据分析
tkr4still

# 第一部分 数学的抽象:从现实进入数学 ## 第五讲 随机变量与数据分析 P55~62 传统的数学研究的是结果已知的问题,但存在一些结果有多种可能的事件,文中称为随机事件。 在理解随机事件的历程中,确定性地因果思路是很难回避的。如果不纠结因果,而从预测事件发生与否、发生形式与程度的角度做出推论和判断,这种思路大概就是数据分析的思路,基本方法是分类。通过对事件的所有结果进行分类组合,虽然无法确定事件是否一定发生,但可以依据先验信息得到其发生的可能性。 ### 概率 于是定义随机变量及其概率。随机变量即针对待研究其发生可能性的事件所设定的一个变量,它的概率定义有两种: 古典概率: - *已知所有可能发生事件的个数$n$有限* - *已知待研究事件发生的次数(随机变量的取值)$k$有限* - 古典概率为$k/n$ 估计概率: - 古典概率发生的两个假设均不满足 - 只好持有*信念* :概率是随机事件的固有属性,该属性未知,需要对它进行估计 - 估计一种推断方法,通过数据对随机事件进行推断称为`统计推断` - 估计对数据产生的背景并非全知,只能参照数据背景建立模型,并且根据数据给出估计方法 - 估计是否有道理?需要分析事件本质,抽象并构建模型 描述随机变量取值规律的数学表达称为随机变量分布,以伯努利分布为例说明离散分布,以误差分布为例说明连续分布。 ### 似然估计方法 提出问题,如何估计随机随机变量分布中未知的参数(如伯努利分布中的重复事件发生概率$p$,如误差分布中的真值$u$)? 作出假设:$if \ p\rightarrow \hat p ,\text{Pr}(y=k) \ increase$ 。因此认为让此概率最大的p即为真实参数的估计值。或者认为$u=\hat{x}$时的概率密度(联合概率密度)乘积最大,这种思路称为最大似然估计的方法。既然问题变成极值问题,自然想到用导数为0得到极值点的方法获取最大似然估计值。 其中,高斯分布得出的过程没有手推,有时间应该好好理解中间的处理过程。 ### 统计学与数学的区别 - 立论基础不同。前者基于概念和符号;后者基于数据及其背景 - 推理方法不同。前者基于公理和假设,证明手段为演绎,结论必然;后者强调数据背景,依据背景寻找抽象和推断方法,分析手段为归纳,结论或然 - 判断原则不同。前者因为结论确定,非对记错;后者结果多种可能,无对错,分好坏。 结语: 统计学越来越重要,原因是人所面对的信息增长速度太快,要求人对信息进行分析、处理和判断,否则将被其淹没而失去自我。比如晚上简单翻一下,看书到笔记耗时大大超过预期,这就是对该章节的信息量,和处理这一部分信息所需要的事件作出了错误的判断,直接导致需要做的正事没有处理,为了做完事,需要加班,加班影响睡眠,进一步影响到明天的工作效率和状态。由此可见,必须提升信息的直觉和估计能力,否则生活完全不能朝自己希望的方向走,哭都没地方哭。

0
《数学基本思想18讲》的全部笔记 3篇
豆瓣
我们的精神角落
免费下载 iOS / Android 版客户端