深入浅出数据分析 7.4分
读书笔记 第1页
磨叽的墨迹

01分析数据:

p6

先搞清楚你的客户:

(→客户的表现有可能是假性的,下判断前需要验证)

了解/不了解自己的数据

了解/不了解自己的问题或目标

了解/不了解自己的业务

目标明确/优柔寡断

头脑清晰/稀里糊涂

富于直觉/善于分析

p6

分析阶段:(有的时候是多次进行这个流程)

确定→分解→评估→决策

确定:确定问题,是否可量化,有哪些信息可以提供,客户的想法是什么(如下一步要怎么做)

分解:讲大问题划分为小问题

评估:客户的观点不能直接接受,要通过数据去验证;你的假设;等等

p21&25

心智模型:你对外界的假设和你确信的观点

(利用心智模型提出假设,在这个认知正确的基础上提出一些可能性,然后用数据去验证)

心智模型应该包括你不了解的因素(知道你不知道那些事),列出这些因子,未雨绸缪。

02检验你的理论(观察分析法/比较)

P45

分析师们一个很好的经验法则是,当你开始怀疑因果关系的走向时(如价值感的下降导致销量下降),请进行反向思考(如销量下降导致价值感下降),看看结果怎么样

P47

混杂因素就是研究对象的个体差异,他们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。

P58

control group 控制组/对照组

P59

历史控制法通常偏向于你力图进行检验的对象的成功方面,因为很难选出和你测试的组真正相似的控制组。总体上不要用历史控制法(即同比数据)

观察研究法:让研究者自己决定他们属于哪个组

03最优化——寻找最大值

P79

找到约束条件/决策变量(你能控制的变量)/目标函数,利用excel的solver

P98

"一切模型都是错误的,但其中一些是有用的“

P99

你无法规定全部假设条件,假设条件详尽到什么程度,这由分析的重要性来决定

P109

如果你使用的观察数据,你无法预知未来,所以你的模型可能会突然失灵,你需要反复进行构建

04数据图形化

p118

记住目标,目光停留在和目标有关的数据上,无视其他

P123

优秀图形的特点:

展示了数据

做了高明的比较

展示了多个变量(及其关系)

P131

当你描述你的数据图形时,需要论述可相互换用的两种因果模型或图解。能完成这个任务让客户知道你不仅会展示自己最喜欢的一面,还会彻头彻尾地考虑自己提出的原理中可能存在的问题点。

05假设检验

P142&148

变量关系

P149

线性等于直觉,作为分析师,要看出因果关系网络

P152

证伪:请勿试图选出最合理的假设,只需剔除无法证实的假设(传言不可用来证伪,但可以用来诊断)

P158

对假设进行评级,不利证据越少的排在越前面。

P160

能够帮助你评估各种假设的相对强度,证据和数据就具有诊断性。划掉不具有诊断性的证据

06贝叶斯统计

P176

条件概率:即以一件事的发生为前提的另一件事的发生概率P(L|+)=以阳性试验结果为前提的蜥蜴流感概率

P182(难点在于搞清基础概率)

07主观概率

P208

EXCEL 标准偏差函数=STDEV,标准偏差越大,分歧越大

P217

利用贝叶斯规则修正主观概率,其根本在于找出在假设成立的条件下,证据出现的概率

P218

用贝叶斯规则可以将新数据整合到分析师的新年结构中。此外,即使分析师意识到自己的错误,贝叶斯规则也能保证不然他们对自己的主观概率矫枉过正

08启发法

P237

启发法:

心理学,用一种更便于理解的属性代表一种难解的/令人困惑的属性

计算机科学,一种解决问题的方法,可能会得出正确答案,但不保证是最优化答案

09直方图

P266

利用R来画直方图/子集合的直方图

10回归

P286

把假设检验和预测加起来就是数据分析

预测的要点:

可能需要预测的问题:人们的措施/市场动态/重大事件/试验结果/数据中未体现的资料

不能不问的问题:我有足够的数据进行预测么?/我的预测准确性如何/是定性预测还是定量预测/我的客户能顺利利用这个预测么/我的预测有何局限性

P291

利用R来画散点图

P300

相关系数r,范围-1到1,0表示无相关性,1和-1表示两个变量完全相关

P303&306

即使展示出两种变量之间的线性关系,也需要问1数据质量如何2解释现象(原因)

P307

利用R来生成回归方程

11误差

P323

对模型假设保持戒心,确认模型假设有何道理,以及是否遗漏某种假设

P330&336

机会误差/残差, 残差分布

P338

利用R求均方根误差

度量误差的方法很多,具体取决于特定情况

P346

讲数据进行分割,每个组单独使用一个模型,可以管理误差

P350

0误差就意味着没有任何预测能力

12关系数据库

P367

使用数据前,先保存一份数据副本

P376

RDBMS

13管理数据

P397

excel公式:FIND/LEFT/RIGHT/TRIM/LEN/CONCATENATE/VALUE/SUBSTITUTE

p404&406&407

正则表达式

P412

出现数据问题(如数据重复),不要直接处理(如删除重复数据),而是先判断为什么会出现这个问题(如同一电话号码对应不同的邮箱或者联系时间,这些数据来源于某个关系数据库)

附录

P424

原假设-备择假设检验

P425

GOOGLE DOCS 在线表格和图形

0
《深入浅出数据分析》的全部笔记 2篇
豆瓣
我们的精神角落
免费下载 iOS / Android 版客户端