大数据 大数据 7.4分

摘抄及对应感想

摇摆一颗心
2018-02-11 06:23:44

一、感想集中区:

1. 越看越有味,作者对美国的“数据”方面的了解,不亚于吴军;

2. 美国政府的数据公开(按书中说法应该是“发布”)力度大!其实在去年11月学习“信息检索”时,便有所感受。一般而言,越发达的国家/组织越注重数据公开(“信息检索”老师言);

3. 依旧感叹作者对美国的了解程度之深;

4. 能从“大局”上感受到许多数据相关技术的运用以及随之而来的各种争议矛盾;

5. 感觉中国的数据公开/开放进展远远落后于世界上多国,如政府开支等;

6. 许多当下在中国热门的技术词(如云计算、数据挖掘)其实早在约20年前在美国便很热门了,感觉中国“落后”数十年。这种落后无疑会使我们失去不少机会。在一定程度上说明,掌握英语跟进前沿发展的重要性及必要性;

7. 或许通过书中相关案例中展现的数据相关技术,能够促进自己选择具体的业务方向。

8. 中国的许多落后,恰是我们的机遇,“时势造英雄”(如果能拿到“数据英雄奖”Data Hero Award,那就酷毙了);

9. 初识一些概念:数据仓库、联机分析、数据可视化、商务智能、数据挖掘、机器学习、普适计算、开源

...
显示全文

一、感想集中区:

1. 越看越有味,作者对美国的“数据”方面的了解,不亚于吴军;

2. 美国政府的数据公开(按书中说法应该是“发布”)力度大!其实在去年11月学习“信息检索”时,便有所感受。一般而言,越发达的国家/组织越注重数据公开(“信息检索”老师言);

3. 依旧感叹作者对美国的了解程度之深;

4. 能从“大局”上感受到许多数据相关技术的运用以及随之而来的各种争议矛盾;

5. 感觉中国的数据公开/开放进展远远落后于世界上多国,如政府开支等;

6. 许多当下在中国热门的技术词(如云计算、数据挖掘)其实早在约20年前在美国便很热门了,感觉中国“落后”数十年。这种落后无疑会使我们失去不少机会。在一定程度上说明,掌握英语跟进前沿发展的重要性及必要性;

7. 或许通过书中相关案例中展现的数据相关技术,能够促进自己选择具体的业务方向。

8. 中国的许多落后,恰是我们的机遇,“时势造英雄”(如果能拿到“数据英雄奖”Data Hero Award,那就酷毙了);

9. 初识一些概念:数据仓库、联机分析、数据可视化、商务智能、数据挖掘、机器学习、普适计算、开源运动、语义网、自我量化运动;

10. 误解/轻视了“数据可视化”;

11. 中国人的数据意识过于淡薄,要警惕!

12. 感觉到自己(以及国人)作为中国的公民,相对于美国公民而言,对自己的国家的政治等方面的参与度严重不足;

因“集体行动的困境”存在,要有所进步,则需要“出头鸟”来当先驱者,牺牲自身大部分利益,以获取大多数人的利益。倘若有一日,我成为了这种“战士”,应以美国前人John E.Moss(美国《信息自由法》之父)等为榜样。

二、摘抄及感想:

说明:破折号“——”用于引出自己的感想;

1. 理解美国信息公开的两个重要概念:公开和发布。

一是公开(Disclosure),公开是指政府对于公民或社会组织查询信息的特定要求,给予一对一的回应,将信息公开给查询方,查询方收到信息之后,有自由使用、进一步公开的权利;

二是发布(Distribution),发布是指将信息或者文件登载在政府出版物或政府网站上,广而告之。 例如,2009年11月,奥巴马第一次访问中国,他一共带了多少随从、开支了多少钱,这些信息,并不属于发布的范围,但如果有人查询,就属于公开的范围。 也可以说,公开,是政府和某一社会特定主体的关系,是点对点的;而发布,是政府和社会的关系,是点对面的。

感想:

我所理解的“公开”实际上对应作者在书中讲的“发布”,而我几乎没有想过还能有作者所讲的“公开”的存在,即“政府对于公民或社会组织查询信息的特定要求,给予一对一的回应,将信息公开给查询方,查询方收到信息之后,有自由使用、进一步公开的权利”。

2. 普适计算:通过在日常环境中广泛部署微小的计算设备,人们能够在任何时间和任何地点获取并处理信息,计算将最终和环境融为一体。这就是普适计算,是人类的第三波计算浪潮。 一句话:万事万物,凡存在,皆联网,凡联网,皆计算。

感想:

普适计算的成熟结果,将如同《三体》(刘慈欣)一书中所描绘的景象。另外,我对“数据分析”的一个憧憬得以实现,即像美国大片中“凭空一顿可视化操作”的景象。

3. 1997年,埃里克·雷蒙(Eric Raymond)(开源运动的领袖、黑客文化的代言人)出版了《大教堂与集市》(The Cathedral and the Bazaar),他在这本书中详细地论述了开放原始代码的好处。他将传统的从上至下进行控制的软件开发方法比喻为“大教堂”,而通过互联网上公开分享自己的代码,就好像把一件商品放在了集市之上,自由地让别人浏览、评价。

雷蒙总结道:“足够多的眼睛,将使所有的错误都无所遁形。”(“Given enough eyeballs, all bugs are shallow.”)

感想:

作者多次在书中使用此句,作为支持数据开放的主要依据之一。

4. 如果认为网上的数据发布仅仅是为了社会监督,那就大错特错了。监督仅仅只是其中一个目的。交通安全管理局在介绍他们循“数”管理的经验时,特别强调了通过网络发布数据的重要意义。 在网上发布数据,将会吸引一大批对这个问题感兴趣的各界人士参与到政策制定的过程中来,足够多的眼睛,将会使所有的问题都无所遁形,更多的问题将被发现,更多的细节将被讨论,更好的方案将会被激发。还有,通过发布这些数据,一项具体政策的执行效果能够被量化,各个州之间很方便进行“事实对比”,新的政策如果有效,很容易在全国范围内被接受、复制并推广,形成一种良性的“政策竞争”氛围。

感想:

“我错了”,我确实简单地认为:“网上的数据发布仅仅是为了社会监督”,而没想到数据的分布可以汇集公民的智慧“参与”,达到“群策群力”的效果。除去个人的狭隘原因外,可能存在一个背景局限,那便是:在中国,普通民众们对国家政治等的关注度/参与度太不足吧。

5. 在美国,和政府做生意的公司有一个专门的名称,叫政府合同商(Government Contractor)。政府合同商通过承接政府的项目,赚国家的钱。国家的钱,归根结底就是纳税人的钱。为了保证纳税人的钱不仅花得有效率,而且还能够促进社会公平,联邦政府对这个过程制订了诸多的规定。

例如,对于50人以上的公司,只要获得一笔大于5万美元的政府合同,联邦政府对其就执行有别于一般企业的要求。诸多要求中的重要一项,就是“平权措施计划”(Affirmative Action Plan)。

平权措施计划,是美国民权运动史上的里程碑。 该计划规定:公司不得因为雇员的年龄、种族、肤色、原籍、性别、婚姻状态、宗教信仰,以及是否残疾、是否退伍军人等事项对雇员产生歧视。其初衷在于保证所有人,特别是少数民族,都享有公平就业的机会,在每一个公司都营造一个和总体人口特征一致的工作集体。

感想:

这算是对我经常在电影中看到的一个现象的解释吧,那就是:“在影视作品中,许多牛逼的公司里都有黄种人、黑种人员工存在”。不过,我看的这类电影(如《黑镜》),貌似多是英剧?

6. 现代政治学的基本常识告诉我们:由于无法引入有效的竞争机制,政府注定难逃低效的命运。

感想:

虽然不知道“现代政治学的基本常识”是啥,但从此句可看出,作者对“竞争机制”(市场)的赞同。而且作者与我所处的时代,正是比较支持“市场机制”(含竞争机制)的时代。倘若有一天,市场机制落伍了,那么此句的正确性将大打折扣。

7. 南丁格尔的贡献,充分证明了数据可视化的价值,特别是在公共领域的价值。官僚们麻木的神经尤其需要强烈的视觉效果来冲击、来刺激。生理学也证明,人的大脑皮层当中,有40%是视觉反应区,人类的神经系统天生就对图像化的信息最为敏感。通过图像,信息的表达和传递将更加直观、快捷、有效。 更重要的原因在于:人的创造力不仅仅取决于逻辑思维,还取决于形象思维。数据可视化的技术,可以通过图像在逻辑思维的基础上进一步激发人的形象思维和空间想象能力,吸引、帮助用户洞察数据之间隐藏的关系和规律。

作为一个新兴的行业,数据可视化的发展潜力不容小觑。2010年起,谷歌的首席经济学家范里安(Hal Varian)就一直在多种场合强调,下一个十年,将出现一类新的专业人才:数据科学家。其中一种,正是数据可视化工程师,这种人才既懂得数据分析,又精通构图的艺术,集故事讲述和艺术家的特质于一身,将是我们大数据时代的导航员。

感想:

一直被我轻视的“数据可视化”,居然有如此大的功效!

8. 信息和管制办公室(OIRA)每年都要编制“年度信息收集预算”(Information Collection Budget),这个“预算”,并不是指联邦政府为了完成信息收集的任务,要花多少钱,或者要投入多少人力和时间,也不是指要收集信息的数量,而是去计算政府机构的信息收集计划会给全社会带来多大的负担(Information Collection Burden)。这个负担,以小时数来计算。也就是说,美国人民要完成政府规定的信息提交任务,需要投入多少时间。

感想:

惊讶于美国政府的工作,居然会尊重人民到这种地步。本以为政府的大部分工作,人民便要“无条件”服从。而美国政府却能想到:政府的工作会占用人民的“时间”,因此需要给予人民相应的补偿。

9. 世界上没有任何一项制度是完美的。对于民主制度,英国首相丘吉尔曾经在1947年说了一句大实话: “我们已经尝试了很多种政府组织的形式,还将在这充满了罪和灾难的世界继续尝试。没有人认为民主制度是完美的或万能的。事实上,民主制度是一种糟糕的制度。但迄今为止,这是我们对政府形式所有的尝试当中发现的最好形式。”

感想:

“超级万金油”,“高考制度”也是这种理由。“不完美”极有可能是正确的,不过关键仍在于作为“愚蠢的人类”的我们,始终不懈地“挣扎”。

10. “美国人不论年龄多大,不论处于什么地位,不论志趣是什么,无不时时在组织社团……只要美国的居民有人提出一个打算向世人推广的思想或意见,他就会立即去寻找同道;而一旦找到了同道,他们就要组织社团。社团成立之后,他们就不再是孤立的个人,而是一个远处的人也可以知道和行动将被人们仿效的力量。这个力量能够发表意见,人们也会倾听它的意见”。

——法国思想家托克维尔《论美国的民主》

感想:

这种“寻找同道”的欲望,令我震惊,也令我汗颜。

11. 当我们放大历史上的种种细节,把很多件事情的前因后果联系起来,就很容易发现:历史的每一步发展,都相当的错综曲折。其中做出重大贡献的英雄人物,根本没有谁总是“伟大、光荣、正确”。历届美国总统,既是能干人,更是普通人,他们在以一己之力推动社会进步、国家富强的同时,无法面面俱到,甚至犯下了不少错误。但因为存在一个比较完善的制衡制度,这些错误,可以被纠正,也往往成为另外一些人建功立业的契机。美国的这些历史也证明,圣人治国是一个无法企及的良好愿望,甚至可以说,根本就是一个无稽之谈。

感想:

典型的西方观点(也比较赞同):制度大于人治。从此句也可以看到,“江山代有才出”的原因之一。

12. 集体行动指的是大家一起行动、一致行动,共同承担行动的风险、享受行动的成果。 奥尔森认为,每个人都是经济理性人,也就是说,每个人做事,都会首先考虑自己的利益得失。大家一起行动,一旦行动成功,所有的集体成员都能从中受益,包括那些没有参与行动的、偷懒的、取巧的、旁观的、冷嘲热讽的,甚至使坏的,都将从中获益,而行动的真正参与者、领导者,却可能要付出不同一般的代价。 每个人一计算,都发现自己的最佳策略是“坐等”,是“围观”。也就是说,明知现实不合理,自己也不想出力,都希望别人出头、自己搭车。这种集体都想“搭便车”的结果,就是公共利益得不到有效的照顾、大家的权益最终都受到损害。奥尔森还指出,当集体越小、利益冲突越激烈的时候,越容易联合;当集体越大、利益冲突并不明显的时候,越难联合。

亚里士多德就观察到: “凡是属于最多数人的公共事务,却常常受到最少人的照顾,人们关怀着自己的所有,而忽视公共事务;对于公共的一切,他至多只留心到其中和他个人有些相关的事务。”

奥尔森在指出集体行动的困境之后,也曾经为这种难以团结的局面开出了药方。他的办法是,一个群体,要建立合适的激励手段,营造为共同利益而努力的文化氛围和运行机制。

感想:

这种“集体行动的困境”在中国就更加明显了,而要摆脱此困境,一方面要有许多有勇有谋的“出头鸟”来当先驱者,另一方面则要有相应的制度来保障“出头鸟”的权益和打击“癞蛤蟆”。

13. 专制制度为什么会存在?这种制度的存在,其实是我们大部分人理性选择的结果。

专制者把你的一部分权利拿掉了,被拿掉权利的人就在想:我要是反抗,把这个权利夺回来,成本和收益各有多大呢?他一计算,发现他如果要拿回他失去的权利,和专制者对抗,他可能要失去更多,成本比收益大,理解这个问题的关键是:当一个人通过抗争从专制者那里拿回了这个权利,受益的将是一个社会的全体成员,他们都可能重新获得这个权利。也就是说,整个群体都受益,但代价却可能要少数人付。每个人一理性计算,结果不约而同都放弃了。

专制者其实也在计算,他在找那个专制的“度”,把自己的专制放在一个大家可以适度容忍的框架里面,因为,他不怕一个人反抗,他怕的是大家都反抗,如果超出那个度,引起大多数人的反抗,那他就完蛋了。

所以要破局,主要看有多少人参与,大家都参与,形成一个集体行动的态势,情况就会彻底改变。这也是专制者要不遗余力打压集体行动的原因,一旦有集体行动,他就把那个头头打掉,其他人一看,做头头要付出这么大的代价,结果就又放弃了。正因为如此,专制制度才会存在。

感想:

也是基于“集体行动的逻辑”。

14. 美国,确实在践行民主制度。但民主,只是政府的一种组织形式、一个框架。每一条法律、每一项政策、每一个决定,还要在这个框架之内讨论、争辩、博弈,才能达成一个共识、输出一个结果,各方利益才能平衡。这个过程,说白了,还是“争”。如果有一方不“争”,那他的利益自然得不到充分的照顾和保证。此外,民主框架的本身,也是一个“争”的结果。就算已经建立了,它还需要公民不断地去捍卫、去维护、去“争”,防止它在现实中脱轨走样。

正如美国作家麦克利什指出的:“民主,永远不是一件已经完成了的事情。民主是一个过程,需要一个国家永不停懈的努力。”也就是说,民主不是结果、而是参与的过程,这个过程,时时都要“争”。说白了,世界是现实的,其实没有一件事情可以坐等、可以一劳永逸。

感想:

即使“民主”如美国,尚且要竭尽全力地去“争取”“维护”那不稳定的“民主”,更何况是中国呢?

15. 但在大数据时代,信息共享、交流互动已经不再是最迫切的需求,数据的分析和整合,才是最大的挑战,而这恰恰是万维网的短板。 可以说,万维网是一个网页的集合体。这些网页,即使内容相似、主题相同,但由于分属不同的网站、存储在不同的服务器上,他们之间就没有链接和联系,这意味着如果用户想找到它们、分析它们,就必须借助搜索引擎等工具。 这也是谷歌之类的搜索公司为什么能成为商业巨头的根本原因:在现在的互联网上,各种信息之间是孤立的,我们要对它们进行整合、分析,就必须依靠人工的外力,目前最好的工具就是搜索引擎。 但搜索引擎并不完美。通过特定的计算机算法,搜索引擎按“关键字”的相关度对网页进行过滤排序,然后给用户返回一大批相关的网页,这些信息,良莠不齐,还需要进一步的人工分辨未来的语义网,却不是一个众多网页的链接体,而是一个全球性数据库。在这个数据库中,各种相关数据通过“元数据”(元数据是大数据时代的一个重要概念,它是指描述、解释数据属性的数据(data about data),是为支持一致性的数据描述所定义的统一准则)互相联结,计算机将根据元数据,自动为我们搜寻、检索和集成网上的信息,不再需要搜索引擎。

感想:

难以想象,“语义网”是什么东东……

16. 中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。

阿瑟·史密斯(Arthur Smith)是一位美国的传教士,他于1872年来到中国,在中国的普通社区生活了54年,随后著书立说,成为名动一时的中国文化研究专家。1894年,史密斯出版了《中国人的性格》一书,该书在中国社会、国际社区都产生过很大的影响,一度被公认为研究中国人最权威、最详尽的著作之一,被翻译成很多个国家的文字。 史密斯认为,中国人,是一个“漠视精确、思维含混”的民族,他在书中写道:

“中国人完全能够像其他民族一样学会对一切事物都非常精确——甚至更加精确,因为他们有无限的耐心——但我们必须指出的是,他们目前还不重视精确,他们还不知道精确是什么。如果这一看法是正确的,那么就可以有两条推论:其一,在我们考查中国历史档案时,必须考虑到中国人漠视精确这一特性。我们采用中国人所提供的数字和数量很容易使我们自己受骗,因为他们从来就不想精确。其二,对于中国人所提供的冠以‘统计数字’以抬高其权威性的各种材料,必须留有很大的余地。”(《中国人的性格·漠视精确》)

黄仁宇还对中国人缺乏“数据精神”的根源做了剖析,他认为:在中国传统的学问——理学或道学当中,一直都分不清伦理之“理”与物理之“理”的区别。这两个“理”混沌不分的结果,是中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当作本质上的相同。

感想:

中国人数据意识的淡薄,从小有所感觉。不过那时,并不觉得这是个缺陷,相反感觉“中国人很牛逼”,比如厨艺方面,可以“凭感觉”创造出美味的菜肴。另外,中国人更可能学会做西方菜,而西方人难做成中国菜。如此下来,甚至有种感觉——中国人的厨艺处在“道”的高度,而西方人难舍难分停留于“术”的层面。

然而,随着阅读的持续(如吴军的《文明之光》),渐渐感觉中国人“很吃亏”,亏在“传承”上。由于许多知识依靠“感觉”,而非实实在在的“数据记录”,导致后来人难以习得前人的本领,并“在其基础上”再创进步。

另外一个例子,从阿瑟·史密斯《中国人的性格》中写的话中,可以看到,做中国相关的一些科研时,非常受限于数据的“不可靠性”。

17. 旅居海外的经历,让我深深感到,美国,是一个值得中国人认真学习的国家。所谓的“中国崛起”,我认为现阶段还是要证明我们有正确的学习态度和敏锐的学习能力。 不要有桥不走,硬要下河摸石头。 要学习、要上路,这是中国的当务之急。我们的进步,应该以全世界的文明为基础。在这个过程中,中国需要对西方世界客观的观察者、理性的思考者和开放的分享者。

感想:

有种不好的感觉,正如吴军评论中国的企业三巨头BTA:“经常喊着要国际化国际化,其实并没有,其主要收入还是来源于国内”,中国的“国际化”口头也喊了许多,不过其进展呢?(这里必须承认自己对此了解极少,同时也感受极少,很可能误判)

18. 大数据的意义,也远远不局限于我们当前众多新闻报道中所津津乐道的“啤酒和尿布”等通过数据挖掘、实现精准营销的故事。事实上,数据挖掘已经不是大数据领域的前沿,取而代之的是机器学习。数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的历史规律和未来的发展趋势,为决策者提供参考。时下兴起的机器学习,凭借的也是计算机算法,但和数据挖掘相比,其算法不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、运行次数的增多,即通过给机器“喂取”数据,让机器像人一样通过学习逐步自我提高改善,使挖掘和预测的功能更为准确。这也是该技术被命名为“机器学习”的原因。这也是大数据之所以被称为革命性现象的根本原因,因为从本质上来说,它标志着我们人类社会在从信息时代经由知识时代快速向智能时代迈进。

感想:

中国的落后。当“数据挖掘”在美国火的时候(1989年,图灵奖的主办单位计算机协会举办了第一届数据挖掘学术年会,数据挖掘的技术开始兴起),中国国内还少人听闻。而近几年,“数据挖掘”才在国内火起来。对于技术而言,一二十年的差距是巨大的。(当然不排除适当的时间延迟会带来机遇的有利性)

0
0

查看更多豆瓣高分好书

回应(0)

添加回应

大数据的更多书评

推荐大数据的豆列

提到这本书的日记

了解更多图书信息

豆瓣
免费下载 iOS / Android 版客户端