数据之巅 数据之巅 8.4分

「数据之巅」数目字管理

帶菜刀的詩人
2018-03-13 20:56:50
数据文化是尊重事实、强调精确、推崇理性和逻辑的文化。数据文化的匮乏,是中国之所以落后的一个重要原因;建设这种文化,中华文明的面貌将焕然一新。——本书作者题记

一、数据分权民主与共和是两对难以调和的矛盾,早在美国建国之初,国家制度的设计人就开始考虑它们的平衡。民主注重实现大多数人的利益,而共和则认为民主容易产生「多数人暴政」,在贯彻多数人利益的同时也必须考虑少数人的意见。这一矛盾在美国建国之初表现为大州与小州争取参、众议院议席,1787年7月16日,大州与小州达成妥协:美国国会实行参众两院制,众议院的席位按照人口比例分配,这体现了民主原则;参议院的席位则按每州两名设置,体现了共和精神。更重要的是,任何一项法案的签署,都必须同时经过参众两个议院的通过才能生效。这次妥协被后世称为「伟大的妥协」。民主与共和的矛盾之争缓解之后,新的矛盾又出现了——党争。参议院的席位每州两名无可置疑,众议院的席位就成为了两派争夺权力的主要战场,共和党的创始人汉密尔顿和民主党的创始人杰斐逊分别设计了两套不同的制度,以及后来的韦伯斯特方法和亨廷顿方法,这些权力分配方案并非是一家独大,而是此消彼长、相互妥协,只有这样,不同群体的利益才得以充分照顾。

二、南北战争(向大海进军、解放黑奴、人口普查)建国以后,美国政府便规定每隔10年进行一次人口普查,由于统计技术的不完善,再加上经济与政治利益的冲突,南方和北方对人口调查结果各执一词,矛盾再一次爆发,这次双方剑指废奴。南北双方,只欠一战。1862年,林肯成立农业统计局(NASS),同时美国第八次人口普查也在进行中,农业统计局和人口普查部门的工作为政府积累了大量的可视化数据。这些地图和数据,在很多战役中发挥了巨大作用,其中「数据将军」谢尔曼领导的「向大海进军」(March to the Sea):挥师东进,横穿佐治亚州,一路打到东部海岸线。这次冒险的行动堪称「毁灭之路」,谢尔曼军队所到之处寸草不生,沿途所有建筑均被摧毁,他的军队到达海岸线之后不仅没有变弱反而兵强马壮,他被人也被称为「魔鬼」。另外提到的是,后来谢尔曼被提名为总统候选人,他坚辞不就,发表声明说:「如果被提名,我不会接受;如果被选上,我不会就职。」这份声明被称为「谢尔曼声明」,表示一件事情毫无回旋的余地。废除奴隶制并不是林肯的初衷,战争初期北方频频失利,1863年林肯被迫发布「解放黑奴宣言」,黑人的加入壮大了北方的军队,葛底斯堡一役彻底扭转了战局,南方被迫投降。战争结束后,黑奴的问题远没有结束,林肯解放的只是黑奴经济上的自由权,而关于黑人的政治权利,尤其是选举权和投票权,却只字未提。然而问题来了,战争结束后,黑人获得自由,那么黑人人数居多战败的南方照理应该获得更多的众议院席位,政治权力反而扩大了,北方当然不同意!在这种情况下,共和党人才顺应历史潮流,主动赋予黑人政治平等权,以人人平等的名义,占据道德制高点,争取黑人选民。自由与平等在一定程度上是相斥的,当个人自由达到一定的程度,个体之间发展的程度不同必然会导致不平等。美国两党轮流执政,自由太多了,共和党就走人;平等太多了,民主党就下台,国家政策得以在自由与平等、效率与公平之间轮回。

三、思维、组织、技术的三重崛起1880年,加菲尔德当选为美国第二十任总统,同时他也是一名数学爱好者,是唯一一个发表过数学论文的美国总统,也是美国唯一两个遇刺的总统之一。他对普查提出了具体的改革意见:提高专业化水平、全面扩大普查范围和注重对隐私的保护。加菲尔德任命年仅29岁的统计学家、经济学家弗朗西斯•沃克担任普查办公室主任,沃克任上贯彻了加菲尔德的思想,组建了一支专门的普查队伍,普查范围得到前所未有的扩展,数据存储量剧增。数据量越来越庞大,催生了新的技术和发明。霍瑞尔斯打开了数据自动处理的大门、IBM开启了打孔卡片的新时代、1951年人口普查产生的大数据又促成了第一台商用计算机的诞生……与此同时,处理分门别类数据的部门相继设立,农业统计局、普查局、经济分析局和劳工统计局成为美国统计领域的四大部门。四、成本收益分析法美国建国后不久,就成立了陆军工程兵团和农垦局(OCR),这两个部门为了希望自己的方案能够在国会通过,不断优化预算,成本预算能够多小就多小,而收益则越多越好,如果收益比上成本比值越大则方案越容易通过。成本分析法在这两个部门的争论中不断成熟,后来被称为「绿皮书」(Green Book)的规定成本收益评估原则和方法报告发布。一条命值多少钱?一个人的生命是否可以量化?成为绿皮书报告中最受争议的部分。看似很荒唐的一件事情,在美国还真有人研究,托马斯•谢林提出了「价值意愿法」,主张通过问卷调查的方式,掌握人们为降低风险而愿意支付金额的大小;芝加哥经济学者塞勒和罗森经过9年的研究,提出了「劳动力市场评估法」,得出在1967年的美国,一条生命的平均价值为20万美元的结果。想证明你的结论?拿数据来说话,极度理性的成本收益分析法在习惯与用道德标准看待世界的人们面前简直就是没有人性。上世纪70年代,福特公司为低收入的工薪阶层推出了一款仅售2000美元的平托汽车,后来这款汽车因为尾部油箱的设计缺陷导致了全美500多起追尾起火事件,福特面临全国的声讨。事情还没有结束,让福特公司商业道德几乎破产的却是公司内部的一份报告的曝光,这份报告分析指出如果给车辆加装一个价值11美元的设备,所得到的4953万美元的收益远远小于1.375亿美元的成本,故加装的决定没有通过,而报告中对人生命估价20万美元的做法简直达到收益成本分析法的极端。不管是平托风波还是后来美国饮用水砷含量标准的决定,成本收益分析法不断受到争议,因为除了生命,还有「尊严」、「自尊」和「快乐」一类更难量化的指标,用数据说话的特征将使它未来无限,正因为这种气氛才成就了今天的美国。

五、内开放时代内开放1.0时代:1966年美国「信息自由法」的颁布和完善,美国政府的静态文件、动态决策过程、委托私营机构信息和非营利组织信息都要公开,人人皆可查看,信息公开的主体不断扩大保护了公民的知情权。相比之下,中国政府的政务信息公开的进程落后太远。内开放2.0时代:用数据制衡。20世纪70年代,美国正经历着一场轰轰烈烈的环保运动,1986年,国会通过立法,要求相关企业必须每年将排放到空气、水源或土壤中的有毒化学物质的数量公开。这部法律一颁布,大公司首先站出来表示会遵照法律公开自己的污染数据,后来企业污染数据公布就常态化了。正是由于这项法律,政府开始由被动变为主动,开始用数据对企业进行管理。其实,不管是对于企业污染、交通事故管理还是腐败问题,开放数据,外在监督一直以来成为政府制衡的一种趋势。内开放3.0时代:用数据推动创新。六、大数据时代目前全世界的数据大约75%以上都是非结构化数据,而且社交媒体的出现,数据增长达到了几何级的态势。摩尔定律认为,同一面积芯片上可容纳的晶体管数量,平均每18个月增加一倍,人类保存数据能力大大得到增强。同时,数据挖掘技术也在不断成熟,处理信息的能力增强。这三个因素的共同作用,大数据时代出现了。大数据的出现,迫使人们步入计算型社会,搜索就是计算,数据挖掘也是计算。碎片化、分散、多形式、海量的信息经过数据整合和挖掘,可以从中发现规律和商机。我们在分析海量数据的同时,物理计算的崛起,数字机械工程师、软件工程师、数据科学家人才炙手可热。后记印象最深的是黄仁宇所梦寐以求的「数目字管理」在建国之初的美国就埋下了种子,不管是开始的席位分配中用到的数据分权和决议通过遵循的成本收益分析法,还是到后来的政府企业信息公开和开放数据使用权,我们落后大洋彼岸的这个国家已经太多了。我惊讶于在美国南北战争期间,美国政府就完成了7次人口普查工作,拥有了国家各项事务的详细数据,没有这些数据,就不会有伟大的「向大海进军」,而与此同时,清王朝已步入晚年,直到1908年,清王朝才计划用6个月时间开展中国第一次现代意义上的人口普查,结果还夭折了。1966年,美国就颁布了「信息自由法」,那个时候。我们在做什么?准确的数字是不会骗人的,倘若还是摆脱不了感性凌驾于理性的决策方式,我们就永远也赶不上领先者。认识到差距还不够,我们还缺少孵育公民意识的温床,倘若每个人都缺少参与意识,那么,你所要求的民主和自由还有希望吗?
0
0

查看更多豆瓣高分好书

回应(0)

添加回应

数据之巅的更多书评

推荐数据之巅的豆列

了解更多图书信息

豆瓣
免费下载 iOS / Android 版客户端