标注

geniu霖
2018-01-01 看过
        从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度,甚至超过了我们的想象。
        第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
        寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类还是习惯性地寻找缘由。相反,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。
        大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。
        这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。
        社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析,社会科学不再单纯依赖于分析实证数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们的平常状态,也就不用担心在做研究和调查问卷时存在的偏见[6]了。现在,我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过Twitter信息表现出的感情。更重要的是,我们现在也不再依赖抽样调查了。
        知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。
        相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。
        公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。塔吉特公司注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。
        系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。
        莱维斯说,“预测给我们知识,而知识赋予我们智慧和洞见。”他很确信,有一天,这个系统一定能在用户意识到问题之前预测到并且
        莱维斯说,“预测给我们知识,而知识赋予我们智慧和洞见。”他很确信,有一天,这个系统一定能在用户意识到问题之前预测到并且解决问题。
        这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的价值,而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量,而且将其应用于许多其他服务中,如搜索的“自动完成”功能、Gmail、谷歌文档甚至翻译系统。
        全球知名咨询管理公司麦肯锡,就曾极端地预测数据科学家是当今和未来稀缺的资源。如今的数据科学家们也喜欢用这个预测来提升自己的地位和工资水平。
        第三种类型是有着大数据思维的公司和个人。他们的优势在于,他们能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。事实上,很可能正因为他们是外行人,不具备这些特点,他们的思维才能不受限制。他们思考的只有可能,而不考虑所谓的可行。
        行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
        概括地说,研究发现每对6部不出名的电影进行排序,我们就有84%的概率可以辨认出奈飞公司这个顾客的身份。而如果我们知道这个顾客是哪天进行了排序的话,那么他被从这个50万人的数据库中挑出来的概率就会高达99%。
        基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对它负责。毕竟,想做而未做不是犯罪。社会关于个人责任的基本信条是,人为其选择的行为承担责任。如果有人在被别人用枪威胁的情况下打开了公司的保险柜,他并不需要承担责任,因为他别无选择。 如果大数据分析完全准确,那么我们的未来会被精准地预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择生活的权利。既然我们别无选择,那么我们也就不需要承担责任,这不是很讽刺吗?
        大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因,因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。
        就像福特的员工将零件投入河中一样,下级军官为了达成命令或者升官,会汇报可观的数字给他们的上级,只要那是他们的上级希望听到的数字。[
        谷歌公司的创始人拉里·佩奇和谢尔盖·布林一直强调要得到每个应聘者申请大学时的SAT成绩以及大学毕业时的平均绩点。他们认为,前者能彰显潜能,后者则展现成就。
        他们将城市里的90万栋建筑都列在表上,然后输入来自19个不同机构的数据集。这些数据显示了建筑业主是否拖欠了应缴房产税,是否有止赎诉讼,是否有公用设施使用异常或导致服务消减的未付款项。他们还输入了建筑类型、修建时间、救护车访问次数、犯罪率和啮齿动物投诉等信息。然后,他们将这些数据与五年来的火灾严重性排名数据进行对比并得到一个模型,以此预测哪些投诉迫切需要调查。
        当数据的规模以数量级增加时,这些混乱也就算不上问题了。事实上,它甚至可以是有好处的,因为当我们只想使用一小部分时,无须捕捉这么多的知识细节。又因为我们可以用更快更便宜的方式找到数据的相关性,并且效果往往更好,而不必努力去寻找因果关系。
0 有用
0 没用

查看更多豆瓣高分好书

评论 0条

添加回应

大数据时代的更多书评

推荐大数据时代的豆列

了解更多图书信息

豆瓣
免费下载 iOS / Android 版客户端