智能时代 8.5分
读书笔记 1
艾丽丝岛

序一 大数据与机器智能催生智能时代

该书回顾了科学研究发展的四个凡事,即描述了自然现象的实验科学、以及牛顿和麦克斯韦方程等为代表的理论科学、模拟复杂现象的计算科学和今天的数据密集型科学。

前言 人类的胜利

2016年是机器智能历史上一个具有纪念意义的年份,它是一个时代的结束,也是新时代的开端。这一年距离香农等人提出人工智能的概念正好过去了60年,google的围棋计算机AlphaGo在与世界著名选手李世石的对局中,以4:1取得了压倒性的生理,成为了战胜围棋世界冠军的机器人。这件事不仅是人类在机器智能领域取得的有一个里程碑式的胜利,而且标志这一个新的时代——智能时代的开始。

计算机之所以能战胜人类,不是靠逻辑推理,而是靠大数据和智能算法,在数据方面,google使用了几十万盘围棋高手之间对弈的数据来训练AlphaGo。在计算方面,采用了上万台服务器来训练AlphaGo下棋的模型,并且让不同版本的AlphaGo相互对弈了上千万盘,保证“算无遗策”。具体到下棋的策略,AlphaGo里面有两个关键技术,一是把棋盘上当前的状态变成一个获胜概率的数学模型,模型里没有任何人工规则,而是完全靠数据训练出来的,二是启发式搜索算法(蒙特卡罗树搜索算法),它能将搜索的空间限制在非常优秀的范围内,保证计算机能够快速找到好的下法。

google开发AlphaGo的最终目的,是要开发机器学习的工具,让计算机能够解决智能型问题。

第一章 数据——人类建造文明的基石

如果我们把资本和机械动能作为大航海时代以来全球化的推动力的话,那么数据将成为下一代技术革命和社会变革的核心动力。

【现象、数据、信息和知识】

【数据的作用:文明的基石】

从观察中总结出数据,是人类和动物的重要区别。而得到数据和使用数据的能力,是衡量文明发展水平的标准之一。

人类文明的过程:获取数据>>分析数据>>建立模型>>预测未知

【相关性:使用数据的钥匙】

【统计学:点石成金的魔棒】数据采集上的两个要点:量和质

【数学模型:数据驱动方法的基础】

只要找到足够多的具有代表性的样本(数据),就可以运用数学找个一个模型或者一组模型的组合,使得它和真实情况非常接近。只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这种方法被称为数据驱动方法,因为它是现有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据(Fit Data),还有一个前提就是样本必须非常具有代表性。

第二章 大数据和机器智能

在有大数据之前,计算机并不擅长解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。

【什么是机器智能】

电子计算机的奠基人阿兰·图灵真正科学地定义了什么是机器智能,他在1950年的《思想》(mind)杂志上发表一篇题为《计算的机器和智能》的论文,提出了一种验证机器有无智能的判别方法:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器交流,如果这个裁判无法判断自己交流的ui型是人还是机器,就说明这台机器有了和人同等的只能。这种方法被后人称为图灵测试(Turing Test)。

计算机科学家们认为,如果计算机实现下面事情中的一件,就可认为它有图灵所说的那种只能:语音识别、机器翻译、文本的自动摘要或写作、战胜人类的国际象棋冠军、自动回答问题。今天,计算机做到了上述几件事情,有事还超额完成任务。

【鸟飞派:人工智能 1.0】

传统的人工智能方法是,先了解人类是如何产生智能的,然后让计算机按照人的思路去做。今天几乎所有的科学家都不坚持“机器要像人一样思考才能获得智能”。当我们回到图灵博士描述机器智能的原点时就能发现,机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。

【另辟蹊径:统计+数据】

1972年,康奈尔大学的通信专家、教授贾里尼克,到IBM负责开发“聪明的计算机”,将一种语言翻译成另外一种语言,即计算机自动识别人的语言。无意中开创了一种采用统计的方法解决智能问题的途径,被称为数据驱动方法。由于早期缺乏数据,数据驱动方法不如传统的人工智能方法准确,但20世纪90年代互联网兴起之后,数据的获取变得容易,语言识别的错误率减少了一半,机器翻译的准确性提高了一倍,其中20%的贡献来自方法的改进,80%来自数据量的提升。

【数据创造奇迹:量变到质变】

2005年是大数据元年,之前在机器翻译领域从来没有技术积累、不为人所知的google,以巨大的优势打败了全世界所有机器翻译的研究团队,一跃成为这个领域的领头羊。

原因是google花重金请到了当时世界上水平最高的机器翻译专家奥科博士,用了上万倍的数据,量变的积累就导致了质变的发生。奥科能训练出一个六元模型,而当时大部分研究团队的数据量只够训练三元模型(N元模型就是考虑N个单词前后的关联)。

【大数据的特征】

大量(Vast)、多样性(Variety)、及时性(Velocity)

【变智能问题为数据问题】

毫不夸张地讲,决定今后20年经济发展的是大数据和由之而来的智能革命。

第三章 思维的革命

在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

【思维方式决定科学成就:从欧几里得、托勒密到牛顿】

0
《智能时代》的全部笔记 133篇
豆瓣
我们的精神角落
免费下载 iOS / Android 版客户端