数学之美 (第二版) 9.0分
读书笔记 全文
默然

一、信息通信基本概念

1. 数字在早期只是承载信息的工具,并不具有任何抽象的含义。

2. 早期的通信技术,从信息的含义(语法)的角度,传递和解读信息,这就使得我们的古文虽然简单,但是非常难懂,准确率很低。

3. 任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。

4. 信息与其不确定性的关系,用信息熵来衡量。

二、搜索引擎

1. 布尔代数和搜索引擎:

搜索引擎的功能组成就是用布尔代数进行查询和收集,再建立索引,分门别类,用图论模型进行下载,再通过Google的PageRank进行排序。

2. 图论:

广度优先搜索:选取某个节点,将围绕这个节点的相关节点都检索一遍,再分别以各个相关节点为核心,再进行围绕其周围节点检索,直至检索不到相邻节点为止。

深度优先搜索:选取某个节点,从这个节点出发,选取一条方向不断检索,直至检索不到节点为止,再回到原节点,选取第二个相邻的节点,一条路不断检索,以此类推。

3. 有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫(web crawlers)。

4. PageRank算法核心思想:在互联网上,如果一个网页被很多其他网页所链接,说明它收到承认和信赖,那么它的排名就高。

补充:后面又提到,很多网页虽然被引用最多,但都是无效应用或广告之类的引用,那么这个网页就不一定是最权威的。所以又弄了个根据检索和匹配权威机构关键字的方式,来建立网页的权威性,比如xx国家科学会引用等。

5. 阿米特辛格博士:辛格这种做事的哲学,即先帮助用户解决80%的问题,再慢慢解决剩下的20%问题,是在工业界成功的秘诀之一。许多失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。

6. 余弦定理与新闻分类

向量的夹角是衡量两个向量相近程度的度量。

如果两个向量的方向一致,说明相应的新闻用词的比例基本一致。因此,可以通过计算两个向量的夹角来判断对应的新闻主题的接近程度。而要计算着两个向量的夹角,就要用到余弦定理了。

三、难懂的理论

1. “最大熵”这个名词听起来很深奥,但它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。

2. 最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主管假设。

0
《数学之美 (第二版)》的全部笔记 53篇
豆瓣
我们的精神角落
免费下载 iOS / Android 版客户端