数学之美 (第二版) 8.9分
读书笔记 信息的度量和作用
Penn

压缩算法的核心就是将其数据的信息熵最小化

有了“熵”这个概念,就可以回答本文开始提出的问题,即一本50万字的中文书平均有多少信息量。我们]知道,常用的汉字(一级二级国标)大约有7000字。假如每个字等概率,那么大约需要13比特(即13位二进制数)表示一个汉字。但汉字的使用频率不是均等的。实际上,前10%的汉字占常用文本的95%以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立概率,那么,每个汉字的信息熵大约也只有8-9比特。如果再考虑上下文相关性,每个汉字的信息熵就只有5比特左右。所以,一本50万字的中文书,信息量大约是250万比特。采用较好的算法进行压缩,整本书可以存成一个320KB的文件。如果直接用用两字节的国标编码存储这本书,大约需要1MB大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”( Redundancy)需要指出的是这里讲的250万比特是个平均数,同样长度的书,所含的信息量可以相差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。
0
《数学之美 (第二版)》的全部笔记 95篇
豆瓣
免费下载 iOS / Android 版客户端