词频,打开大数据的快捷方式

野笛无腔

1、词语的世界,刀光剑影、优胜劣汰

约翰· 哈佛闪亮的鞋子,揭示了“用进废退”的道理。

同样,一个词语,也必须频繁地被使用,才能对抗岁月的锈蚀,在历史长河中保留下来。

一个时期内,人类的注意力和时间是有限的,词语们必须奋力竞争,正如同树木争夺有限的阳光雨水一样。

这同样是一个优胜劣汰、适者生存的丛林世界。

以此观之,词频,就是词语的活跃度,或者说“血条”会更形象。

2、词频分布,遵循“赢家通吃”的法则

齐普夫通过对英语文献中单词词频的统计发现,并非所有的词语都是“生而平等”的。也就是说,词汇的世界,不像人类的身高一样呈“正太分布”,而是像财富一样呈“幂率分布”。

有钱人,容易变得更有钱;应用频次越高的词语,越容易得到更多的应用。

因此,品牌——作为词语中的一类特殊存在——不关注自身的词频数行吗?倘若在一段时间范围内一直落后于竞争对手,越往后,...

显示全文

1、词语的世界,刀光剑影、优胜劣汰

约翰· 哈佛闪亮的鞋子,揭示了“用进废退”的道理。

同样,一个词语,也必须频繁地被使用,才能对抗岁月的锈蚀,在历史长河中保留下来。

一个时期内,人类的注意力和时间是有限的,词语们必须奋力竞争,正如同树木争夺有限的阳光雨水一样。

这同样是一个优胜劣汰、适者生存的丛林世界。

以此观之,词频,就是词语的活跃度,或者说“血条”会更形象。

2、词频分布,遵循“赢家通吃”的法则

齐普夫通过对英语文献中单词词频的统计发现,并非所有的词语都是“生而平等”的。也就是说,词汇的世界,不像人类的身高一样呈“正太分布”,而是像财富一样呈“幂率分布”。

有钱人,容易变得更有钱;应用频次越高的词语,越容易得到更多的应用。

因此,品牌——作为词语中的一类特殊存在——不关注自身的词频数行吗?倘若在一段时间范围内一直落后于竞争对手,越往后,掉队的危险就越大。

3、“经济法则”决定了词频竞争的胜败

在生物界,处于食物链顶端的,往往需要更长时间的进化,也需要消耗更多的能量。从一定意义上讲,只有那些能高效、节约地利用能量的,才能生存下来。

一个词语,维持高频次的应用,也需要能量。“经济法则”在词语世界同样存在。

根据本书作者对历史上英语语法教科书中不规则动词的统计:古英语中,不规则动词有177个;到了4个世纪后的中世纪,这个数字减少到了145个;而现代英语中,不规则动词则仅剩下了98个。

讲究规则,显然比“一词一议”更省力,也更符合传播规律。这也就是杰克·特劳特在《定位》一书中为什么不惜用了两大章节来讨论“好名字”重要性的原因。

他说:“位于加勒比海上的豪格岛在改名为天堂岛之前一直默默无闻。”

显然,一个容易被人理解、记忆、传诵的名字,就像具有流线型身材的鲨鱼一样,可以极大减少传播过程中的阻力和耗散,在人们的心智中顽强地占有一席之地。

4、人为压制,能否对抗词频规律?

作者研究了德国纳粹时期、美国麦卡锡时代文化审查制度对艺术家声望的影响。

当这些外在的压制出现时,被清洗的艺术家们的声望都遭到了毁灭性的打击。如,作者指出:1936—1943 年,马克·夏加尔的全名在德文书中仅出现了一次。

但是一旦外力消失,受压制的艺术家们的词频数差不多都迎来了反弹。

“思想有数百万个出口”,一幅图中藏了多少悲欣血泪!

5、词频+大数据+可视化=窥测未来的水晶球?

通过随机抽样,我们没必要对每一个样本都进行一对一的深入调查,也能相当准确地了解全体概况。

词频,就是打开大数据的快捷方式,某种程度上正扮演着类似“抽样调查”的角色。当大数据已远远超过了我们的认知能力,通过词频统计“划重点”,就是简单而有效的方法。

在此基础上,再通过简单的图表加以可视化,即可对洞悉全局、窥测未来带来很大帮助。

比如,通过对铁路、收音机、电视、互联网的词频进行对比统计,不难发现,互联网出现得最晚,但是其词频数已经远远超过了其他三大发明,而且曲线斜率更加笔直向上。

哪项发明将在未来社会扮演更加重要的角色?不言自明。

6、一张令人心潮澎湃的词频图

“中国”的词频数的上升,说明西方世界对中国的提及率、认知度也在上升,其背后是中国对世界的影响力越来越大。

同时,这也是中国两百多年来从封闭走向开放、融入世界的过程。这一过程有波折,但不可逆转。

了解中国近现代史,这是最好的注解。

果然“一图胜千言”。

0
0

查看更多豆瓣高分好书

回应(0)

添加回应

可视化未来的更多书评

推荐可视化未来的豆列

了解更多图书信息

值得一读

    豆瓣
    我们的精神角落
    免费下载 iOS / Android 版客户端
    App 内打开