想必你会有这样的需求:知道一篇文章或者一本书中哪些词汇出现的频率最高。你可能认为这需要什么复杂的付费软件甚至写程序,其实不然,有个特别简单的在线词频分析工具。
闲话少说,直接上网址:
http://www.cncorpus.org/
这是教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”。这个网站有一项功能就是词频分析。下面我以分析文本《阿Q正传》为例,介绍一下该网站如何使用。
不过这个不完善之处并不妨碍使用,这个工具毕竟可以提供一个比较可靠的线索,准确的数据还需要在excel里仔细统计。
我们来看下迅翁在《阿Q正传》里最喜欢用哪些字词。
从结果来看,迅翁和大家一样,很喜欢用口语化的词,在一篇一万多字的文章中就用了45次“因为”,用了35次“而且”!但是迅翁就是迅翁,这些普通的词在他的笔下出神入化,构成了文学经典。