NLP关键字提取之TextRank算法

日期：2024-11-01 移动：http://keant.xrbh.cn/quote/13416.html

今天看了一下HanLP框架的关键字提取的算法，总的来说很简单，就是互相计算词频的一个算法。

谈起自动摘要算法，常见的并且最易实现的当属TF-IDF，但是感觉TF-IDF效果一般，不如TextRank好。

TextRank是在Google的PageRank算法启发下，针对文本里的句子设计的权重算法，目标是自动摘要。它利用投票的原理，让每一个单词给它的邻居（术语称窗口）投赞成票，票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论，PageRank采用矩阵迭代收敛的方式解决了这个悖论。TextRank也不例外：

PageRank的计算公式：
正规的TextRank公式：
正规的TextRank公式在PageRank的公式的基础上，引入了边的权值的概念，代表两个句子的相似度。

但是很明显我只想计算关键字，如果把一个单词视为一个句子的话，那么所有句子（单词）构成的边的权重都是0（没有交集，没有相似性），所以分子分母的权值w约掉了，算法退化为PageRank。所以说，这里称关键字提取算法为PageRank也不为过。

另外，如果你想提取关键句（自动摘要）的话，请参考姊妹篇《TextRank算法自动摘要的Java实现》。

TextRank的Java实现

先看看测试数据：

我取出了百度百科关于“程序员”的定义作为测试用例，很明显，这段定义的关键字应当是“程序员”并且“程序员”的得分应当最高。

首先对这句话分词，这里可以借助各种分词项目，比如HanLP分词，得出分词结果：

然后去掉里面的停用词，这里我去掉了标点符号、常用词、以及“名词、动词、形容词、副词之外的词”。得出实际有用的词语：

之后建立两个大小为5的窗口，每个单词将票投给它身前身后距离5以内的单词：

然后开始迭代投票(java实现)：

排序后的投票结果：

本文地址：http://lianchengexpo.xrbh.cn/quote/13416.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

NLP关键字提取之TextRank算法

推荐行业动态

小红书略2024最新版（3）0粉开播玩转小红书直播间

点击排行