推广 热搜： 金公司快速企业中国设备杯上海行业未来

NLP之关键词提取（TF-IDF、Text-Rank）

日期：2024-11-07 移动：http://keant.xrbh.cn/quote/13706.html

1.文本关键词抽取的种类：

关键词提取方法分为有监督、半监督和无监督三种，有监督和半监督的关键词抽取方法需要浪费人力资源，所以现在使用的大多是无监督的关键词提取方法。

无监督的关键词提取方法又可以分为三类：基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。

2.基于统计特征的有个最简单的方法，利用TF-IDF效果不错

对于未登录词其IDF值的常用计算以及TF-IDF的计算

3、TD-IDF的主要思想以及优缺点

主要思想：

tf-idf 模型的主要思想是：如果词w在一篇文档d中出现的频率高，并且在其他文档中很少出现，则认为词w具有很好的区分能力，适合用来把文章d和其他文章区分开来。

TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能。

4、基于词图模型的介绍一个TextRank

具体参考：

https://www.cnblogs.com/xueyinzhe/p/7101295.html

说到TextRank要先介绍PageRank：

该公式中，V_i表示某个网页，V_j表示链接到Vi的网页（即V_i的入链），S(V_i)表示网页V_i的PR值，In(V_i)表示网页V_i的所有入链的集合,Out(V_j)表示网页，d表示阻尼系数，是用来克服这个公式中“d *”后面的部分的固有缺陷用的：如果仅仅有求和的部分，那么该公式将无法处理没有入链的网页的PR值，因为这时，根据该公式这些网页的PR值为0，但实际情况却不是这样，所以加入了一个阻尼系数来确保每个网页都有一个大于0的PR值，根据实验的结果，在0.85的阻尼系数下，大约100多次迭代PR值就能收敛到一个稳定的值，而当阻尼系数接近1时，需要的迭代次数会陡然增加很多，且排序不稳定。公式中S(V_j)前面的分数指的是V_j所有出链指向的网页应该平分V_j的PR值，这样才算是把自己的票分给了自己链接到的网页。

具体解释下后面的计算：即为网页所有入链的PR值之和再*阻尼系数，入链的PR值还要考虑到该入链是从哪个网页出来的，该入链的PR值=其出链的那个父节点/所有出去的路径。

可以看出，该公式仅仅比PageRank多了一个权重项W_ji，用来表示两个节点之间的边连接有不同的重要程度。TextRank用于关键词提取的算法如下：

5.文章关键词提取算法的对比

TF-IDF与TextRank的对比：tf-idf注重词频，词频和idf的乘积越大越关键，textrank注重词语之间的关联，和别的词关联性越大的词越重要。

本文地址：http://lianchengexpo.xrbh.cn/quote/13706.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

NLP之关键词提取（TF-IDF、Text-Rank）

推荐行业动态

小红书略2024最新版（3）0粉开播玩转小红书直播间

点击排行