推广 热搜:   公司  快速  企业  中国  设备    上海  行业  未来 

NLP之关键词提取(TF-IDF、Text-Rank)

   日期:2024-11-07     移动:http://keant.xrbh.cn/quote/13706.html

1.文本关键词抽取的种类:

NLP之关键词提取(TF-IDF、Text-Rank)

关键词提取方法分为有监督、半监督和无监督三种,有监督和半监督的关键词抽取方法需要浪费人力资源,所以现在使用的大多是无监督的关键词提取方法。

无监督的关键词提取方法又可以分为三类:基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取

2.基于统计特征的有个最简单的方法,利用TF-IDF效果不错

对于未登录词其IDF值的常用计算以及TF-IDF的计算

3、TD-IDF的主要思想以及优缺点

主要思想

tf-idf 模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。

TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。

4、基于词图模型的介绍一个TextRank

具体参考:

https://www.cnblogs.com/xueyinzhe/p/7101295.html

说到TextRank要先介绍PageRank:

该公式中,Vi表示某个网页,Vj表示链接到Vi的网页(即Vi的入链),S(Vi)表示网页ViPR值,In(Vi)表示网页Vi的所有入链的集合,Out(Vj)表示网页,d表示阻尼系数,是用来克服这个公式中“d *”后面的部分的固有缺陷用的:如果仅仅有求和的部分,那么该公式将无法处理没有入链的网页的PR值,因为这时,根据该公式这些网页的PR值为0,但实际情况却不是这样,所加入了一个阻尼系数来确保每个网页都有一个大于0PR值,根据实验的结果,在0.85的阻尼系数下,大约100多次迭代PR值就能收敛到一个稳定的值,而当阻尼系数接近1时,需要的迭代次数会陡然增加很多,且排序不稳定。公式中S(Vj)前面的分数指的是Vj所有出链指向的网页应该平分VjPR值,这样才算是把自己的票分给了自己链接到的网页

具体解释下后面的计算:即为网页所有入链的PR值之和再*阻尼系数,入链的PR值还要考虑到该入链是从哪个网页出来的,该入链的PR=其出链的那个父节点/所有出去的路径

可以看出,该公式仅仅比PageRank多了一个权重项Wji,用来表示两个节点之间的边连接有不同的重要程度。TextRank用于关键词提取的算法如下:

5.文章关键词提取算法的对比

TF-IDF与TextRank的对比:tf-idf注重词频,词频和idf的乘积越大越关键,textrank注重词语之间的关联,和别的词关联性越大的词越重要。

本文地址:http://lianchengexpo.xrbh.cn/quote/13706.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号