推广 热搜:   公司  快速  企业  中国  设备    上海  行业  未来 

自然语言处理之——关键词提取(一)

   日期:2024-10-31     移动:http://keant.xrbh.cn/quote/8449.html

一. 摘要

自然语言处理之——关键词提取(一)

本次的分享中,我们将了解目前较常用的关键词提取技术。关键词是代表文章重要内容的一组词。在文本的分类聚类、自动摘要等方面有着重要的作用。还可以让人们更直观便捷的浏览文本信息。在现实的常用文本中是不包含关键词的,所以自动提取关键词技术有着很重要的意义。

二. 关键字提取技术概述

在巨量的信息面前,很多信息是我们无法全面接收,因此我们需要从中筛选出一些我们感兴趣的或者有代表性的信息进行接收。那么这一个过程就是关键词提取技术。如果我们可以准确的将所有的文档都用几个简单的关键词描述,那么我们便可以通过关键词了解一篇文章的内容,这将会提高信息获取到效率。

关键词提取算法一般可以分为有监督和无监督两类。有监督的关键词提取方法主要是通过分类的方式进行,首先通过创建一个比较丰富完善的词表,然后通过计算相似度判断每个文档与词表中每个词的匹配程度,类似打标签的方式,以此达到关键词提取的效果。有监督的方法虽然可以获取到较高的提取精度,但是需要大批量的标注数据,人工成本非常高。另外,现代信息量爆炸式增长,会新增出大量的新信息,一个固定的词表代表范围有限,很难将这类信息内容表述出来,但要人工维护这个受控的词表需要很大的人力成本,这就成为了有监督方法在使用上的一个很大短板。

对比有监督的关键词提取方法,无监督的方法对数据的要求就低了很多。不需要人工创建、维护词表,也不需要人工标准语料辅助进行训练。因此,这类的关键词提取技术应用更普遍。本次分享我们的主要介绍的关键词提取技术是TF-IDF算法和TextRank算法。

本文地址:http://lianchengexpo.xrbh.cn/quote/8449.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号