NLP中关键字提取方法总结和概述

日期：2024-11-06 作者：caijiyuan caijiyuan 评论：0 移动：http://keant.xrbh.cn/news/13822.html

核心提示：来源：DeepHub IMBA本文约3500字，建议阅读5分钟关键字提取是从文本文档中检索关键字或关键短语。这些关键词从文本文档的短语中

来源：DeepHub IMBA

本文约3500字，建议阅读5分钟

NLP中关键字提取方法总结和概述

关键字提取是从文本文档中检索关键字或关键短语。这些关键词从文本文档的短语中选择出来的并且表征了文档的主题。在本文中，我总结了最常用的自动提取关键字的方法。

自动从文档中提取关键字的方法是从文本文档中选择最常用和最重要的单词或短语的启发式方法。我将关键字提取方法归入自然语言处理领域，这是机器学习和人工智能中的一个重要领域。

关键字提取器用于提取单词（关键字）或创建短语（关键短语）的两个或多个单词的组。在本文中，我使用术语关键字提取，其中包括关键字或关键短语提取。

节省时间——根据关键词，可以决定文本的主题（例如文章）是否对他感兴趣以及是否阅读。关键字向用户提供了该篇文章或文档主要内容摘要。

查找相关文档——大量文章的出现使得我们不可能全部进行阅读。关键词提取算法可以帮助我们找到相关文章。关键字提取算法还可以自动构建书籍、出版物或索引。

关键字提取作为机器学习的支持——关键字提取算法找到描述文本的最相关的词。它们以后可以用于可视化或自动分类文本。

在本文中，我将概述一些最常用的关键字提取方法。我会考虑无监督（不需要训练）和领域独立的方法。我将方法分为三组：统计方法、基于图的方法和基于向量嵌入的方法。

深度学习的出现使基于嵌入的方法成为可能。研究人员开发了几种使用文档嵌入的关键字提取方法（例如 Bennani 等人）。

这些方法主要查找候选关键字列表（例如，Bennani 等人只考虑由名词和形容词组成的关键字）。他们将文档和候选关键字嵌入到相同的嵌入空间中，并测量文档和关键字嵌入之间的相似度（例如余弦相似度）。他们根据相似度度量选择与文档文本最相似的关键字。

在本文中介绍了几种从统计、基于图和嵌入方法中提取关键字的方法。由于该领域非常活跃，我只介绍最常见的方法。我只考虑无监督方法的一个子组（它们不需要训练）。也有在带注释文档的训练数据集上训练的监督方法。它们表现良好，但在实践中较少使用，因为它们需要训练并且需要带注释的文档数据集，结果也通常仅适用于训练数据集中的主题。

[1]Bennani-Smires, Kamil, et al. Simple unsupervised keyphrase extraction using sentence embeddings. arXiv preprint arXiv:1801.04470, 2018.

[1] Campos, Ricardo, et al. YAKE! Keyword extraction from single documents using multiple local features. Information Sciences, 2020, 509: 257–289.

[3] Jones, Karen Sparck. A statistical interpretation of term specificity and its application in retrieval. Journal of documentation, 1972.

[4] Mihalcea, Rada; Tarau, Paul. TextRank: Bringing order into texts. 2004. In: Association for Computational Linguistics.

[5] Rose, Stuart, et al. Automatic keyword extraction from individual documents. Text mining: applications and theory, 2010, 1: 1–20.

编辑：王菁

校对：汪雨晴

本文地址：http://lianchengexpo.xrbh.cn/news/13822.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

标签： 关键字概述方法

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 如何快速在PDF中查找关键字？PDF查询关键字的技	• 【Python】用 Python 从单个文本中提取关键字的
• 如何在PDF中搜索关键字？PDF搜索关键字的方法是	• 百度关键字流量查询怎么查看(百度关键字流量查
• 按word内容关键字搜索	• SEO知识：新手站长千万不要忽略长尾关键字
• python利用百度翻译器，爬取需要翻译的关键字	• 淘宝天猫宝贝标题关键字如何组合的技巧
• 手机wps如何查找替换手机wps查找替换关键字方	• scrapy 搜索关键字_搜索引擎抓取原理文本入库