关键字提取是从文本文档中检索关键字或关键短语。这些关键词从文本文档的短语中选择出来的并且表征了文档的主题。在本文中,我总结了最常用的自动提取关键字的方法。自动从文档中提取关键字的方法是从文本文档中选择最常用和最重要的单词或短语的启发式方法。我将关键字提取方法归入自然语言处理领域,这是机器学习和人工智能中的一个重要领域。关键字提取器用于提取单词(关键字)或创建短语(关键短语)的两个或多个单词的组。在本文中,我使用术语关键字提取,其中包括关键字或关键短语提取。
节省时间——根据关键词,可以决定文本的主题(例如文章)是否对他感兴趣以及是否阅读。关键字向用户提供了该篇文章或文档主要内容摘要。查找相关文档——大量文章的出现使得我们不可能全部进行阅读。关键词提取算法可以帮助我们找到相关文章。关键字提取算法还可以自动构建书籍、出版物或索引。关键字提取作为机器学习的支持——关键字提取算法找到描述文本的最相关的词。它们以后可以用于可视化或自动分类文本。
在本文中,我将概述一些最常用的关键字提取方法。我会考虑无监督(不需要训练)和领域独立的方法。我将方法分为三组:统计方法、基于图的方法和基于向量嵌入的方法。深度学习的出现使基于嵌入的方法成为可能。研究人员开发了几种使用文档嵌入的关键字提取方法(例如 Bennani 等人)。这些方法主要查找候选关键字列表(例如,Bennani 等人只考虑由名词和形容词组成的关键字)。他们将文档和候选关键字嵌入到相同的嵌入空间中,并测量文档和关键字嵌入之间的相似度(例如余弦相似度)。他们根据相似度度量选择与文档文本最相似的关键字。
在本文中介绍了几种从统计、基于图和嵌入方法中提取关键字的方法。由于该领域非常活跃,我只介绍最常见的方法。我只考虑无监督方法的一个子组(它们不需要训练)。也有在带注释文档的训练数据集上训练的监督方法。它们表现良好,但在实践中较少使用,因为它们需要训练并且需要带注释的文档数据集,结果也通常仅适用于训练数据集中的主题。
[1]Bennani-Smires, Kamil, et al. Simple unsupervised keyphrase extraction using sentence embeddings. arXiv preprint arXiv:1801.04470, 2018.
[1] Campos, Ricardo, et al. YAKE! Keyword extraction from single documents using multiple local features. Information Sciences, 2020, 509: 257–289.
[3] Jones, Karen Sparck. A statistical interpretation of term specificity and its application in retrieval. Journal of documentation, 1972.
[4] Mihalcea, Rada; Tarau, Paul. TextRank: Bringing order into texts. 2004. In: Association for Computational Linguistics.
[5] Rose, Stuart, et al. Automatic keyword extraction from individual documents. Text mining: applications and theory, 2010, 1: 1–20.
编辑:王菁
校对:汪雨晴