推广 热搜： 公司快速上海中国未来金企业政策教师系统

关键词提取处理流程

日期：2024-10-31 作者：caijiyuan caijiyuan 评论：0 移动：http://keant.xrbh.cn/news/11646.html

核心提示：从org.apache.pdfbox中引入PDDocument和PDFTextStripper，前者用来在内存中存储pdf document，后者用来提取文本，使用getText方

从org.apache.pdfbox中引入PDdocument和PDFTextStripper，前者用来在内存中存储pdf document，后者用来提取文本，使用getText方法将其转为String类型。

关键词提取处理流程

步骤一：将所有大写字母转为小写

步骤二：将所有特殊字符转为空格，然后用[s](file://s)的正则表达式来分割字符串，将其转化为String数组

步骤三：对所有词做词形还原，例如将ies转为y，将s去掉

步骤四：使用停顿词(stopwords)表，过滤掉所有长度小于等于2或为停顿词的单词

依次读取文件中的pdf文件，对每一个pdf调用1.1和1.2来得到一个arraylist，然后使用类型为ArrayList<ArrayList>的pdfList来包含每一个pdf的arraylist，PdfList是一个类静态成员变量。

2.1.1 算法思想

如果某个词在其他文章较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

Tf = 该词在文章中出现次数/文章总词数

Idf = log(文章数/(包含该词的文章数+1))

Tf-idf = Tf * Idf

2.1.2 算法实现

步骤一：对每篇文章的每个单词计算出它的Tf-Idf值，并将其存入一个类型为ArrayList<Map<String, Double>>的maplist，每一个pdf对应一个HashMap。

步骤二：使用findMaxKey方法来找到每一个Map的前10个最大值(value)，并使用一个类型为ArrayList<Map<String, Double>>的keylist来存储这些最大值。这些HashMap中的key-value对就是对应每篇文章的关键词。

2.2.1 算法思想

在PageRank的基础上，引入边的权值的概念，代表句子间的相似度。而其阻尼系数d取值范围为 0 到 1, 代表从图中某一特定点指向其他任意点的概率, 一般取值为 0.85。使用TextRank 算法计算图中各点的得分时, 需要给图中的点指定任意的初值, 并递归计算直到收敛, 即图中任意一点的误差率小于给定的极限值时就可以达到收敛, 一般该极限值取 0.0001。

但如果把一个单词视为一个句子的话，那么所有句子（单词）构成的边的权重都是0（没有交集，没有相似性），所以分子分母的权值w约掉了，算法退化为PageRank。所以说，关键字提取算法也就是PageRank。

2.2.2 算法实现

步骤一：计算距离每个词距离不大于窗口大小的词的集合

步骤二：根据公式进行迭代，直到所有词的重要性收敛到某一个值的时候，就可以停止迭代并得到结果。结果存储在类型为Map<String, Double>的map中

步骤三：使用findMaxKey方法取前50个权值最大的作为关键词，并将其存入Map<String, Double>的key-map中

2.3.1 算法思想

如果某个词在预处理中没有被过滤，并且在本篇文章出现次数非常多，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

2.3.2 算法实现

步骤一：对每篇文章计算出每个词出现的次数，并将其存入一个类型为ArrayList<HashMap<String,Double>>的wordMapList

本文地址：http://lianchengexpo.xrbh.cn/news/11646.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

标签： 关键词流程提取

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 公务员考试行测技巧：抓住关键词速解语句排序题	• 口译必备｜跟中国有关的46个关键词翻译！
• 百度收录量排行百度收录量排行：揭秘热门关键	• 解读APEC峰会三大关键词：应对全球挑战需要包容
• 电商热门关键词工具（电商必备5大淘词选词工具	• 特朗普、G20、防卫计划大纲：从几个关键词看明
• 百度爱采购代运营 SEO关键词优化存在哪些优点	• 百度收录查看接口百度收录速查：关键词优化新
• 诈骗团伙天价收购“关键词”行骗最终获刑10余	• 盘点年度关键词｜大健康