推广 热搜:   公司  快速  企业  中国  设备    上海  行业  未来 

基于TF-IDF+语义相似度的长文本相似度计算

   日期:2024-11-04     移动:http://keant.xrbh.cn/quote/13565.html

主要步骤流程

基于TF-IDF+语义相似度的长文本相似度计算

文本预处理:分词

训练词向量

tf-idf提取关键词并写入文档 前20个词

word2vec读取提取的关键词并转为词向量

相似度计算。

前面对word2vec的理论进行了介绍,接下来进入实战环节。实践主要分为三部分,word2vec训练,相似度计算以及训练结果展示三部分。

词向量的训练

词向量的训练主要分为两部分

1、对中文语料进行数据预处理

2、利用gensim模块训练词向量。

中文语料处理

在用语料库进行训练词向量之前需要对中文句子进行分词,这里采用jieba中文分词工具对句子进行分词。具体代码如下

最后将处理后的语料存入txt文档中,处理后的语料如下图所示

                                   

向量化训练

利用gensim模块训练词向量。之前有详细介绍训练方法和参数设置,这里不再累赘。

word2vec计算文本相似度

Word2vec计算文本相似度的基本方法是:提取文本中的关键词,接着将关键词向量化,然后将得到的各个词向量相加,最后得到的一个词向量总和代表文本向量化表示,利用总的向量计算网页相似度。包括的步骤是:1、关键词提取,2、关键词向量化,3、相似度计算。

关键词提取

这里采用的是jieba工具包中tf-idf关键词提取算法。提取结果如下

关键词向量化

从txt文件中读取关键词,利用之前训练好的词向量获取关键词的词向量。

相似度计算

通过余弦相似度计算向量的相似度,并返回top10。

训练结果

本文地址:http://lianchengexpo.xrbh.cn/quote/13565.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号