主要步骤流程:
文本预处理:分词
训练词向量
tf-idf提取关键词并写入文档 前20个词
word2vec读取提取的关键词并转为词向量
相似度计算。
前面对word2vec的理论进行了介绍,接下来进入实战环节。实践主要分为三部分,word2vec训练,相似度计算以及训练结果展示三部分。
词向量的训练:
词向量的训练主要分为两部分:
1、对中文语料进行数据预处理;
2、利用gensim模块训练词向量。
中文语料处理:
在用语料库进行训练词向量之前需要对中文句子进行分词,这里采用jieba中文分词工具对句子进行分词。具体代码如下:
最后将处理后的语料存入txt文档中,处理后的语料如下图所示:
向量化训练:
利用gensim模块训练词向量。之前有详细介绍训练方法和参数设置,这里不再累赘。
word2vec计算文本相似度:
Word2vec计算文本相似度的基本方法是:提取文本中的关键词,接着将关键词向量化,然后将得到的各个词向量相加,最后得到的一个词向量总和代表文本向量化表示,利用总的向量计算网页相似度。包括的步骤是:1、关键词提取,2、关键词向量化,3、相似度计算。
关键词提取
这里采用的是jieba工具包中tf-idf关键词提取算法。提取结果如下:
关键词向量化
从txt文件中读取关键词,利用之前训练好的词向量获取关键词的词向量。
相似度计算
通过余弦相似度计算向量的相似度,并返回top10。