推广 热搜:   公司  快速  企业  中国  设备    上海  行业  未来 

词云:jieba分词

   日期:2024-10-31     移动:http://keant.xrbh.cn/quote/9075.html

jieba是中文分词工具,安装很简单直接
github:https://github.com/fxsjy/jieba

词云:jieba分词

jieba中有三种分词模式,分别是:全模式,默认模式和搜索引擎模式

jieba.cut的默认参数只有三个,jieba源码如下:
分别为:输入文本 是否为全模式分词 与是否开启HMM进行中文分词。

一般来说用默认模式就可以(cut_all=False)

步骤很简单
1.找到文本路径path
2.获取文本
3.使用analyse.extract_tags方法提取
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选

这里注意分词后得到的是tuple,写入到txt文件需要转换类型。
分析缥缈录第一卷,得到以下的结果:

会发现有"像是","可是"这种非名词,这种词可以使用去除停用词的方法,将其解决。

需要下载一个停用词词表,可以直接从这里复制https://github.com/ziqian9206/stopword。
有了停用词表,就可以用来剔除停用词。

使用停用词之后,很多无用词被剔除。


此外我们还可以在jieba中添加自定义词语。

使用count可以得到频次值

本文地址:http://lianchengexpo.xrbh.cn/quote/9075.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。