推广 热搜： 金公司快速企业中国设备杯上海行业未来

词云：jieba分词

日期：2024-10-31 移动：http://keant.xrbh.cn/quote/9075.html

jieba是中文分词工具，安装很简单直接
github:https://github.com/fxsjy/jieba

词云：jieba分词

jieba中有三种分词模式，分别是：全模式，默认模式和搜索引擎模式

jieba.cut的默认参数只有三个,jieba源码如下:
分别为:输入文本是否为全模式分词与是否开启HMM进行中文分词。

一般来说用默认模式就可以(cut_all=False)

步骤很简单
1.找到文本路径path
2.获取文本
3.使用analyse.extract_tags方法提取
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False
allowPOS 仅包括指定词性的词，默认值为空，即不筛选

这里注意分词后得到的是tuple，写入到txt文件需要转换类型。
分析缥缈录第一卷，得到以下的结果：

会发现有"像是"，"可是"这种非名词，这种词可以使用去除停用词的方法，将其解决。

需要下载一个停用词词表，可以直接从这里复制https://github.com/ziqian9206/stopword。
有了停用词表，就可以用来剔除停用词。

使用停用词之后，很多无用词被剔除。

此外我们还可以在jieba中添加自定义词语。

使用count可以得到频次值

本文地址：http://lianchengexpo.xrbh.cn/quote/9075.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

词云：jieba分词

推荐行业动态

小红书略2024最新版（3）0粉开播玩转小红书直播间

点击排行