jieba是中文分词工具,安装很简单直接
github:https://github.com/fxsjy/jieba
jieba中有三种分词模式,分别是:全模式,默认模式和搜索引擎模式
jieba.cut的默认参数只有三个,jieba源码如下:
分别为:输入文本 是否为全模式分词 与是否开启HMM进行中文分词。
一般来说用默认模式就可以(cut_all=False)
步骤很简单
1.找到文本路径path
2.获取文本
3.使用analyse.extract_tags方法提取
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
这里注意分词后得到的是tuple,写入到txt文件需要转换类型。
分析缥缈录第一卷,得到以下的结果:
会发现有"像是","可是"这种非名词,这种词可以使用去除停用词的方法,将其解决。
需要下载一个停用词词表,可以直接从这里复制https://github.com/ziqian9206/stopword。
有了停用词表,就可以用来剔除停用词。
使用停用词之后,很多无用词被剔除。
此外我们还可以在jieba中添加自定义词语。
使用count可以得到频次值
本文地址:http://lianchengexpo.xrbh.cn/quote/9075.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。
相关行业动态
推荐行业动态
点击排行
- 1001百度投放广告怎么样收费?百度广告收费标准是怎样的?
- 1002Docker入门
- 1003考试题库APP开发功能及盈利模式分析
- 1004脸上“小疙瘩”老去不掉?这货不敢再用了,脸滑到男朋友狂摸!
- 1005财报中存量与流量之间的关系
- 1006软件演示
- 1007有氧运动对人体有什么好处
- 1008桂林4天自由行路线大全,四天三夜旅游攻略尽享地道体验
- 1009秘塔写作猫ai写作重复率
©2008-现在 XRBH.CN 迅博思语版权所有 粤ICP备2023022329号