用python中的第三方库jieba实现对一段中文进行分词 。
需要这些哦
python 3.8.2(其他版本也可以)
pycharm 2020.01(其他版本也可以)
方式/
1在本次教程中, 我们采用pycharm进行编程 。 起首领会一下jieba库, jieba库是优异的中文分词第三方库 。
jeiba库分词的道理:jieba分词依靠中文词库, 操纵一个中文词库, 确定中文字符之间的联系关系概率, 中文字符间概率大的构成词组, 形当作分词成果 。
2安装jieba库:
在桌面摁下“win”+“r”, 输入cmd, 接着输入“pip install jieba”, 期待号令交运行完当作, 当呈现“successful”就申明jieba库已经安装当作功了 。




3jieba库有三种分词模式, 切确模式、全模式、搜刮引擎模式 。
切确模式:把文本切确地且分隔, 不存在冗余单词 。
全模式:把文本中所有可能的词语都扫描出来, 词与词之间存在反复部门, 有冗余 。
搜刮引擎模式:在切确模式根本上, 对长词再次切分 。
4jieba库常用函数:
1、jieba.lcut(s) 切确模式, 返回一个列表类型的分词成果
2、jieba.lcut(s, cut_all=True) 全模式, 返回一个列表类型的分词成果, 有冗余
3、jeiba.lcut_for_search(s) 搜刮引擎模式, 返回一个列表类型的分词成果, 存在冗余
(其他函数操作可以参照官方文档)
5打开pycharm, 点击左上角“File”-“New Project”新建一个项目(图1), 选择肆意目次, 选择python 3.8诠释器, 点击“cerate”, 在project处右键点击“New”-“Python File”, 肆意取一个名字回车




6在新建的py文件中输入:
import jieba
txt = "把文本切确地分隔, 不存在冗余单词"
# 切确模式
words_lcut = jieba.lcut(txt)
print(words_lcut)
# 全模式
words_lcut_all = jieba.lcut(txt, cut_all=True)
print(words_lcut_all)
# 搜刮引擎模式
words_lcut_search = jieba.lcut_for_search(txt)
print(words_lcut_search)
【如何用python进行中文分词】代码即可实现对字符串txt的分词
注重事项文章利用pycharm进行编程, 也可以利用IDLE进行编程 。
jieba库在安装时, 若频仍呈现timeout, 可以过段时候再试, 或者运行 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/ 利用清华源进行安装
官网文档请在pypi搜刮jieba
以上内容就是如何用python进行中文分词的内容啦, 希望对你有所帮助哦!
猜你喜欢
- 如何利用VBA代码插入三向箭头
- 如何利用VBA代码插入圆角右向箭头
- 开心消消乐如何获得更多精力——全攻略
- 三国志10如何募私兵
- 太吾绘卷怎么打造装备
- 如何在qq上下载马西西表情包
- pubg客户端如何更新
- js如何去掉字符串前后空格
- 电子秤如何公斤调市斤
- 如何投诉医院
