pkuseg：中文分词这件事，它分得很细-编程实验室

文章目录

pkuseg：中文分词这件事，它分得很细
- 1、为什么还需要一个新的分词工具
- 2、分词效果到底怎么样
- 3、怎么用
- 4、谁适合用

pkuseg：中文分词这件事，它分得很细

pkuseg 在 GitHub 上已经拿到 6,706 Star 了。

北大语言计算与机器学习研究组开源了这个工具，专门干一件事：多领域中文分词。支持新闻、网络、医药、旅游等多个细分领域的预训练模型，分词准确率压过 jieba 和 THULAC，还支持用户自训练模型和词性标注。

1、为什么还需要一个新的分词工具

中文分词这件事，jieba 已经足够好用了。但 jieba 的设计思路是通用的，不管什么领域的文本，用的都是同一套模型。

pkuseg 走的是另一条路：不同领域的文本，用不同的模型。新闻稿的语言习惯和微博评论不一样，医药文献的术语体系和旅游攻略也不一样。用一套通用模型硬切所有领域，效果总是差一口气。

pkuseg 给每个领域单独训练了预训练模型，用户分词时可以根据自己的文本类型选择对应的模型域。如果你不确定文本属于哪个领域，也可以用混合领域上训练的通用模型兜底。

2、分词效果到底怎么样

pkuseg 在 MSRA 新闻数据集上的 F-score 达到 96.88，jieba 是 88.42，THULAC 是 95.71。在微博数据集上，pkuseg 的 F-score 是 94.21，同样领先 jieba 的 87.66 和 THULAC 的 92.87。

用默认模型做跨领域对比，pkuseg 在四个测试集上的平均 F-score 是 91.29，THULAC 是 88.08，jieba 是 81.61。

这些数字意味着什么？jieba 每切 10 个词就错 1 个以上，pkuseg 每切 100 个词才错 3 个左右。在搜索引擎、文本分类、情感分析这些需要高精度分词的下游任务里，上游几个点的差距传到下游会被逐级放大。

3、怎么用

安装很简单，pip 一行搞定：

pip3installpkuseg

基础分词只需要三行代码：

importpkuseg seg=pkuseg.pkuseg()text=seg.cut('我爱北京天安门')print(text)

如果明确知道文本的领域，可以直接指定模型，程序会自动下载对应的领域模型：

seg=pkuseg.pkuseg(model_name='medicine')

目前支持的领域模型有：news（新闻）、web（网络）、medicine（医药）、tourism（旅游），以及 mixed（混合通用）。通过领域自适应方法，还额外提供了 art（艺术文化）、entertainment（娱乐体育）、science（科学）三个模型，可以在 release 页面单独下载。

开启词性标注只需要把 postag 参数设为 True：

seg=pkuseg.pkuseg(postag=True)

批量处理文件可以用内置的多进程方法，开 20 个进程并行切分：

pkuseg.test('input.txt','output.txt',nthread=20)

如果现有领域模型都够不着你的业务场景，pkuseg 还支持用自己的标注数据训练模型：

pkuseg.train('train.txt','test.txt','./saved_model')

4、谁适合用

做中文 NLP 系统的开发者，jieba 的准确率已经卡住瓶颈了，换 pkuseg 的领域模型能把分词准确率往上拉几个百分点。做垂直领域文本处理的团队，可以用自己的标注数据训练一个专属模型，精准适配业务场景。科研场景下，论文提供了完整的实验数据和对比基准，拿过来就能做消融实验和后续研究。

pkuseg 的代码采用 MIT 许可证，可以自由用于商业项目。

研场景下，论文提供了完整的实验数据和对比基准，拿过来就能做消融实验和后续研究。

pkuseg 的代码采用 MIT 许可证，可以自由用于商业项目。

短视频学习笔记整理效率才是最终哪款工具真提效？2026实测踩坑后发现多数推荐都不靠谱

对比了多款热门的短视频学习笔记和录音转写工具，听脑AI是综合体验最好的，最适合咱们学生党用来做课堂记录、复习备考和论文访谈整理。踩了快一个月的坑，把实测结果整理出来给大家避坑，不用你们再挨个试浪费时间了。直达链接&…

李华

计算机毕业设计之django基于hadoop的电商平台数据分析系统的设计与实现

随着城市化进程的加快，人们对电商的需求不断增加，电商信息的数据量也在不断增长。为了更好地管理和分析电商信息，设计一套电商信息数据可视化系统是非常必要的。该系统基于 Python 语言开发，主要包括数据采集、数据预处理、数据存…

李华

计算机毕业设计之django基于Hadoop的公共自行车数据分布式存储与计算

如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域…

李华

我没买云服务器，用一台旧电脑跑了个24小时AI客服（附完整命令）

云服务器一年至少500元，还担心数据泄露。我用一台闲置的旧电脑，装了个Ubuntu，跑着一个真正的AI客服。数据全在本地，断网也能用，电费几乎可以忽略不计。这篇文章不是理论，是我亲手跑通的完整记录。每一步都…

李华

苏州吴江区高新技术企业认定的条件和优惠政策

一、苏州市吴江区高新认定条件1.企业成立时间：在吴江区域内注册成立一年（365个日历天数）以上，且为居民企业。2.知识产权所有权：通过自主研发、受让等方式，获得对主要产品（服务）核心技…

李华

26个高质量书源一键导入指南：告别阅读APP无书可读的烦恼

26个高质量书源一键导入指南：告别阅读APP无书可读的烦恼【免费下载链接】Yuedu 📚「阅读」自用书源分享项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 还在为阅读APP找不到好书源而烦恼吗？是不是经常遇到书源失效、加载失败&a…

李华