news 2026/6/8 23:12:53

pkuseg:中文分词这件事,它分得很细

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
pkuseg:中文分词这件事,它分得很细

文章目录

  • pkuseg:中文分词这件事,它分得很细
    • 1、为什么还需要一个新的分词工具
    • 2、分词效果到底怎么样
    • 3、怎么用
    • 4、谁适合用

pkuseg:中文分词这件事,它分得很细

pkuseg 在 GitHub 上已经拿到 6,706 Star 了。

北大语言计算与机器学习研究组开源了这个工具,专门干一件事:多领域中文分词。支持新闻、网络、医药、旅游等多个细分领域的预训练模型,分词准确率压过 jieba 和 THULAC,还支持用户自训练模型和词性标注。

1、为什么还需要一个新的分词工具

中文分词这件事,jieba 已经足够好用了。但 jieba 的设计思路是通用的,不管什么领域的文本,用的都是同一套模型。

pkuseg 走的是另一条路:不同领域的文本,用不同的模型。新闻稿的语言习惯和微博评论不一样,医药文献的术语体系和旅游攻略也不一样。用一套通用模型硬切所有领域,效果总是差一口气。

pkuseg 给每个领域单独训练了预训练模型,用户分词时可以根据自己的文本类型选择对应的模型域。如果你不确定文本属于哪个领域,也可以用混合领域上训练的通用模型兜底。

2、分词效果到底怎么样

pkuseg 在 MSRA 新闻数据集上的 F-score 达到 96.88,jieba 是 88.42,THULAC 是 95.71。在微博数据集上,pkuseg 的 F-score 是 94.21,同样领先 jieba 的 87.66 和 THULAC 的 92.87。

用默认模型做跨领域对比,pkuseg 在四个测试集上的平均 F-score 是 91.29,THULAC 是 88.08,jieba 是 81.61。

这些数字意味着什么?jieba 每切 10 个词就错 1 个以上,pkuseg 每切 100 个词才错 3 个左右。在搜索引擎、文本分类、情感分析这些需要高精度分词的下游任务里,上游几个点的差距传到下游会被逐级放大。

3、怎么用

安装很简单,pip 一行搞定:

pip3installpkuseg

基础分词只需要三行代码:

importpkuseg seg=pkuseg.pkuseg()text=seg.cut('我爱北京天安门')print(text)

如果明确知道文本的领域,可以直接指定模型,程序会自动下载对应的领域模型:

seg=pkuseg.pkuseg(model_name='medicine')

目前支持的领域模型有:news(新闻)、web(网络)、medicine(医药)、tourism(旅游),以及 mixed(混合通用)。通过领域自适应方法,还额外提供了 art(艺术文化)、entertainment(娱乐体育)、science(科学)三个模型,可以在 release 页面单独下载。

开启词性标注只需要把 postag 参数设为 True:

seg=pkuseg.pkuseg(postag=True)

批量处理文件可以用内置的多进程方法,开 20 个进程并行切分:

pkuseg.test('input.txt','output.txt',nthread=20)

如果现有领域模型都够不着你的业务场景,pkuseg 还支持用自己的标注数据训练模型:

pkuseg.train('train.txt','test.txt','./saved_model')

4、谁适合用

做中文 NLP 系统的开发者,jieba 的准确率已经卡住瓶颈了,换 pkuseg 的领域模型能把分词准确率往上拉几个百分点。做垂直领域文本处理的团队,可以用自己的标注数据训练一个专属模型,精准适配业务场景。科研场景下,论文提供了完整的实验数据和对比基准,拿过来就能做消融实验和后续研究。

pkuseg 的代码采用 MIT 许可证,可以自由用于商业项目。

研场景下,论文提供了完整的实验数据和对比基准,拿过来就能做消融实验和后续研究。

pkuseg 的代码采用 MIT 许可证,可以自由用于商业项目。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/8 23:11:03

计算机毕业设计之django基于hadoop的电商平台数据分析系统的设计与实现

随着城市化进程的加快,人们对电商的需求不断增加,电商信息的数据量也在不断增长。为了更好地管理和分析电商信息,设计一套电商信息数据可视化系统是非常必要的。该系统基于 Python 语言开发,主要包括数据采集、数据预处理、数据存…

作者头像 李华
网站建设 2026/6/8 23:11:01

计算机毕业设计之django基于Hadoop的公共自行车数据分布式存储与计算

如今,在科学技术飞速发展的情况下,信息化的时代也已因为计算机的出现而来临,信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处,可以大大提高人们的工作效率。随着计算机技术的发展的普及,各个领域…

作者头像 李华
网站建设 2026/6/8 23:10:35

我没买云服务器,用一台旧电脑跑了个24小时AI客服(附完整命令)

云服务器一年至少500元,还担心数据泄露。我用一台闲置的旧电脑,装了个Ubuntu,跑着一个真正的AI客服。数据全在本地,断网也能用,电费几乎可以忽略不计。这篇文章不是理论,是我亲手跑通的完整记录。 每一步都…

作者头像 李华
网站建设 2026/6/8 23:10:28

苏州吴江区高新技术企业认定的条件和优惠政策

一、苏州市吴江区高新认定条件1.企业成立时间:在吴江区域内注册成立一年(365个日历天数)以上,且为居民企业。2.知识产权所有权:通过自主研发、受让等方式,获得对主要产品(服务)核心技…

作者头像 李华
网站建设 2026/6/8 23:09:33

26个高质量书源一键导入指南:告别阅读APP无书可读的烦恼

26个高质量书源一键导入指南:告别阅读APP无书可读的烦恼 【免费下载链接】Yuedu 📚「阅读」自用书源分享 项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 还在为阅读APP找不到好书源而烦恼吗?是不是经常遇到书源失效、加载失败&a…

作者头像 李华