news 2026/5/1 9:44:51

快速上手的生物医学NLP框架KAZU

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
快速上手的生物医学NLP框架KAZU

KAZU - 生物医学NLP框架

注意:最近的2.0版本在自定义模型包和标注的使用上存在较大的向后不兼容性。
欢迎使用KAZU,这是一个与韩国大学合作构建的Python生物医学NLP框架,专为处理生产级工作负载而设计。
该库旨在简化在生产系统中使用最先进的NLP研究的过程。其中包含的部分研究是我们自己的成果,但大部分来自社区,我们对此表示无比感激。
如果您想使用KAZU,请引用我们在EMNLP 2022上发表的论文!

快速开始

安装

需要Python 3.9或更高版本(已在Python 3.11上测试)。
可以:
pip install kazu
或者从发布页面下载wheel文件并在本地安装。
如果您打算在自己的代码库中使用Mypy,请考虑通过以下方式安装KAZU:
pip install kazu[typed]
这将引入kazu依赖项的类型存根,以便mypy在类型检查您的代码库时能够访问尽可能多的相关类型信息。

获取模型包

对于大多数功能,您还需要KAZU模型包。它与每个版本相关联,可以在发布页面上找到。下载后,解压存档并设置:
export KAZU_MODEL_PACK=<解压后存档的路径>
KAZU高度可配置,不过它预装了适用于大多数文献处理用例的默认配置。
要使用这些配置并处理一个简单文档,请参考以下示例代码:

importhydrafromhydra.utilsimportinstantiatefromkazu.dataimportDocumentfromkazu.pipelineimportPipelinefromkazu.utils.constantsimportHYDRA_VERSION_BASEfrompathlibimportPathimportos# Hydra配置保存在模型包中cdir=Path(os.environ["KAZU_MODEL_PACK"]).joinpath("conf")@hydra.main(version_base=HYDRA_VERSION_BASE,config_path=str(cdir),config_name="config")defkazu_test(cfg):pipeline:Pipeline=instantiate(cfg.Pipeline)text="EGFR mutations are often implicated in lung cancer"doc=Document.create_simple_document(text)pipeline([doc])print(f"{doc.get_entities()}")if__name__=="__main__":kazu_test()

许可证

基于Apache 2.0许可证授权。
KAZU包含了基于兼容许可证的组件。

数据集许可证

  • Chembl, CLO, UBERON: 基于知识共享署名-相同方式共享 3.0 未移植许可证。
  • MONDO, CELLOSAURUS, Gene Ontology: 基于知识共享署名 4.0 未移植许可证。

其他许可的数据集和模型

  • HPO: 自由许可。
  • OPEN TARGETS: 开源目标数据集由某机构提供,可免费用于商业用例。
  • STANZA: 使用了某机构的框架和生物医学NLP模型。
  • SCISPACY: 使用了某机构的生物医学模型。
  • SAPBERT: KAZU使用了SAPBERT的蒸馏版本。
  • GLINER: 使用了某机构的通用命名实体识别模型。
  • SETH: KAZU的SethStep使用Py4j调用SETH突变查找器。
  • Opsin: KAZU的OpsinStep使用Py4j调用OPSIN。
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 8:36:29

最新流出6款免费AI论文工具!轻松搞定毕业论文+真实参考文献

倒计时警告&#xff1a; 你的毕业论文截止日期&#xff0c;真的还等得起吗&#xff1f;当别人还在为“文献综述”和“降重”焦头烂额时&#xff0c;聪明的同学已经用上了这6款刚刚流出的免费AI论文工具。别再犹豫&#xff0c;今晚就是你和拖延症决战的最后时刻&#xff01; 深夜…

作者头像 李华
网站建设 2026/5/1 8:36:00

MGeo自动化备份策略:定期保存workspace重要修改成果

MGeo自动化备份策略&#xff1a;定期保存workspace重要修改成果 引言&#xff1a;为何需要自动化备份MGeo工作成果&#xff1f; 在使用阿里开源的MGeo地址相似度匹配模型进行中文地址领域实体对齐任务时&#xff0c;研究人员和工程师常常需要在Jupyter环境中反复调试推理脚本、…

作者头像 李华
网站建设 2026/5/1 8:12:05

M2FP在AR试鞋中的应用:精确脚部区域分割提升用户体验

M2FP在AR试鞋中的应用&#xff1a;精确脚部区域分割提升用户体验 引言&#xff1a;从虚拟试穿到精准交互的演进 随着增强现实&#xff08;AR&#xff09;技术在电商领域的深入应用&#xff0c;虚拟试鞋已成为提升用户购物体验的关键功能。传统方案多依赖简单的图像叠加或3D建模…

作者头像 李华
网站建设 2026/5/1 9:34:43

测试日志系统韧性:Elasticsearch的专业实践指南

日志系统韧性的重要性 在分布式系统架构中&#xff0c;日志系统是监控、调试和审计的核心组件。Elasticsearch作为业界领先的日志管理工具&#xff0c;广泛应用于实时数据分析场景。然而&#xff0c;其复杂性带来了韧性挑战&#xff1a;高并发下的性能瓶颈、节点故障导致的日志…

作者头像 李华
网站建设 2026/4/23 22:23:16

Z-Image-TurboNFT艺术品创作辅助工具测评

Z-Image-TurboNFT艺术品创作辅助工具测评 引言&#xff1a;AI赋能艺术创作的新范式 随着生成式人工智能技术的快速发展&#xff0c;AI图像生成已从实验性探索走向实际应用。在数字艺术与NFT创作领域&#xff0c;高效、可控且高质量的图像生成工具成为创作者的核心需求。阿里通义…

作者头像 李华
网站建设 2026/3/16 10:38:55

Z-Image-Turbo奇幻地图绘制:魔幻大陆地形与建筑

Z-Image-Turbo奇幻地图绘制&#xff1a;魔幻大陆地形与建筑 引言&#xff1a;当AI遇见幻想世界构建 在游戏开发、小说插画与桌游设计中&#xff0c;一张富有想象力的奇幻地图往往是整个世界观的灵魂。然而&#xff0c;传统手绘或3D建模方式耗时耗力&#xff0c;对美术功底要求极…

作者头像 李华