news 2026/6/21 14:01:56

知识图谱(七)之数据处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识图谱(七)之数据处理

一数据标注回顾

1.1整体思路

  1. 现在我们有txt和txtroiginal.

txt里面是标注数据,txtoriginal里面是原始数据,数据如下:

txt:

txtoriginal:

  1. 根据标注数据和标签类型构建字典

这是标签类型:

  1. 遍历原始数据,通过索引和标签的字典,给想引得位置打上标签.通过索引查字典,如果能查到则将对应的value作为标签,否则打上o的标签.

二代码实现

2.1使用路径拼接读取数据

import os import json cur = os.getcwd() print(cur) os.chdir('..') cur = os.getcwd() print(f'修改以后的目录{cur}') path=os.path.join(cur,'data/labels.json') print(f'拼接后的路径{path}') labels=json.load(open(path,'r',encoding='utf-8')) print(f'labels->{labels}')

2.1.1补充os.getcwd()方法:这个方法的缺陷是其他包在导入使用这个方法的包后,获取到的是其他包的路径,会导致读取数据出现错误

报错的原因是路径输出的是当前文件夹的路径,因为输出的不是导入的包的路径,所以找不到相关文件.

2.2.2使用os.path.abspath()的方法可以避免这个问题

import os import json # 如何设计,让这个代码在调用时,相对路径不随着调用位置变化而变化 file_path = os.path.abspath(__file__) print(f'file_path-->{file_path}') base_dir = os.path.dirname(file_path) print(f'base_dir-->{base_dir}') # 路径拼接 path = os.path.join(base_dir, '../data/labels.json') print(f'拼接之后的路径2-->{path}') # 读取json文件 labels = json.load(open(path, 'r', encoding='utf-8')) print(f'labels-->{labels}')

拼接好路径以后,使用os.walk()读取路径下的文件

这个方法返回的是可迭代对象,用循环的方法遍历,分别返回的是:文件夹路径,文件夹列表,文件列表

results = os.walk(os.path.join(base_dir, '../data_origin')) print(f'results-->{results}') for dir_path, dirs, files in results: # 路径、文件夹(列表)、文件(列表) print('*'*50) print(f'dir_path-->{dir_path}') print(f'dirs-->{dirs}') print(f'files-->{files}')

2.2数据处理

先获取实体的英文名,然后用B-英文名或者I-英文名拼接,,得到每实体里面每个字的标签.

遍历原始文本,通过标签数据的索引给原始文本里面的字打标签,如果没有这个字的标签,就打O

2.2.1拼接的方法

拼接结果:

2.2.2遍历原始文本,给实体打标签

找到索引提取value,找不到索引打O

2.2.3最终结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 11:28:55

Altium Designer中Gerber导出核心要点一文说清

Altium Designer中Gerber导出核心要点一文说清:从设计到制造的无缝衔接 为什么一次正确的Gerber输出能省下整整一周? 在硬件开发的冲刺阶段,最怕什么?不是原理图改了三次,也不是Layout布线返工——而是 打样回来的板…

作者头像 李华
网站建设 2026/6/15 7:27:55

cv_resnet18_ocr-detection实战:检测模糊文档文字,2块钱玩一下午

cv_resnet18_ocr-detection实战:检测模糊文档文字,2块钱玩一下午 你是不是也经常遇到这种情况?员工报销时随手拍一张发票或单据上传,结果照片模糊、角度歪斜、反光严重,文字几乎看不清。作为行政人员,你只…

作者头像 李华
网站建设 2026/6/15 7:27:56

手把手教你用 ms-swift 快速微调 Qwen2.5-7B 模型

手把手教你用 ms-swift 快速微调 Qwen2.5-7B 模型 1. 环境与资源概览 在开始微调之前,首先需要了解本镜像的环境配置和资源要求。该镜像专为单卡高效微调设计,预置了完整的模型与框架,可实现开箱即用。 1.1 基础环境信息 工作路径&#x…

作者头像 李华
网站建设 2026/6/15 8:31:10

告别云端依赖:基于Supertonic实现隐私友好的本地语音合成

告别云端依赖:基于Supertonic实现隐私友好的本地语音合成 1. 引言 1.1 语音合成的隐私与性能挑战 随着大模型和智能助手的普及,文本转语音(TTS)技术已成为人机交互的重要组成部分。然而,当前大多数 TTS 解决方案仍严…

作者头像 李华
网站建设 2026/6/15 8:32:10

Emotion2Vec+ Large与传统情感分析对比:深度学习优势详解

Emotion2Vec Large与传统情感分析对比:深度学习优势详解 1. 引言:语音情感识别的技术演进 随着人机交互技术的不断发展,语音情感识别(Speech Emotion Recognition, SER)逐渐成为智能客服、心理健康监测、车载系统等场…

作者头像 李华
网站建设 2026/6/19 0:43:12

低成本部署Qwen3Guard-Gen-WEB:显存优化实战案例

低成本部署Qwen3Guard-Gen-WEB:显存优化实战案例 在当前大模型广泛应用的背景下,内容安全审核成为AI系统落地的关键环节。阿里开源的 Qwen3Guard-Gen-WEB 模型为开发者提供了一套高效、精准且支持多语言的安全审核解决方案。该模型基于强大的 Qwen3 架构…

作者头像 李华