news 2026/6/15 19:35:52

数据集初识

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据集初识

1.在线加载数据集

代码:

importos# 设置环境变量,所有Hugging Face请求都会通过镜像站os.environ['HF_ENDPOINT']='https://hf-mirror.com'fromdatasetsimportload_dataset,load_from_disk#在线加载数据集datasets=load_dataset(path="lansinuote/ChnSentiCorp",cache_dir="data/")print(datasets)

运行结果:

To support symlinks on Windows,you either need to activate Developer Modeorto run Pythonasan administrator.In order to activate developer mode,see this article:https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development warnings.warn(message)Generating train split:100%|██████████|9600/9600[00:00<00:00,157051.44examples/s]Generating validation split:100%|██████████|1200/1200[00:00<00:00,280524.18examples/s]Generating test split:100%|██████████|1200/1200[00:00<00:00,344619.29examples/s]DatasetDict({train:Dataset({features:['text','label'],num_rows:9600})validation:Dataset({features:['text','label'],num_rows:1200})test:Dataset({features:['text','label'],num_rows:1200})})进程已结束,退出代码为0
#### **加载统计**: |数据集划分 |样本数量 |加载速度 |用时 | |-------|------|----------|-----| |**训练集**|9,600条|157,051条/秒|<0.1秒| |**验证集**|1,200条|280,524条/秒|<0.1秒| |**测试集**|1,200条|344,619条/秒|<0.1秒|

2.离线加载数据集

首先,将缓存数据保存到磁盘

# 2. 保存到磁盘save_path=r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\chn_senti_corp_saved"datasets.save_to_disk(save_path)print(f"\n 数据集已保存到:{save_path}")

其次,离线加载数据集,并输出train训练集数据

dataset=load_from_disk(r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\chn_senti_corp_saved")forkindataset["train"]:print(k)

训练集结果输出text和label两个特征量:

{'text':'这书我看他的丰面时就感觉它是给我一个希望的书,可一看和我的想反了.没什么帮助的.就是觉的失败','label':0}{'text':'内存数量配置偏低 内存插槽于掌托下,需拆卸安装,不方便 蓝牙模块采用软件控制','label':0}.........{'text':'虽是观景房,不过我住的楼层太低(19楼)看不到江景,但地点很好,离轻轨临江门站和较场口站(起点)很近,解放碑就在附近(大约100多公尺吧)!','label':1}{'text':'性价比不错,交通方便。行政楼层感觉很好,只是早上8点楼上装修,好吵。 中餐厅档次太低,虽然便宜,但是和酒店档次不相配。','label':1}{'text':'跟心灵鸡汤没什么本质区别嘛,至少我不喜欢这样读经典,把经典都解读成这样有点去中国化的味道了','label':0}进程已结束,退出代码为0


在这里数据集是.arrow格式的,一般我们自建的数据集是.csv格式的,加载代码如下:

dataset=load_dataset(r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\mobile_test01.csv")

如果想将.arrow格式的转换为.csv格式,可以试一试以下代码:

datasets.to_csv(path_or_buf=r"D:\develop\pypro\LLM\LLMPro\01-大模型应用基础\data\chn_senti_corp_saved.csv")
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 4:24:30

ITSS视角下的业务连续性与灾备体系建设

那次事故发生在一个再普通不过的星期一。凌晨三点&#xff0c;一家金融企业的主数据中心突发电力故障&#xff0c;备用电源切换失败。核心账务系统停摆&#xff0c;客户交易中断&#xff0c;所有热线被打爆。五分钟后&#xff0c;备用机房启动计划被执行&#xff0c;但由于备份…

作者头像 李华
网站建设 2026/6/15 13:23:30

DeepEP技术解密:Ampere GPU专家并行通信性能飞跃

DeepEP技术解密&#xff1a;Ampere GPU专家并行通信性能飞跃 【免费下载链接】DeepEP DeepEP: an efficient expert-parallel communication library 项目地址: https://gitcode.com/GitHub_Trending/de/DeepEP 你是否曾困惑于Ampere架构GPU在大规模专家并行训练中的通信…

作者头像 李华
网站建设 2026/6/14 12:38:12

Dify-Plus 终极指南:5步构建企业级AI应用的完整方案

Dify-Plus 终极指南&#xff1a;5步构建企业级AI应用的完整方案 【免费下载链接】dify-plus Dify-Plus 是 Dify 的企业级增强版&#xff0c;集成了基于 gin-vue-admin 的管理中心&#xff0c;并针对企业场景进行了功能优化。 &#x1f680; Dify-Plus 管理中心 Dify 二开 。 …

作者头像 李华
网站建设 2026/6/15 11:49:10

高效Rust同步原语:parking_lot性能优化指南

高效Rust同步原语&#xff1a;parking_lot性能优化指南 【免费下载链接】parking_lot Compact and efficient synchronization primitives for Rust. Also provides an API for creating custom synchronization primitives. 项目地址: https://gitcode.com/gh_mirrors/pa/pa…

作者头像 李华
网站建设 2026/6/15 12:02:45

LeetCode热题100:76. 最小覆盖子串

简介 题目链接&#xff1a;https://leetcode.cn/problems/minimum-window-substring/description/ 解决方式&#xff1a;滑动窗口&#xff08;双指针 数组&#xff09; 这是作者学习众多大神的思路进行解题的步骤&#xff0c;很推荐大家解题的时候去看看题解里面大佬们的思路、…

作者头像 李华
网站建设 2026/6/15 6:16:28

快速上手:OpenAI Whisper语音识别本地部署终极指南

快速上手&#xff1a;OpenAI Whisper语音识别本地部署终极指南 【免费下载链接】whisper-base.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-base.en 还在为语音转文本的需求而烦恼吗&#xff1f;想要在本地环境中高效运行语音识别模型吗&#xff1…

作者头像 李华