news 2026/6/15 11:54:38

【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集

大家好,我是java1234_小锋老师,最近更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》专辑,感谢大家支持。

本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集,模型推理,模型微调,模型性能评估等。是AI大模型应用开发的入门必备知识。

使用datasets库加载Huggingface数据集

Huggingface以及魔塔社区提供了很多数据集,我们可以使用这些数据集来训练和微调模型。

我们首先要安装下datasets库。

pip install datasets -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

IMDb 数据集包含电影评论和相应的情感标签(正面或负面)。这个数据集非常适合情感分析和舆情分析的任务。

https://huggingface.co/datasets/stanfordnlp/imdb

我们用里面的测试集和训练集文件。

Parquet是一种‌列式存储文件格式‌,专为高效存储和处理大规模数据设计,广泛应用于大数据生态系统(如Spark、Hadoop)。其核心特点包括:

1‌,高效压缩‌:通过列式存储实现高压缩比(如Snappy、Gzip编码),显著减少磁盘空间占用。‌‌‌

2,查询优化‌:支持映射下推(仅读取所需列)和谓词下推(过滤无效数据),提升查询性能。‌‌ ‌3,嵌套数据支持‌:原生处理复杂嵌套结构(如JSON、Map),无需扁平化存储。‌‌

我们可以通过datasets库的load_dataset()方法来加载数据集。

测试代码:

from datasets import load_dataset ​ # 加载 IMDb 数据集 dataset = load_dataset(path="./imdb") ​ train = dataset['train'] # 获取训练集 test = dataset['test'] # 获取测试集 print(train, type(train)) print(train[0], type(train[0])) # 每个元素是一个字典 print(train[0]['label'], train[0]['text']) print(test, type(test)) ​ # 遍历数据集 for i in train: print(i)

运行输出:

微博评论csv下载

https://www.modelscope.cn/datasets/Sunnyshan/weibo_sentiment

csv文件的数据集获取代码:

from datasets import load_dataset ​ # 加载微博数据集 dataset = load_dataset(path="csv", data_files="./weibo_senti_100k.csv") ​ # 获取数据集 train = dataset['train'] ​ for i in train: print(i)

运行输出:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 15:08:46

电子信息毕设 stm32智能鱼缸监控投喂系统(源码+硬件+论文)

文章目录 0 前言1 主要功能2 硬件设计(原理图)3 核心软件设计4 实现效果5 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉…

作者头像 李华
网站建设 2026/6/14 1:55:40

GPEN批量处理失败图片保留原图机制说明

GPEN批量处理失败图片保留原图机制说明 1. 背景与功能概述 GPEN图像肖像增强是一款专注于人像修复与画质提升的AI工具,支持单图增强、批量处理、高级参数调节等实用功能。在实际使用中,用户常需对一批老照片或低质量图像进行统一优化。然而&#xff0c…

作者头像 李华
网站建设 2026/6/15 14:35:06

基于SpringBoot+Vue的华强北商城二手手机管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

摘要 随着互联网技术的快速发展,电子商务已成为现代商业活动的重要组成部分。二手手机市场因其高性价比和环保特性,吸引了大量消费者,但传统的线下交易模式存在信息不对称、交易效率低等问题。华强北作为中国最大的电子产品集散地&#xff0c…

作者头像 李华
网站建设 2026/6/15 14:42:31

图像格式:RGB、BGR、RGBA、BGRA

RGB红、绿、蓝通道顺序通常每个通道占 1 个字节(0 ~ 255),一个像素占 3 个字节,内存中排列如下[R, G, B, R, G, B, ...]BGR蓝、绿、红通道顺序通常每个通道占 1 个字节(0 ~ 255),一个像素占 3 个…

作者头像 李华