news 2026/6/15 20:06:13

Polyvore时尚兼容性数据集完整教程:从数据获取到模型训练终极指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Polyvore时尚兼容性数据集完整教程:从数据获取到模型训练终极指南

Polyvore时尚兼容性数据集完整教程:从数据获取到模型训练终极指南

【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset

Polyvore时尚兼容性数据集是研究服装搭配和时尚推荐的重要资源,广泛应用于ACM MM 2017论文"Learning Fashion Compatibility with Bidirectional LSTMs"。本指南将带您深入了解该数据集的结构、处理方法和应用场景,助您快速上手时尚AI研究。

数据集概述与核心价值

Polyvore数据集包含21,889个精心整理的服装搭配,其中17,316个用于训练,1,497个用于验证,3,076个用于测试。每个搭配都经过真实用户的验证,具有高度的实用价值。

数据集核心特点:

  • 真实用户创建的时尚搭配
  • 多维度商品信息(价格、喜欢数、类别等)
  • 覆盖广泛的服装品类和风格
  • 支持多种时尚AI任务

数据获取与解压处理

获取数据集

数据集以压缩包形式提供,您可以通过以下命令获取:

git clone https://gitcode.com/gh_mirrors/po/polyvore-dataset

解压数据集

数据集文件polyvore.tar.gz需要解压才能使用:

tar -xzf polyvore.tar.gz

解压后您将获得完整的Polyvore服装搭配数据集,包括图像链接和详细的商品信息。

数据结构深度解析

主要数据文件说明

训练数据文件:train_no_dup.json验证数据文件:valid_no_dup.json
测试数据文件:test_no_dup.json类别映射文件:category_id.txt填空测试文件:fill_in_blank_test.json兼容性预测文件:fashion_compatibility_prediction.txt

JSON数据结构示例

每个搭配包含完整的时尚单品信息:

{ "name": "Casual", "views": 8743, "items": [ { "index": 1, "name": "mock neck embroidery suede sweatshirt", "price": 24.0, "likes": 10, "image": "http://img2.polyvoreimg.com/cgi/img-thing?...", "categoryid": 4495 } ], "image": "搭配图片URL", "likes": 搭配喜欢数, "date": "上传日期", "set_url": "搭配页面URL", "set_id": "搭配ID", "desc": "搭配描述" }

类别映射系统

category_id.txt文件提供了完整的类别ID到类别名称的映射,涵盖:

  • 服装类:连衣裙、上衣、外套、裤子等
  • 配饰类:包包、鞋子、珠宝等
  • 美妆类:化妆品、护肤品等
  • 家居类:家具、装饰品等

数据处理实用技巧

数据加载与预处理

使用Python进行数据处理的推荐方法:

import json import pandas as pd # 加载训练数据 with open('train_no_dup.json', 'r') as f: train_data = json.load(f) # 加载类别映射 categories = {} with open('category_id.txt', 'r') as f: for line in f: cid, name = line.strip().split(' ', 1) categories[int(cid)] = name

图像数据处理注意事项

重要提醒:原始数据集中的图像URL已失效,您需要通过以下方式获取图像数据:

  1. 访问Kaggle上的非官方图像数据集
  2. 下载包含33,375个搭配的图像文件
  3. 使用图像ID与数据集中的商品进行匹配

数据清洗最佳实践

  • 过滤非时尚类别的商品(背景、文字、装饰等)
  • 处理缺失的价格和描述信息
  • 标准化商品类别标签

应用场景深度解析

时尚兼容性预测

使用fashion_compatibility_prediction.txt文件进行模型训练,该文件包含:

  • 4,000个不兼容搭配
  • 3,000个兼容搭配
  • 每条记录以兼容性标签开头(1表示兼容,0表示不兼容)

填空式时尚推荐

fill_in_blank_test.json支持填空测试任务格式:

{ "question": "时尚单品序列", "answers": "多项选择集合", "blank_position": "需要填充的位置" }

多任务学习框架

数据集支持构建端到端的时尚AI系统:

  1. 单品特征提取
  2. 搭配兼容性分析
  3. 空缺位置推荐
  4. 风格分类与识别

模型训练与评估

推荐模型架构

基于双向LSTM的兼容性学习模型:

  • 输入层:单品特征向量
  • LSTM层:序列建模
  • 输出层:兼容性评分

评估指标

  • 准确率(Accuracy)
  • 平均精度(Mean Average Precision)
  • 填空任务成功率

实用注意事项

数据时效性

数据集爬取于2017年2月19日,部分时尚趋势可能已过时,建议:

  • 结合最新时尚数据进行模型微调
  • 建立动态更新的时尚知识库
  • 考虑季节性和地域性因素

性能优化建议

  • 使用预训练的视觉模型提取图像特征
  • 实现高效的数据流水线
  • 优化内存使用和计算效率

进阶研究方向

多模态学习

结合文本描述、图像特征和用户行为数据进行综合分析。

个性化推荐

基于用户历史偏好和风格倾向构建个性化时尚助手。

实时搭配系统

开发能够实时推荐服装搭配的智能系统。

通过本指南,您已经掌握了Polyvore数据集的核心使用流程。该数据集为时尚AI研究提供了宝贵的基础资源,助力您在该领域取得突破性进展。

引用说明:如使用本数据集进行研究,请引用原始论文:

@inproceedings{han2017learning, author = {Han, Xintong and Wu, Zuxuan and Jiang, Yu-Gang and Davis, Larry S}, title = {Learning Fashion Compatibility with Bidirectional LSTMs}, booktitle = {ACM Multimedia}, year = {2017}, }

【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:30:22

YOLO检测精度提升技巧:利用高并发Token处理海量图像数据

YOLO检测精度提升技巧:利用高并发Token处理海量图像数据 在智能制造工厂的质检线上,每秒有上百个零部件飞速通过摄像头视野;在城市交通监控中心,成千上万路视频流持续涌入服务器等待分析。面对如此庞大的图像数据洪流&#xff0c…

作者头像 李华
网站建设 2026/6/15 14:34:31

AdminLTE实战:快速构建专业企业级后台管理系统

AdminLTE实战:快速构建专业企业级后台管理系统 【免费下载链接】AdminLTE ColorlibHQ/AdminLTE: AdminLTE 是一个基于Bootstrap 4/5构建的开源后台管理模板,提供了丰富的UI组件、布局样式以及响应式设计,用于快速搭建美观且功能齐全的Web管理…

作者头像 李华
网站建设 2026/6/15 13:31:06

SAE USCAR-18-2016射频连接器标准深度解析

SAE USCAR-18-2016射频连接器标准深度解析 【免费下载链接】SAEUSCAR-18-2016第4版中文版PDF下载分享 SAE USCAR-18-2016第4版中文版PDF下载 项目地址: https://gitcode.com/Open-source-documentation-tutorial/d0265 汽车射频连接器在6GHz应用中的关键技术要求与选型指…

作者头像 李华
网站建设 2026/6/15 13:32:13

5大核心技术突破:让索尼耳机在PC端重获新生

5大核心技术突破:让索尼耳机在PC端重获新生 【免费下载链接】SonyHeadphonesClient A {Windows, macOS, Linux} client recreating the functionality of the Sony Headphones app 项目地址: https://gitcode.com/gh_mirrors/so/SonyHeadphonesClient 在移动…

作者头像 李华
网站建设 2026/6/15 13:56:31

BongoCat自定义模型终极指南:让你的桌面猫咪动起来!

BongoCat自定义模型终极指南:让你的桌面猫咪动起来! 【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作,每一次输入都充满趣味与活力! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat …

作者头像 李华
网站建设 2026/6/15 12:34:45

u8g2与ESP32结合的显示方案:项目应用解析

u8g2 与 ESP32 的显示组合:从原理到实战的完整指南 在做嵌入式项目时,你有没有遇到过这样的场景? 设备已经连上了 Wi-Fi,传感器数据也采集好了,但用户却不知道它到底“活着没”——只能靠串口打印看状态。调试时还好…

作者头像 李华