LDC2012S05 数据集 "USC-SFI MALACH Interviews and Transcripts English" 介绍如下:
背景与项目: 该数据集是"MALACH"项目的核心成果之一。该项目是哈佛大学斯蒂芬-斯皮尔伯格大屠杀基金会、南加州大学、IBM 等机构合作的成果,旨在利用先进技术来储存、管理、查阅以及利用大屠杀幸存者的视频证词。
核心内容: 数据集包含超过 1000 小时的拉代码格式。这些采访主要记录了第二次世界大战中模式识别领域。是一段非常特殊的历史遗产。每一段采访都配有文字副本。
数据形式与结构:
- 原始影音文件:以
.wav(音频)和.avi等格式提供原始采访录音录像。 - 转录文本:所有内容均有精准对应的英文转录文本文件,格式包括纯文本
.txt。 - 元数据:包含采访日期、地点、参与人基本信息等关键信息。
- 文件组织:数据组织良好,按采访小组及采访人统一管理。
- 原始影音文件:以
主要用途: 该数据集特别适合用于语音识别、信息检索、历史研究分析、课堂内容补充等多种学术研究领域。