cv_resnet18_ocr-detection训练失败？ICDAR2015格式校验教程-编程实验室

cv_resnet18_ocr-detection训练失败？ICDAR2015格式校验教程

1. 问题背景与核心挑战

在使用cv_resnet18_ocr-detection模型进行自定义数据微调时，许多用户反馈训练任务频繁失败。尽管模型本身具备良好的文字检测能力，但在“训练微调”模块中，一旦启动训练流程便报错退出，日志提示文件路径或格式异常。

深入排查后发现，绝大多数训练失败的根本原因并非代码缺陷，而是数据集标注格式未严格遵循 ICDAR2015 标准。尤其在从其他OCR数据集（如COCO Text、MLT）迁移或手动标注时，坐标顺序、字段分隔符、文本编码等问题极易引发解析错误。

本文将系统性地解析 ICDAR2015 数据格式规范，并提供一套可落地的格式校验与自动化修复方案，帮助开发者快速定位并解决训练前的数据问题。

2. ICDAR2015 数据格式深度解析

2.1 基本结构要求

ICDAR2015 是国际文档分析与识别会议（ICDAR）组织的一项标准文本检测竞赛所采用的数据格式。其核心设计目标是简洁、明确、易于解析。

一个合规的数据集应包含以下目录结构：

dataset_root/ ├── train_list.txt ├── test_list.txt ├── train_images/ # 训练图像 ├── test_images/ # 测试图像 ├── train_gts/ # 训练标注文件 └── test_gts/ # 测试标注文件

其中：

train_list.txt和test_list.txt：记录图像与对应标签文件的相对路径对。
图像为常见格式（JPG/PNG/BMP），建议统一命名。
标注文件为.txt纯文本，每行代表一个文本实例。

2.2 标注文件格式详解

每个.txt标注文件中的每一行描述一个四边形文本框及其内容，格式如下：

x1,y1,x2,y2,x3,y3,x4,y4,transcription

字段说明：

字段	含义	要求
x1,y1	左上角点坐标	整数，像素单位
x2,y2	右上角点坐标	顺时针排列
x3,y3	右下角点坐标	必须闭合
x4,y4	左下角点坐标	不可交叉
transcription	文本内容	UTF-8 编码

示例：

120,50,200,50,200,70,120,70,Hello World 300,100,450,95,455,120,305,125,OCR Detection

注意：若文本不可读（如模糊、遮挡），transcription 应标记为"###"，表示忽略该样本用于评估。

2.3 列表文件格式规范

train_list.txt和test_list.txt文件每行由两个字段组成，以空格分隔：

relative_path_to_image relative_path_to_gt

例如：

train_images/001.jpg train_gts/001.txt train_images/002.jpg train_gts/002.txt

路径必须相对于数据集根目录，且文件实际存在。

3. 常见格式错误与校验方法

3.1 典型错误类型汇总

错误类型	表现形式	导致后果
坐标缺失	少于8个数值	解析失败，抛出 IndexError
分隔符错误	使用空格/制表符代替逗号	字符串无法分割成有效坐标
坐标非整数	包含小数或负数	类型转换异常
多余字段	多于9个字段（如加了ID）	transcription 包含多余字符
编码问题	ANSI 或 GBK 编码	中文乱码，Python解码报错
路径错误	文件不存在或路径不匹配	DataLoader 加载失败
空行或空白字符	文件末尾换行、空格	引发无效样本解析

3.2 自动化校验脚本实现

以下是一个完整的 Python 脚本，用于批量检查整个数据集是否符合 ICDAR2015 规范：

import os import codecs import argparse def validate_icdar2015_format(data_dir): """ 校验指定目录下的 ICDAR2015 格式数据集 """ train_list_path = os.path.join(data_dir, 'train_list.txt') test_list_path = os.path.join(data_dir, 'test_list.txt') all_errors = [] def check_line(line, file_path, line_no): line = line.strip() if not line: return # 忽略空行（但建议清理） parts = line.split(',') if len(parts) < 9: all_errors.append(f"[{file_path}:{line_no}] 坐标数量不足: {len(parts)}") return try: coords = list(map(int, parts[:8])) transcription = ','.join(parts[8:]) # 允许文本中含逗号 # 验证坐标合理性 for i, coord in enumerate(coords): if coord < 0: all_errors.append(f"[{file_path}:{line_no}] 坐标为负值: {coord} at pos {i}") except ValueError as e: all_errors.append(f"[{file_path}:{line_no}] 坐标非整数: {line}") def check_gt_file(gt_path): if not os.path.exists(gt_path): all_errors.append(f"标注文件不存在: {gt_path}") return try: with codecs.open(gt_path, 'r', encoding='utf-8') as f: lines = f.readlines() except UnicodeDecodeError: all_errors.append(f"文件编码错误（非UTF-8）: {gt_path}") return for idx, line in enumerate(lines, start=1): check_line(line, gt_path, idx) def process_list_file(list_path): if not os.path.exists(list_path): all_errors.append(f"列表文件不存在: {list_path}") return with open(list_path, 'r') as f: for line_num, line in enumerate(f, 1): line = line.strip() if not line: continue try: img_rel, gt_rel = line.split() img_abs = os.path.join(data_dir, img_rel) gt_abs = os.path.join(data_dir, gt_rel) if not os.path.exists(img_abs): all_errors.append(f"图像文件不存在: {img_abs}") check_gt_file(gt_abs) except Exception as e: all_errors.append(f"[{list_path}:{line_num}] 列表行解析失败: {line}") print(f"开始校验数据集: {data_dir}") process_list_file(train_list_path) process_list_file(test_list_path) if all_errors: print("\n❌ 发现以下错误：") for err in all_errors: print(f" - {err}") return False else: print("\n✅ 所有文件格式校验通过！") return True if __name__ == "__main__": parser = argparse.ArgumentParser(description="ICDAR2015 格式校验工具") parser.add_argument("--data_dir", type=str, required=True, help="数据集根目录") args = parser.parse_args() success = validate_icdar2015_format(args.data_dir) exit(0 if success else 1)

使用方式：

python check_format.py --data_dir /root/custom_data

输出示例：

开始校验数据集: /root/custom_data ❌ 发现以下错误： - [train_gts/1.txt:3] 坐标数量不足: 6 - [train_gts/2.txt:1] 坐标非整数: 100.5,200,... - 文件编码错误（非UTF-8）: train_gts/3.txt - 图像文件不存在: /root/custom_data/train_images/4.jpg

4. 数据修复实践指南

4.1 编码统一化处理

确保所有.txt文件保存为 UTF-8 编码：

# 批量转换 ANSI/GKB 文件为 UTF-8 for file in train_gts/*.txt; do iconv -f GBK -t UTF-8 "$file" -o "${file}.tmp" && mv "${file}.tmp" "$file" done

4.2 自动修复脚本（补全坐标）

对于常见错误（如少写一个点），可通过启发式方法补全矩形：

def complete_quadrilateral(coords): """根据前三点推断第四点（假设为平行四边形）""" if len(coords) == 6: x1, y1, x2, y2, x3, y3 = coords x4 = x1 + (x3 - x2) y4 = y1 + (y3 - y2) return [x1, y1, x2, y2, x3, y3, x4, y4] return coords

4.3 推荐工具链

工具	用途
LabelImg（OCR分支）	可视化标注，支持四点框
PPOCRLabel	PaddleOCR官方标注工具，导出ICDAR兼容格式
VS Code + UTF-8插件	查看和修改文件编码