在通往L5级完全自动驾驶的道路上,一条技术路线日益清晰——让车辆“学会合作”。V2V(车-车)与V2I(车-路)协同感知已经证明,共享感知信息能够有效破解单车的遮挡问题。然而,这些协同范式依然局限于地面层面:无论是车辆还是路侧单元,都只能从一个近似二维的平面去观察世界。街角后突然冲出的来车、楼宇间穿行的行人、百米开外的障碍物——这些依然是地面视角无法逾越的物理盲区。
破局的答案,或许一直悬停在天空之上。无人机拥有无与伦比的鸟瞰视角与六自由度机动性,能够从物理层面消除地面传感器的视野盲区。然而,在AGC-Drive之前,真实世界、大规模、多模态的V2U协同感知数据集几乎不存在。仿真环境无法模拟真实世界中复杂的遮挡关系、传感器噪声和动态交通流,导致在仿真数据上训练出的模型在真实道路部署时性能急剧下滑。
2025年12月,NeurIPS会议上,一篇题为《AGC-Drive: A Large-Scale Dataset for Real-World Aerial-Ground Collaboration in Driving Scenarios》的论文正式亮相。标题中的“Large-Scale”和“Real-World”两个词,让台下从事空地协同感知的研究者眼前一亮——这是第一个宣称覆盖真实城市道路、包含两辆地面车和一架无人机同步采集的大规模V2U数据集。
“数据已经整理完毕,很快将通过GitHub发布。”台上的报告者指向了GitHub链接,语气笃定。OpenReview页面上白纸黑字地写着:数据集和代码可在 https://github.com/PercepX/AGC-Drive 获取,百度网盘也提供了备用链接,甚至附上了提取密码。
一切看起来都很完整。研究者们带着期待离开会场——他们等待的,是一个能真正推动空地协同3D感知研究的真实世界数据宝库。
但时至今日,那个GitHub仓库里依然空空如也。百度网盘链接也已失效。
与此同时,另一种技术路线正在NeurIPS 2026的在投论文中悄然成形。上海科技大学团队提出的CrossGeo,提供了一套可无限扩展的全球三视角数据生成方法,理论上能够产出任意规模的带像素级深度和6自由度姿态的卫星-无人机-地面图像——而且,它即将开源。
AGC-Drive的技术设计本身没有问题:1.6M个标注框、13类物体、400个场景,这些数字是实打实写进论文的。但一个无法被访问的数据集,对学术社区来说,究竟是一份贡献,还是一纸空文?当“数据集论文”的核心资产被锁在内部服务器上,我们该如何评估它的学术价值?而CrossGeo所代表的“方法论文”范式,是否真的能解决数据开放的顽疾——毕竟,它也尚未开源?
本文将深度拆解AGC-Drive的技术内核,逐项分析其传感器配置、时空同步、标注流程、基准设计等技术细节;在此基础上,系统讨论“未开源的数据集论文”的伦理与价值困境;最后,客观对比CrossGeo的“可扩展数据生成”范式,分析其优势与尚未兑现的开放承诺,并对未来趋势做出审慎判断。
Part 1:AGC-Drive的技术深度拆解——它承诺了什么?
1. 研究动机:为什么需要空地协同?V2V还不够吗?
在深入技术细节之前,有必要先厘清AGC-Drive试图解决的根本问题。V2V协同感知已经被广泛研究,其核心思想是让相邻车辆共享各自的感知结果(或中间特征),从而扩展单车视野。但AGC-Drive论文敏锐地指出:V2V在密集交通流、复杂十字路口和长距离感知场景中表现高度不稳定。原因在于,所有地面车辆的视角仍然处于同一水平面附近,当一个目标被大型车辆或建筑物完全遮挡时,无论多少辆地面车都无法“看穿”遮挡物——因为所有视线方向都与遮挡表面近乎平行。
无人机提供了完全不同的解决方案:一个悬停在50—80米高度的无人机,其视线几乎垂直向下,建筑物、树木等遮挡物变成了可以从上方绕过的“小障碍”。这种“上帝视角”从物理层面消除了遮挡问题。然而,空地协同面临三个独特挑战:(1)视角差异巨大:地面看到的是物体侧面,无人机看到的是顶部;(2)尺度剧烈变化:同一物体在地面图像中可能占数百像素,在无人机图像中仅占数十像素;(3)传感器异构:地面常用多线LiDAR(如128线),无人机受载重限制常用32线或单线LiDAR。AGC-Drive正是为了提供真实世界中这些挑战的数据基础而设计的。
2. 数据集构建:一场精密的多智能体同步工程
2.1 传感器配置:两车一机的异构协同
AGC-Drive的采集平台由两辆地面车辆和一架无人机组成,是目前公开文献中配置最复杂的V2U采集系统之一。
| 平台 | LiDAR | 相机 | 其他传感器 |
|---|---|---|---|
| 地面车辆1 | 128线机械LiDAR(360°) | 5×RGB(多焦距,覆盖前后左右) | GPS/IMU |
| 地面车辆2 | 128线机械LiDAR(360°) | 5×RGB(同配置) | GPS/IMU |
| 无人机 | 32线机械LiDAR(前向倾斜安装) | 1×RGB(前向) | GPS/IMU |
两辆地面车辆的128线LiDAR提供稠密的三维点云,探测距离约200米,垂直视场−25°至15°,测距误差控制在±2厘米以内。5个相机的多焦距设计意味着不同相机针对不同距离优化:广角镜头覆盖近距盲区,长焦镜头捕捉远距细节。这种配置在地面协同感知数据集中也属少见。
无人机的32线LiDAR相较于地面车辆的128线,点云密度显著降低(约1/4),这恰恰模拟了真实V2U部署中的异构传感器场景。无人机相机为前向RGB,而非下视,意味着它采集的是倾斜视角(约30°俯角),而非严格的天底视角。这一设计更贴近无人机在跟随车辆时“观察前方道路”的实际任务需求。
2.2 时空同步:厘米级、毫秒级的严苛要求
时空同步是协同采集的核心难点。AGC-Drive论文报告了以下技术方案:
- 时间同步:所有传感器通过GPS-PPS(脉冲-per-second)信号进行硬同步,时间误差控制在1毫秒以内。这比V2U4Real的20ms要求更为严格,主要是因为两辆地面车辆之间也需要同步,且无人机与地面之间的相对运动更快。
- 空间标定:通过多传感器联合标定(LiDAR-相机、车-无人机)获得各传感器到车体/无人机本体系的外参。车与无人机之间的相对位姿通过GPS-RTK实时差分定位获得,精度达到厘米级。
- 多模态点云配准:论文还描述了一个额外的后处理步骤,利用地面的128线点云和无人机的32线点云进行ICP(迭代最近点)精细配准,进一步消除残余误差。论文报告配准后的平均点对距离误差小于5厘米。
2.3 数据规模:两个版本,哪个才是“最终版”?
AGC-Drive存在两个公开发布的数据量统计,分别来自arXiv预印本(2025年6月)和NeurIPS正式论文(2025年12月):
| 数据来源 | LiDAR帧数 | 图像数 | 3D标注框 | 场景数 | 物体类别 | 动态事件占比 |
|---|---|---|---|---|---|---|
| arXiv版 (2025年6月) | ~120K | ~440K | ~1.6M | 400 | 13 | 19.5% |
| NeurIPS版 (2025年12月) | ~80K | ~360K | ~720K | 350 | 13 | 17% |
两个版本之间的差异是显著的:NeurIPS版的标注框数量不足arXiv版的一半。论文中没有解释这一缩减的原因。可能的原因包括:(1)arXiv版包含了自动标注的伪标签,而NeurIPS版只保留了人工精校的标注;(2)数据集在提交前进行了更严格的质量过滤,剔除了部分质量不达标的帧;(3)仅是不同分割策略导致的统计口径变化。无论原因为何,这种前后不一致给社区带来了困惑——如果数据集最终开源,研究者该以哪个版本为准?
在场景多样性上,AGC-Drive覆盖了14种驾驶场景,包括城市环岛、高速公路隧道、匝道、十字路口、居民区等。19.5%(arXiv版)的数据包含动态交互事件,如车辆切入/切出、频繁变道、行人横穿等。这一比例远高于V2U4Real(后者主要为静态或匀速运动场景),对算法在真实复杂交通流中的鲁棒性评估具有重要意义。
13类物体的细粒度标注包括:轿车、SUV、卡车、公交车、摩托车、自行车、行人、交通锥、栅栏、路标、灯杆、建筑物、植被。相比之下,V2U4Real只标注了车辆、骑行者、行人和卡车四类。因此AGC-Drive在类别粒度上具有明显优势。
2.4 标注流程:1.6M个3D框是如何诞生的?
AGC-Drive的标注工程是论文中最耗人力的部分。根据论文描述,标注流程如下:
- 预标注:使用预训练的3D检测模型(可能是基于Waymo或nuScenes预训练的PointPillars或CenterPoint)对点云数据进行自动标注,生成初始3D框。
- 人工精修:由20名专业标注员使用商用标注工具(论文未具体说明工具名称)对自动标注结果进行逐帧修正,包括调整框的位置、尺寸、朝向,以及修正类别标签。
- 交叉校验:每帧数据由至少两名标注员独立标注,然后通过加权投票机制合并。存在分歧的帧被送入第三轮仲裁。
- 跨平台一致性标注:同一物体出现在地面车辆A、地面车辆B和无人机三个平台的点云中时,需要赋予相同的实例ID。这是协同感知任务的关键——模型必须学会关联来自不同平台的同一物体。论文报告了跨平台ID关联的自动化算法,但未给出具体的匹配精度指标。
标注质量:论文报告了人工标注的3D框与LiDAR真实点云之间的平均IoU为0.92(对于车辆类),表明标注质量较高。但需要指出的是,这个质量评估是在内部验证集上进行的,由于数据集未开放,外部无法复现。
3. 方法学基准:V2V与V2U协同感知的标准化评测
为了验证数据集的可用性,AGC-Drive设立了两种协同感知基准,并报告了多个基线模型的结果。
3.1 协同感知的三种融合策略
按照协同感知领域的标准分类法,融合策略分为三个层级,其技术区别如下表:
| 融合层级 | 操作方式 | 通信量 | 优点 | 缺点 |
|---|---|---|---|---|
| 早融合 | 直接拼接原始点云 | 极高(MB级) | 信息无损 | 带宽需求大,异构传感器直接拼接效果差 |
| 中间特征融合 | 交换BEV空间的特征张量 | 适中(0.2MB级) | 精度-带宽平衡 | 需要设计统一的特征空间 |
| 晚融合 | 交换检测结果(框+置信度) | 极低(KB级) | 带宽友好 | 丢失了原始几何信息 |
AGC-Drive在评估中采用了OpenCOOD开源框架,实现了这三种融合策略的可复现比较。
3.2 任务一:车辆对车辆(V2V)协同3D检测
- 输入:两辆地面车辆的点云(各128线LiDAR)
- 输出:统一坐标系下的3D检测框
- 评估指标:平均精度(AP)@IoU=0.5和IoU=0.7
- 通信模拟:理想同步(无延迟)和异步(随机通信延迟0-200ms)
论文报告的基线模型结果(AP@IoU=0.5):
| 融合方式 | 代表方法 | AP@0.5 | 通信开销 |
|---|---|---|---|
| 单车基线 | No Fusion(取两车中较好者) | 68.2% | 0 |
| 晚融合 | Late Fusion | 72.5% | 极低 |
| 中间特征融合 | V2VNet | 76.8% | 适中 |
| 早融合 | Early Fusion | 74.1% | 高 |
结论:中间特征融合在V2V任务上最优,这与OPV2V等合成数据集上的结论一致。但需要注意的是,AGC-Drive是真实数据,其绝对精度数字(76.8%)显著低于OPV2V上的同类模型(通常>85%),反映了真实世界噪声对性能的负面影响。
3.3 任务二:车辆对无人机(V2U)协同3D检测
- 输入:一辆地面车的128线点云 + 无人机的32线点云
- 其余设置同V2V任务
论文报告的基线结果(以V2VNet为例,AP@IoU=0.5):
| 配置 | 全距离AP | 50-100m远距离AP |
|---|---|---|
| 单车地面检测 | 62.3% | 18.7% |
| V2U协同(Late Fusion) | 70.1% | 29.4% |
| V2U协同(Intermediate Fusion) | 73.5% | 34.2% |
关键发现:在50-100米的远距离区域,V2U协同相比单车检测的增益约为15.5个百分点(从18.7%到34.2%),这与V2U4Real报告的结果(15.54%→30.20%)趋势一致。但AGC-Drive的绝对数字略高,可能源于其无人机搭载32线LiDAR(V2U4Real的无人机为单线旋转LiDAR),点云密度更高。
3.4 任务三:协同3D目标跟踪
论文还报告了协同3D跟踪的基线结果,使用SORT跟踪器作为基础模块:
| 配置 | AMOTA | MT(稳定跟住轨迹率) | ML(轨迹丢失率) |
|---|---|---|---|
| 单车 | 14.2% | 31.7% | 48.6% |
| V2U协同 | 26.5% | 64.2% | 20.3% |
跟踪性能的提升幅度(AMOTA从14.2%到26.5%,提升约86%)甚至大于检测任务,进一步验证了无人机视角对ID连续性的关键作用。
核心问题:这些基线结果由于数据集未开放,目前无法被第三方独立验证。论文中的数字是“声称”的性能,而不是“可复现”的性能。这对于以“建立基准”为核心使命的数据集论文来说,是一个严重的缺憾。
Part 2:数据集开放的伦理困境——没有开源的数据集论文有价值吗?
2.1 数据集论文的特殊性
在计算机视觉和机器人领域,数据集论文是一个独特的类别。与算法论文不同,算法论文即使不开源代码,读者仍然可以通过数学描述和伪代码理解其核心思想,并自行实现。但数据集论文的核心产出是数据本身——一组经过精心采集、标注、对齐的多模态传感器记录。如果没有数据,论文就只剩下“我们做了这件事”的元描述,无法被其他人用于训练或评估模型。
因此,数据集论文的学术价值与数据的可触及性直接挂钩。一个无法被访问的数据集,其价值趋近于零。这并非苛刻的评价,而是学术研究的朴素逻辑:科学知识需要被共享和检验。
2.2 AGC-Drive的承诺与现实
AGC-Drive在论文中明确写道:
“The dataset and code are available at https://github.com/PercepX/AGC-Drive.”
这是白纸黑字的公开承诺。然而,截至2026年6月,该仓库仍然只有README文件,没有任何数据下载链接或代码。论文中提供的百度网盘链接也已失效。
为什么会出现这种情况?可能的原因包括:
- 隐私与合规问题:真实道路采集的数据包含行人面部、车牌等敏感信息,脱敏处理(模糊化或擦除)可能需要额外的法律审批流程。
- 存储与带宽成本:数TB级的数据集需要稳定的托管服务,这对于研究团队来说可能是一笔不小的开销。
- 内部管理失误:负责开源的团队成员可能已经毕业或离职,交接工作未完成。
无论原因如何,结果是一样的:学术社区被剥夺了本应属于公共领域的研究资源。
2.3 学术信任的损耗
AGC-Drive并非孤例。在数据集的开放历史中,有太多“即将发布”最终变成“永不发布”的案例。每一次承诺的落空,都会消耗学术社区对数据提供方的信任。当研究者下次读到“数据已公开”的声明时,他们很可能会多一分怀疑。
这种信任损耗的后果是:真正愿意开放数据的研究团队,也会因为前人留下的“狼来了”效应而受到不公平的质疑。CrossGeo的“即将开源”之所以被社区谨慎看待,恰恰反映了这种普遍焦虑——即使CrossGeo的方法论再优雅,只要数据没有真正上线,它和AGC-Drive在“开放”这一维度上并无本质区别。
Part 3:CrossGeo的替代范式——可无限扩展的数据生成方法
当学术界等待AGC-Drive的兑现时,另一群研究者选择了完全不同的路径。上海科技大学团队在NeurIPS 2026在投论文中提出了CrossGeo:一个覆盖全球五大洲85个场景、27.8万张图像的三视角数据集,并同时提供了一个可无限扩展的数据生成方法论。
3.1 两种数据哲学:采集 vs 生成
AGC-Drive代表的是“真实采集”范式:投入大量资源进行实地数据采集和人工标注,产出高质量的语义感知数据集(3D边界框)。这种范式的优势是数据的真实性和语义丰富性,劣势是成本高昂、扩展困难、开放受限于法律和行政障碍。
CrossGeo代表的是“数据生成”范式:利用已有的全球摄影测量3D网格,通过自动化的SfM+MVS管线生成像素级的几何标注(深度+6DoF位姿),理论上可以无限扩展。这种范式的优势是可扩展性、标注的完美性(几何真值是精确的,不需要人工估计),劣势是合成数据与真实数据之间存在域漂移(Sim2Real gap),且目前只提供RGB+几何标注,没有语义类别标签。
3.2 CrossGeo的核心方法论
CrossGeo的设计哲学是:以无人机为“桥梁视角”,连接卫星与地面,形成一个“采集→重建→标注→赋能”的闭环系统。其四步生成管线如下:
| 步骤 | 操作 | 关键输入 | 输出 | 自动化程度 |
|---|---|---|---|---|
| 1. 数据采集 | 在全球场景中并行采集卫星、无人机、地面三视角RGB图像 | 商业卫星影像、无人机航拍、地面图像 | 三视图RAW图像 | 半自动 |
| 2. 三维重建 | 利用SfM+MVS对无人机+地面图像进行联合重建 | 多视角RGB图像(空间重叠) | 三维点云+相机6自由度姿态 | 全自动 |
| 3. 深度生成 | 将三维点云投影回每一帧图像 | 三维点云+相机姿态 | 密集深度图(metric depth) | 全自动 |
| 4. 卫星对齐 | 将三维点云与相机姿态对齐至卫星图块坐标系 | 重建结果+卫星影像 | 带6-DoF姿态+深度信息的卫星标注 | 全自动 |
可无限扩展的含义:一旦某个区域的卫星影像和少量无人机/地面图像被采集并通过SfM重建出3D网格,就可以在该网格上生成任意数量的虚拟相机轨迹,渲染出无限多的合成视图,且每一帧都自带完美的深度和位姿。这类似于在数字孪生中“飞行”,而不需要在真实世界中重复飞行。
3.3 CrossGeo与AGC-Drive的定位差异
两者并非直接竞争关系,而是服务于不同的下游任务:
| 维度 | AGC-Drive | CrossGeo |
|---|---|---|
| 任务类型 | 语义感知(3D检测、跟踪) | 几何重建(深度估计、定位) |
| 标注类型 | 3D边界框(目标级) | 像素级深度 + 6DoF位姿 |
| 数据来源 | 真实LiDAR+相机(实地采集) | 真实RGB + SfM生成几何 |
| 可扩展性 | 极低(每次扩展需重新采集标注) | 极高(算法自动生成) |
| 开放性 | 承诺未兑现,链接失效 | 即将开源(尚未实现) |
CrossGeo的优势在于它为几何任务提供了近乎无限的训练数据,且标注是“免费”的。但它无法替代AGC-Drive这样的真实语义数据集——因为语义类别信息无法从SfM重建中自动获得(除非额外训练一个语义分割模型)。
3.4 客观评价:CrossGeo尚未开源,承诺仍是承诺
必须坦诚地指出:CrossGeo目前也尚未正式开源。论文处于NeurIPS 2026在投阶段,团队表示将在录用后开源。但“即将开源”与“已经开源”之间存在着实质性的差距。学术界见过太多“录用后开源”最终不了了之的案例。
因此,在“开放”这一维度上,CrossGeo和AGC-Drive目前处于同样的状态:承诺存在,数据缺席。区别在于:
- AGC-Drive的承诺已经过去超过半年,且论文中的链接失效,情况更为严重。
- CrossGeo的承诺是“未来的”,尚未到兑现期限,社区应给予合理的时间窗口进行监督。
CrossGeo的方法论优势在于:它不依赖于昂贵的实地采集和人工标注,因此理论上更容易兑现开放承诺——因为它不需要处理隐私脱敏、法律授权等问题(所有输入是公开的卫星影像和可公开获取的无人机/地面图像)。然而,理论上的容易并不等于实践中的必然。CrossGeo最终能否真正开源,仍然取决于团队的实际行动。
结语:承诺的价值,在于兑现
AGC-Drive的技术设计堪称精湛:两车一机的异构传感器配置、1.6M个细粒度3D标注框、14种驾驶场景、19.5%的动态事件占比——如果这些数据能够如期开放,它无疑将成为空地协同感知领域的里程碑。
但学术研究建立在信任与检验的基础之上。一篇数据集论文的核心贡献是数据,而不是描述数据的文字。当数据集缺席时,论文就变成了一份“预告片”,而不是一部“作品”。我们可以欣赏它的技术构思,却无法基于它推进自己的研究。
CrossGeo提供了一条不同的路径:用自动化的方法生成带完美几何标注的数据,理论上可以无限扩展。这种“方法优先于数据”的范式,天然更适应开放科学的要求——因为一旦方法公开,任何人都可以复现和扩展。但方法的开放不等于数据的开放,CrossGeo的“即将开源”同样需要被社区持续监督。
对于读者来说,面对一篇数据集论文,最应该问的问题不是“它有多大、有多新”,而是“它在哪里可以下载?”如果答案指向一个空链接,那么这篇论文的学术价值就应该被重新审视。对于作者来说,最应该恪守的原则是:不要在论文中写下你做不到的承诺。一个数据集是否值得发表,应该以它是否真正可用为前提,而不是以“我们计划开放”为前提。
当AGC-Drive的GitHub仓库还是一片空白时,我们只能等待。而当CrossGeo的代码和数据真正上线时,我们才能说,一种更可持续的范式已经到来。在此之前,所有的“即将”都只是希望,而不是事实。