字节跳动开源UI-TARS-1.5：重新定义多模态智能体的GUI交互能力-编程实验室

字节跳动开源UI-TARS-1.5：重新定义多模态智能体的GUI交互能力

【免费下载链接】UI-TARS-1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B

导语

字节跳动旗下开源项目UI-TARS-1.5正式发布，这一多模态智能体在图形用户界面(GUI)任务处理和游戏自动化领域展现出突破性表现，多项基准测试成绩超越OpenAI CUA和Claude 3.7等竞品。

行业现状：从辅助工具到自主智能体的演进

2025年，AI智能体已成为企业数字化转型的核心驱动力。市场数据显示，全球AI大模型市场规模在2023年第四季度同比增长210%，企业采用AI智能体的比例快速上升，预计2024年底将超过六成。在这一背景下，能够理解并操作图形界面的智能体成为技术竞争焦点。

传统GUI自动化工具面临三大痛点：依赖预设脚本导致灵活性不足、跨平台兼容性差、对复杂视觉场景的理解能力有限。而多模态大模型的发展为解决这些问题提供了新思路，通过整合视觉理解与语言推理能力，智能体可以像人类一样"看懂"界面并执行操作。

UI-TARS-1.5核心亮点

1. 全场景GUI任务处理能力

UI-TARS-1.5基于强大的视觉-语言模型构建，能够在虚拟环境中高效执行多样化任务。该模型在计算机使用、浏览器操作和手机应用三大场景中均表现出色：

计算机使用：在OSworld基准测试中达到42.5分，超过此前最佳成绩38.1分；Windows Agent Arena测试得分42.1，大幅领先第二名的29.8分
浏览器操作：Online-Mind2web测试中以75.8分超越OpenAI CUA的71分
手机应用：Android World测试得分64.2，领先第二名4.7分

2. 突破性的视觉定位能力

模型在界面元素定位方面表现尤为突出。在ScreensSpot-V2基准测试中达到94.2分，显著领先OpenAI CUA的87.9分和Claude 3.7的87.6分；更具挑战性的ScreenSpotPro测试中，UI-TARS-1.5以61.6分大幅超越竞品（OpenAI CUA仅23.4分），展现出对复杂界面元素的精准识别能力。

3. 游戏自动化的完美表现

在Poki游戏测试中，UI-TARS-1.5展现出近乎完美的表现，在包括2048、Energy、Free-the-key等在内的14款游戏中全部获得100分，而OpenAI CUA和Claude 3.7的得分普遍在0-92分之间。这一结果验证了模型在动态环境中的决策能力和精细操作控制。

4. 小模型大能力的效率优势

值得注意的是，UI-TARS-1.5在保持高性能的同时实现了模型效率的优化。7B参数版本在OSWorld测试中获得27.5分，而更大规模的UI-TARS-1.5版本则达到42.5分，展示了模型架构的可扩展性和效率优势。

技术创新：思维推理与强化学习的融合

UI-TARS-1.5的核心突破在于整合了强化学习支持的高级推理能力。模型能够在采取行动前通过"思考"进行推理，这一机制显著提升了性能和适应性，特别是在推理时的扩展性方面。

该模型基于团队最新发表的论文架构构建，通过思维链(Chain of Thought)推理增强决策能力。在Minecraft游戏测试中，启用思维推理(UI-TARS-1.5 w/ Thought)比不启用思维推理的版本在200项任务平均得分上从0.35提升至0.42，在击杀生物任务中从0.25提升至0.31，证明了推理机制的有效性。