news 2026/6/15 1:09:28

对抗 OpenAI GPT-5.2:谷歌祭出 Gemini Deep Research 深度研究智能体并首次向开发者开放,DeepSearchQA 因果链测试基准重磅开源

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
对抗 OpenAI GPT-5.2:谷歌祭出 Gemini Deep Research 深度研究智能体并首次向开发者开放,DeepSearchQA 因果链测试基准重磅开源

在 OpenAI 发布 GPT-5.2 之后,谷歌紧接着就推出了更强大的 Gemini Deep Research 深度研究智能体,同时推出全新交互 API(Interactions API)并藉此首次面向开发者开放。

12 月 12 日消息,在 OpenAI 发布 GPT-5.2 之后,谷歌紧接着就推出了更强大的 Gemini Deep Research 深度研究智能体,同时推出全新交互 API(Interactions API)并藉此首次面向开发者开放。

此外,谷歌还开源了全新的深度搜索评估基准 DeepSearchQA,用于衡量多步骤复杂检索任务中的研究全面性。此次升级标志着 AI 自主研究能力正式进入工业化应用阶段。

Gemini Deep Research 基于 Gemini 3 Pro 构建,专为长周期的内容收集与综合任务优化,幻觉率降低 40%,是谷歌迄今“最具事实性”的模型,并可通过专项训练提升复杂任务中的报告质量。谷歌表示,通过扩展面向搜索的多步骤强化学习,该智能体能够在复杂信息环境中以更高精度自主导航。

谷歌 DeepMind 产品经理路卡斯・哈斯(Lukas Haas)在 X 上透露,Gemini Deep Research 已经实现 SOTA,在谷歌新基准测试上得分 46.4%,在 BrowseComp 上与 GPT-5 Pro 相当,但价格只有其 1/10 左右。

Deep Research 会反复规划研究路径,包括形成搜索查询、阅读结果、识别缺口并再次搜索。本次升级带来显著增强的网页搜索能力,使其能深入网站获取具体数据。

据介绍,该智能体在 Humanity's Last Exam (HLE 人类终极考试)、DeepSearchQA 及 BrowseComp 中取得最新最优成绩,并可在显著更低成本下生成深入研究报告。谷歌称,这项能力未来将应用到 Google Search、NotebookLM、Google Finance 及 Gemini App 之中。

DeepSearchQA:面向复杂研究智能体的全新评测基准

由于现有评测难以体现真实世界的多步骤研究复杂性,谷歌同步宣布开放 DeepSearchQA 数据集与工具。该基准包含跨 17 个领域、900 个“因果链”任务,每一步均依赖前序分析,要求智能体生成详尽答案集,从而衡量其研究精度与检索全面性。

谷歌表示,DeepSearchQA 还能作为“思考时间”效益的诊断工具。内部测试显示,让智能体执行更多搜索与推理步骤可显著提升表现,这部分将在未来版本中继续探索。

开发者可访问数据集、排行榜与 Colab 示例,并阅读数据集技术报告。

Deep Research 在实际领域的早期应用

谷歌称,Gemini Deep Research 已在需要高精度和上下文理解的多个行业中展现出显著效果,包括金融服务、生物技术和市场研究。

  • 在金融行业,企业利用 Deep Research 自动化尽调中的早期信息收集环节,如整合市场信号、竞争格局与合规风险,从而提升研究效率。
  • 在科研领域,Axiom Bio 使用该智能体处理药物毒性预测相关的文献分析,获得更高的研究深度与颗粒度,加速药物开发流程。

开发者能力:文件解析、结构化输出、引用管理

通过 Interactions API,开发者可调用 Gemini Deep Research 构建下一代自动化研究工具,主要特性包括:

  • 统一信息综合:整合上传文件(PDF、CSV 等)和公共网页数据,并能处理大上下文量。
  • 可控报告结构:可通过提示词定义输出结构、标题、表格格式等。
  • 精细引用:为报告中各项事实提供细粒度来源。
  • 结构化输出:支持 JSON schema 以便下游处理。

Interactions API

开发者可通过 Google AI Studio 的 Gemini API Key 使用 Interactions API 构建应用。

谷歌表示,未来更新将加入原生图表输出、扩展 Model Context Protocol(MCP)支持以接入更多自定义数据源,并在企业服务平台 Vertex AI 上提供 Deep Research。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/14 20:43:46

哪里联系国际靠谱光变温变夜光羊毛羊绒功能纱厂家?这就揭晓

哪里联系国际靠谱光变温变夜光羊毛羊绒功能纱厂家?这就揭晓在当今追求个性化与功能性的时代,光变、温变、夜光羊毛羊绒功能纱以其独特的特性,在纺织行业中崭露头角。无论是为了提升产品的时尚感,还是满足特殊场景的需求&#xff0…

作者头像 李华
网站建设 2026/6/11 12:54:07

CNN模型识别图像中的对象流程

CNN(卷积神经网络)识别图像中对象的流程,本质上是让机器通过“局部特征提取→层次化特征组合→全局决策”的仿生机制,逐步从像素数据中解析出物体类别。这一过程可细化为以下四个核心环节,每个环节都包含精密设计的数学…

作者头像 李华
网站建设 2026/6/11 18:53:56

为什么VUE1不需要虚拟DOM,但是在VUE2却引入了虚拟DOM?

Vue 1 和 Vue 2 在设计上的差异主要体现在性能优化和框架的灵活性上。Vue 1 不需要虚拟 DOM,而 Vue 2 引入了虚拟 DOM,主要是为了应对更复杂的场景和提升性能。以下是详细说明:1. Vue 1 的设计特点直接 DOM 操作: Vue 1 的核心是基于模板的双…

作者头像 李华
网站建设 2026/6/11 23:45:40

Web开发这些年:从“小油条”到“老油条”的成长之路。

Web 开发有些年头了,目前头发还算茂密,只是人已不再少年。​当年上班摸鱼都有负罪感的 “小油条”,如今也成了佛系的 “老油条”。​相似的业务代码写得越多,那种难以压抑的枯燥感就越强烈 —— 写这坨代码有什么用?像…

作者头像 李华
网站建设 2026/6/14 10:35:25

EMD分解与希尔伯特变换能量谱分析

如何对信号进行经验模态分解(EMD),然后对各个本征模态函数(IMF)进行希尔伯特变换,最终获得能量谱的完整MATLAB实现。 算法原理概述 EMD Hilbert变换流程 原始信号 → EMD分解 → 多个IMF分量 残差→ 对每个IMF进行Hilbert变换 → 解析信号→ 计算瞬时频…

作者头像 李华
网站建设 2026/6/6 11:00:26

网站建设公司找哪家

网站建设公司找哪家?行业深度解析引言在当今数字化时代,网站已成为企业展示形象、拓展业务的重要窗口。因此,选择一家合适的网站建设公司至关重要。那么,企业在寻找网站建设公司时应考虑哪些因素呢?一、专业实力是基础…

作者头像 李华