news 2026/5/1 7:46:32

刚刚,谷歌把全世界的耳机变成了「同声传译器」!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
刚刚,谷歌把全世界的耳机变成了「同声传译器」!

谷歌继续发力。

这一次,是语音。

打开最新版Google TranslateApp,连上任意耳机,点一下Live translate,对着说话的人。

Bingo,你就拥有了一个支持 70 多种语言的「同声传译器」。

更牛逼的是,它不挑。

不需要翻译器这样的专业设备,你手上的任何耳机都行。

而且,它不是那种冷冰冰的“机翻”。

翻译出来的声音会保留说话者的语调、节奏,甚至是情绪起伏。

你甚至能分辨出是谁在说话。

出国旅游、外语电影、国外餐厅点菜,一副耳机就都解决了。

目前这个功能还是 beta,只在安卓 App,面向美国、墨西哥和印度用户开启测试。

iOS 和更多地区要等明年了。

划重点,这里的地区,意思是你谷歌账号所在的地区。


01|背后的功臣:Gemini 2.5 Flash Native Audio

实时翻译背后的功臣,是谷歌刚刚更新的模型:Gemini 2.5 Flash Native Audio

见名知意,它是一个原生语音模型。

ComplexFuncBench Audio,专门测试语音 AI 在实时对话中调用外部工具的能力。

在这个基准中,新版 Gemini 准确率 71.5%。

作为对比,OpenAI 的gpt-realtime是 66.5%。

在真实对话中,这意味着 AI 能更准确地判断什么时候该去查信息、查什么,以及查完还能自然地融入对话里,不出现尴尬停顿。

指令遵循率也提升了,从 84% 到 90%。

以前给 AI 设定规则,它有 16% 的概率会忘记或理解错。

现在好多了。

多轮对话质量更是从 62% 上涨到了 83%。

新版 Gemini 能更好地记住之前聊过什么。

一句话总结,Gemini 2.5 Flash Native Audio变得更靠谱了。


02|Shopify 这样说

Shopify,全球最大的独立电商建站平台,服务数百万商家。

它们用这个模型做了个助手,叫 Sidekick。

Shopify 产品副总裁 David Wurtz 这样评价:

「用户在使用 Sidekick 一分钟内就忘记自己在和 AI 说话,有些人在长对话结束后甚至会对机器人说谢谢。」

说谢谢。

对一个 AI。

这可能才是语音 AI 真正的转折点。

不是跑分第一,而是普通用户开始分不清自己在和人还是 AI 对话。


03|已经有公司在用它赚钱了

除了 Shopify,还有两个案例。

卖房子的 United Wholesale Mortgage 把这个模型集成到他们的 AI 助手 Mia 里。

结果,Mia 已经帮经纪人搞定了超过 14000 笔贷款。

Newo.ai 用它做 AI 前台客服。

他们说这个模型能在嘈杂环境中识别出主要说话者,能在对话中途切换语言。

听起来「非常自然和富有情感」。

低延迟、高情商的语音 AI,已经是生产力了。


04|现在就能用

还是你们熟悉的老朋友,谷歌 AI Studio。

打开 AI Studio,左侧菜单栏里点Playground,中间选择Live

继续点击那个带有「New」标识的Gemini 2.5 Flash Native Audio

你就可以嗨起来了,完全免费。

API 现在也能用,preview 预览版。

模型名gemini-2.5-flash-native-audio-preview-12-2025

另外,Gemini 2.5 FlashGemini 2.5 Pro的 TTS 模型也更新了,但更推荐这个实时语音。

练口语、语音助手、客服机器人,可以冲了。


结语

用户忘记自己在和 AI 说话,这可能才是语音 AI 模型的最高境界。


我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用 AI 为你的未来加速。


精选推荐

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 5:09:48

mimalloc终极配置指南:37个核心参数详解与性能优化实战

mimalloc终极配置指南:37个核心参数详解与性能优化实战 【免费下载链接】mimalloc mimalloc is a compact general purpose allocator with excellent performance. 项目地址: https://gitcode.com/GitHub_Trending/mi/mimalloc 你是否在为应用程序的内存分配…

作者头像 李华
网站建设 2026/5/1 5:12:22

Sigil查找替换功能完整指南:10倍提升电子书编辑效率

在电子书制作过程中,文本编辑是最频繁的操作之一。Sigil作为一款专业的EPUB编辑器,其内置的查找替换功能不仅强大而且易用,能够帮助你在几分钟内完成原本需要数小时的手动编辑工作。无论你是电子书制作新手还是专业编辑,掌握这些技…

作者头像 李华
网站建设 2026/5/1 5:09:23

43、Xlib 图形处理与协议相关功能详解

Xlib 图形处理与协议相关功能详解 在图形编程领域,Xlib 提供了一系列强大的工具和函数,用于处理图像、位图以及管理上下文等操作。下面将详细介绍这些功能及其使用方法。 图像操作函数 创建子图像 :使用 XSubImage 函数可以从现有的图像中创建一个子图像。 XImage *X…

作者头像 李华
网站建设 2026/5/1 5:09:44

解锁数据魔法:3分钟了解微软Power BI官方中文教程

解锁数据魔法:3分钟了解微软Power BI官方中文教程 【免费下载链接】PowerBI官方中文教程PDF版下载 本仓库提供了一份名为“Power BI 官方中文教程(PDF版)”的资源文件下载。该教程详细介绍了微软Power BI的功能、授权方式以及应用场景&#x…

作者头像 李华
网站建设 2026/5/1 6:08:48

LVGL应用和部署(多线程异步通信)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】在开发界面的时候,有一种情况是肯定会发生的,那就是异步通信。大家都知道,lvgl本身运行是独立运行的一个thread&…

作者头像 李华
网站建设 2026/5/1 6:08:29

StockTicker股票小部件应用仿写Prompt

StockTicker股票小部件应用仿写Prompt 【免费下载链接】StockTicker A resizable widget that shows your financial portfolio on your android home screen 项目地址: https://gitcode.com/gh_mirrors/st/StockTicker 请基于StockTicker项目信息,撰写一篇全…

作者头像 李华