news 2026/5/1 8:38:58

亚马逊推出对话式 AI 门铃,识别访客并代为应答;Vocu V3 语音模型登顶 HF TTS Arena 榜丨日报

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亚马逊推出对话式 AI 门铃,识别访客并代为应答;Vocu V3 语音模型登顶 HF TTS Arena 榜丨日报

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、OpenAI 发布 GPT‑5.2‑Codex,强化防御性网络安全应用

今天,OpenAI 正式发布智能体编码模型 GPT‑5.2‑Codex,定位为「迄今最前沿的智能体编码模型」,面向复杂的软件工程与防御性网络安全场景。

该模型基于 GPT‑5.2 定向优化,具备更强的长程任务执行能力、代码重构与迁移性能、原生 Windows 环境适配,以及对截图、技术图表和用户界面的精准理解。

OpenAI 表示,GPT‑5.2‑Codex 已在 Codex CLI、IDE 扩展、云端与代码审查场景向付费 ChatGPT 用户开放,API 接入将在未来数周逐步启用。

在性能方面,GPT‑5.2‑Codex 在 SWE‑Bench Pro 基准测试中准确率达到 56.4%,在 Terminal‑Bench 2.0 中准确率为 64.0%,均较前代模型有所提升。

模型通过原生上下文压缩提升长周期任务的稳定性与 token 使用效率,并在终端任务中展现更高成功率与可靠性。

此前,研究人员已利用 GPT‑5.1‑Codex‑Max 在 React 框架中发现并披露漏洞,显示该系列模型在现实防御性研究中的潜力。

在网络安全方面,OpenAI 强调 GPT‑5.2‑Codex 虽未达到「高」级能力门槛,但已显著增强防御性能力。
公司同步推出「可信访问计划」,仅限邀请安全专业人士与具备明确应用场景的机构参与,用于漏洞研究、授权红队测试等防御性工作。

OpenAI 表示,随着模型能力持续提升,将以负责任的方式逐步开放访问,并与安全社区保持紧密合作,以降低滥用风险。

(@APPSO、@新智元)

2、烁谷科技 Vocu V3 语音合成模型:登顶 HuggingFace TTS Arena 榜单

广州烁谷科技自研的 Vocu V3 语音合成模型(海外版,国内版为悟声)在 HuggingFace TTS Arena 榜单上获得第一名。该模型在海量用户盲测中,凭借语音质量和情感表现力超越了 Inworld 和 Eleven Labs 等国际厂商。

  • HuggingFace TTS Arena 榜单第一:该榜单采用 Elo 社区评分机制,基于全球用户匿名投票,动态更新,被视为衡量语音合成技术实力的「试金石」。

  • 3 秒声音样本完成 99.5% 相似度音色克隆:Vocu V3 能够基于极短的音频样本,实现高精度、高相似度的音色克隆。

  • 支持数十种语言及方言,具备影视级性能:V3.1 版本全面支持中文、英语、韩语、法语、德语、西班牙语、葡萄牙语等数十种语言及粤语等方言,在情感张力、相似度、稳定性、自然度、语义理解等方面表现领先。

  • 「悟声」语音合成算法:实现了从「感知文本」到「再生语音」的跨越,能深度理解文本语义与情感,自动匹配多种音色和口音,并精准演绎情感起伏。

  • VocaMark 音频隐形水印与 VocaAntiFake 鉴伪大模型:构建了 AI 生成音频的安全闭环,实现无痕溯源与高精度鉴别,抵御恶意攻击。

相关链接:

https://www.vocu.ai/

(@南都大数据研究院)

3、美团 LongCat-Video-Avatar 开源 SOTA 级虚拟人视频生成模型

美团 LongCat 团队开源了 LongCat-Video-Avatar 虚拟人视频生成模型。该模型在动作拟真度、长视频稳定性和身份一致性方面取得显著突破,支持 AT2V、ATI2V 及视频续写功能,旨在解决虚拟人长视频生成中的痛点。

  • SOTA 级动作拟真度:通过 Disentangled Unconditional Guidance 训练策略,实现嘴型、眼神、表情及肢体动作的同步拟真,支持「静音」状态下的自然微动作(如眨眼、调整姿势)。

  • 长时序视频稳定性:采用 Cross-Chunk Latent Stitching 训练策略,在潜在空间(latent space)直接拼接上下文,避免 VAE 解码再编码带来的画质退化,实现长达 5 分钟视频生成时的色彩和细节稳定性。

  • 商用级身份一致性:升级基座模型至 LongCat-Video,并引入带位置编码的参考帧注入模式与 Reference Skip Attention 机制,在确保身份(ID)一致性的同时,抑制动作僵化与重复。

  • 多模态输入支持:原生支持 Audio-Text-to-Video (AT2V)、Audio-Text-Image-to-Video(ATI2V) 及视频续写(inpainting/continuation)等核心功能。

  • 权威基准评测领先:在 HDTF、CelebV-HQ、EMTD 等数据集上,多项核心指标(Sync-c/Sync-D, FID, FVD, CSIM)达到 SOTA 水平。

项目地址:

GitHub:
https://github.com/meituan-longcat/LongCat-Video

Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project:
https://meigen-ai.github.io/LongCat-Video-Avatar/

(@龙猫 LongCat)

4、Mistral AI 发布 Mistral OCR 3:OCR 性能提升 74%,支持复杂表格与手写体,API 价格降至 $1/千页

Mistral AI 推出了其最新 OCR 模型 Mistral OCR 3,在表单、扫描文档、复杂表格和手写体识别方面,相较前代模型 Mistral OCR 2 整体性能提升 74%。该模型现已通过 API 和 Document AI Playground 提供,将 OCR 成本降低至 $1/千页(批量 API)。

  • 74% 提升率: Mistral OCR 3 在表单、扫描文档、复杂表格和手写体识别上,相比 Mistral OCR 2 实现了 74% 的总体胜率。

  • 复杂表格结构重构: 模型能够精确识别并输出带有 colspan/rowspan 属性的 HTML 表格标签,保留了包括表头、合并单元格和多行块在内的复杂表格布局。

  • 手写体与表单理解增强: 显著提升了对草书、混合内容注释、打印表单上的手写文本,以及复杂表单布局(包括标签、勾选框和密集排列的字段)的识别能力。

  • 成本优化:API 价格为 $2/千页,通过 Batch-API 优惠后,成本降至 $1/千页。

  • Document AI Playground:提供拖拽式界面,支持将 PDF/图像解析为纯文本或结构化 JSON。

相关链接:

https://mistral.ai/news/mistral-ocr-3

( @Mistral AI Blog)

02 有亮点的产品

1、千问 App 全面接入高德地图

昨天起,千问 App 全面接入高德地图能力,围绕导航与生活服务实现深度打通:用户在千问 App 中可一体化完成路线规划、周边餐饮娱乐检索与「顺路」店铺筛选,提升复杂出行需求的响应效率。

此次接入覆盖新能源车出行、限行规避与服务信息等关键场景。

用户提供出发地、目的地与车辆续航信息后,千问 App 将参考高德路线数据自动规划沿途充电站;同时支持依据车牌尾号、出行时间与目的地生成合规出行方案,并在路线规划界面同步展示收费站、服务区与限行提示。

高德称,未来将与千问在餐饮、娱乐、休闲等生活场景继续扩展智能服务体验。

( @APPSO)

2、3299 元,XREAL 推出新一代 AR 眼镜 1S

昨天,AR 眼镜厂商 XREAL 正式发布新品 XREAL 1S,面向更广泛的年轻消费群体,主打「一副眼镜,开启 500 英寸随身空间巨幕时代」,核心亮点包括:

  • 搭载自研 X1 空间计算芯片,支持实时 2D 转 3D 功能;

  • 配备 Sony Micro-OLED 微显示屏,双眼 1200p 分辨率与 700 尼特亮度,并获得 TÜV 莱茵眼舒适五星认证;

  • 原生 3DoF 空间显示能力,无需手机 App 或额外配件即可实现稳定画面;

  • 全链路优化,M2P 延迟低至 3ms,显著降低眩晕感;

  • 提供多规格鼻托与柔性铰链,确保长时间佩戴舒适;

跨生态即插即用,支持 iPhone、Android 手机、Steam Deck、Windows PC 与 MacBook。XREAL 创始人兼 CEO 徐驰在发布会上表示,眼镜是最接近人类感知的终端,也是最有可能承载下一代计算形态的入口。

XREAL 强调,X1 芯片的使命是「Spatial Display for All」,即不挑设备、不设门槛,让任何人都能随时拥有可靠的空间屏幕。

XREAL 1S 定价 3299 元,已在京东与天猫开启预约,并将在 12 月 22 日 20:00 正式发售。

( @APPSO)

3、Amazon 为门铃推出 Greetings 功能:Alexa 智能识别访客并代为应答

Amazon 为 Ring Doorbell 推出名为「Greetings」的新功能,整合了 Alexa 的对话式 AI 能力。该功能可识别访客身份(如快递员、销售人员),并根据预设指令进行交互,同时支持亲友留言。

  • 访客识别与响应:利用 Ring 的视频描述技术,识别摄像头前人物的服饰、动作和携带物品,从而判断其身份(如快递员、销售人员、亲友),并根据用户指令生成相应回复。

  • 自定义交互指令:用户可为不同类型访客设置具体指令,例如:指示快递员放置包裹的位置、提供饮水零食、处理签收事宜;礼貌拒绝推销人员;或让亲友留言。

  • 对话式 AI 集成:集成 Alexa 对话式 AI,实现更自然的语言交互,而非预设脚本。

  • 隐私与安全考量:Amazon 声明该功能不识别具体个人身份,仅基于视觉描述生成响应。

  • 兼容性与部署:该功能兼容 Ring Wired Doorbell Pro (3rd Gen) 和 Ring Wired Doorbell Plus (2nd Gen),需要 Ring Premium Plan 和已启用的视频描述功能。

( @TechCrunch)

4、Stripe Press 发布系列短纪录片《Tacit》:AI 时代下,大师级工艺的隐性之美

Stripe Press 近日推出纪录片系列《Tacit》,首两集聚焦调香大师 Christophe Laudamiel,探讨 AI 浪潮下「大师级技艺」的存续。

Laudamiel 曾操刀多款现象级香水。影片记录了他从零构建香氛的全过程,展现了专业直觉如何通过数万次实验与错误(如排除尴尬的异味)转化为卓越的产品。这正是「隐性知识」——一种无法通过简单指令习得、深植于经验之中的判断力。

Stripe Press 负责人 Tamara Winter 强调,隐性知识不仅是匠心所在,更是经济持续增长的关键要素。当这种知识的代际传递出现断裂——例如当今大师级调香师的数量已稀缺至低于宇航员时——整个行业的繁荣根基将面临崩塌。

除了影像记录,《Tacit》配套网站还整理了相关经典书单,旨在为这一深刻课题提供更广阔的理论支撑。
( @Stripe Press)

03 有态度的观点

1、小米语音首席科学家:AI 发展的本质就像生物进化,不开源要慢 1000 倍

在量子位 MEET2026 智能未来大会上,著名的「Kaldi 之父」、小米集团首席语音科学家、IEEE Fellow Daniel Povey 提出:就像生物进化一样, AI「配方」的设计本质上就是一个不断试错的过程,而进化的速度,取决于「复制」一个新想法所需的时间。

他也将开源视为 AI 进化的核心加速器——若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历「长期停滞+瞬间爆发」的非线性跃迁。

至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是「两条腿走路」——一边利用 Transformer 赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。

(@量子位)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、硬件日招募!「对话式 AI+硬件」系列活动@深圳丨 RTE Meetup+TEN Workshop

2025 年 RTE 开发者社区的收官活动,将再次落地硬件之都深圳,一起畅想 2026!

聚焦「对话式 AI+硬件」主题, 来自通义百聆 Fun-CosyVoice、声网、Lookee 盒智科技、TEN Framework、TEN VAD、Amphion 的技术专家和创业者将呈现多种类型活动。

上午主题分享+圆桌,下午动手工作坊——无论你是产品人、开发者、创业者还是硬件极客,总有一款适合你!

12 月 27 日,深圳科创学院,欢迎参加~

Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:55:04

线性代数-3Blue1Brown《线性代数的本质》逆矩阵、列空间、秩与零空间(8)

数学基础-线性代数-学习系列 本文是3B1B 《线性代数的本质》系列视频之 逆矩阵、列空间、秩与零空间 的学习笔记,通过线性变换了解 逆矩阵、列空间、秩与零空间的概念。 线性方程组逆矩阵列空间秩零空间 1、线性方程组 1.1 什么是线程方程组 一个线性方程组是由…

作者头像 李华
网站建设 2026/5/1 6:55:36

从阻塞等待到实时交互:Gemini流式响应技术深度解析

从阻塞等待到实时交互:Gemini流式响应技术深度解析 【免费下载链接】cookbook A collection of guides and examples for the Gemini API. 项目地址: https://gitcode.com/GitHub_Trending/coo/cookbook 你是否曾经在等待AI响应时感到焦虑?看着进…

作者头像 李华
网站建设 2026/5/1 5:56:19

18、网络安全与智能卡技术全解析

网络安全与智能卡技术全解析 1. IPSec 安全与网络服务互操作性 在网络环境中,实施 IPSec 安全措施能让我们确信网络传输的流量不会被拦截和篡改,为网络通信提供了高度的安全性。然而,IPSec 也会对网络服务的互操作性产生显著影响。 运行 DHCP、WINS 或 DNS 服务的网络服务…

作者头像 李华
网站建设 2026/4/28 5:45:18

Cycle.js微前端实战:构建可复用的响应式组件库

Cycle.js微前端实战:构建可复用的响应式组件库 【免费下载链接】cyclejs A functional and reactive JavaScript framework for predictable code 项目地址: https://gitcode.com/gh_mirrors/cy/cyclejs 在当今微前端架构盛行的时代,如何在不同应…

作者头像 李华
网站建设 2026/5/1 7:00:16

43、构建高效的客户端计算环境:全面解析与实践指南

构建高效的客户端计算环境:全面解析与实践指南 在当今的企业计算环境中,构建一个强大、可靠且可扩展的瘦客户端计算环境至关重要。它不仅能集中管理应用程序,还能显著减少桌面软件的负担。以下将详细探讨应用程序许可、访问与安全,以及客户端配置与部署等关键方面。 应用…

作者头像 李华
网站建设 2026/5/1 7:00:11

终极指南:5分钟快速上手LiteGraph.js可视化节点引擎

终极指南:5分钟快速上手LiteGraph.js可视化节点引擎 【免费下载链接】litegraph.js A graph node engine and editor written in Javascript similar to PD or UDK Blueprints, comes with its own editor in HTML5 Canvas2D. The engine can run client side or se…

作者头像 李华