每日 AI 研究简报 · 2026-06-25-编程实验室

（本文借助 AI 大模型及工具辅助整理）

一句话总结：OpenAI 首款自研推理芯片 Jalapeño 问世，Anthropic 推出 Claude Tag Slack 深度集成，多篇论文揭示多模态大模型的排序敏感性和实时语音 AI 情感盲区。

🌊 AI 动态与趋势

本周 AI 行业呈现两大显著趋势：基础设施自主化和Agent 应用规模化落地。OpenAI 联合博通推出首款自研推理芯片 Jalapeño，标志着头部 AI 公司加速芯片层面自主可控，不再完全依赖通用 GPU。与此同时，Anthropic 直接将 Claude 嵌入 Slack 作为团队成员（Claude Tag），可写代码、查数据、提 PR，Agent 正从工具变为真正的协作者。

另一方面，学术界对现有 AI 系统的可靠性缺陷展开密集审视。多项研究指出当前主流多模态大模型在输入排序变化时存在显著的不一致性，实时语音 AI 系统虽能识别情感信号却在决策中忽略。这些发现为下一阶段 AI 部署安全性和评估标准提出了新的要求。

📰 AI 今日看点

如果你不是技术从业者，今天关注的核心是：AI 正在从"回答问题的聊天机器人"转向"能在真实工作流中干活"。Anthropic 在 Slack 里发布了 Agent 版的 Claude，它能直接进频道、接任务、改代码——这意味着 AI 不再只存在于对话框里。与此同时，OpenAI 开始造自己的芯片了，这就像蛋糕店决定自己种小麦，说明头部玩家在做长期战略布局。另一方面，机器人领域也在突破，新的研究成果让机械臂能跨不同型号通用操作，不再是每个机器人单独训练。简单说：AI 正在更快地走向实用、走向底层、走向物理世界。

🔥 AI 大事件

OpenAI 发布首款自研 AI 推理芯片 Jalapeño
与 Broadcom 联合开发，专为 AI 推理场景设计。值得注意的是，Jalapeño 的开发过程本身也使用了 OpenAI 自身的大模型来加速芯片设计流程。
来源：VentureBeat

Anthropic 推出 Claude Tag：AI Agent 直接加入企业 Slack
Claude 可作为 Slack 团队成员，参与对话、拉取代码、合入 PR、查询销售数据等。这是 Agent 深嵌协作平台的重要里程碑。
来源：The Verge

Mistral 发布 OCR 4 企业级文档提取方案
支持 170 种语言、10 种语言族，可处理 PDF/DOC/PPT/OpenDocument 格式，专为监管严格行业提供本地化部署能力。
来源：VentureBeat

近 400 家地方报纸联合起诉 OpenAI 和微软
指控两家公司在未授权、未付费的情况下抓取其内容训练 AI 模型。这是继《纽约时报》、Ziff Davis 等之后的又一轮版权诉讼潮。
来源：The Verge

小米发布 HarnessX：AI 框架可在运行中自我重写
一种新型 AI 框架，能诊断失败并自动重写自身的 agent 脚手架代码，小模型收益尤为显著。
来源：VentureBeat

Superhuman 收购 AI 内容检测工具 GPTZero
将整合进 Superhuman Go AI 助手，帮助用户理解所读内容的来源可信度。
来源：The Verge

🛠️ AI 应用前线

开源自媒体视频制作系统 OpenMontage 爆火
GitHub 日增 3700+ stars，号称首个开源 Agent 驱动的视频制作系统，包含 12 条管线、52 种工具、500+ 种 Agent 技能。
来源：GitHub Trending

阿里未训练 Agent 却意外提升 7 个基准的 Agent 性能
通过构建能按需注入边缘场景的仿真器，阿里在未专门训练 Agent 的情况下优化了多模型协调效果。
来源：VentureBeat

GitHub 日趋势活跃：AI 网站克隆器、网络安全技能包等
ai-website-cloner-template 日增 692 星、Anthropic-Cybersecurity-Skills 日增 1031 星、阿里 Page Agent 日增 280 星。
来源：GitHub Trending

📊 数据速递

3700+— OpenMontage 单日新增星数，创本周 AI 开源项目增速最高（来源：GitHub Trending）
1031— Anthropic Cybersecurity Skills 项目单日星数，AI 安全领域需求旺盛（来源：GitHub Trending）
170— Mistral OCR 4 支持的语言数量，覆盖 10 个语族（来源：VentureBeat）
13.4%— 最稳定的多模态大模型在输入重排后仍出现答案翻转的比例（来源：ArXiv 2606.26079）

📊 今日概览

维度	数据
📅 日期	2026-06-25
🔬 ArXiv 精选论文	6 篇
🚀 GitHub 趋势项目	15 个
📰 新闻事件	8 条

🔬 ArXiv 今日精选论文

🏗️ 大模型与训练

Same Evidence, Different Answer: Auditing Order Sensitivity in Multimodal Large Language Models
对 18 个前沿多模态大模型的五项排序敏感性审计发现，没有一个模型对输入顺序不敏感。即使最佳模型在最简单的文本推理场景中仍有 13.4% 的答案翻转率。研究表明，仅靠 prompt 级别缓解无法彻底解决排序鲁棒性问题。
• 链接：https://arxiv.org/abs/2606.26079

On-Policy Self-Distillation with Sampled Demonstrations Reduces Output Diversity
揭示了在线策略自蒸馏（On-policy Self-Distillation）的一个隐藏代价：虽然该技术能提升 pass@1 准确率，但会显著降低输出多样性（pass@k 曲线趋于平坦）。理论分析表明自蒸馏会放大已有概率差距，将质量集中在少数输出模式上，在需要多样化策略的 OOD 场景中表现不佳。
• 链接：https://arxiv.org/abs/2606.26091

Model Forensics: Investigating Whether Concerning Behavior Reflects Misalignment
提出模型取证（Model Forensics）基线协议：先读取推理链（CoT）形成假设，再通过编辑 prompt 或环境来检验。行为异常不必然是未对齐，混淆也可导致不良行为，区分两者对 AI 安全至关重要。
• 链接：https://arxiv.org/abs/2606.26071

🤖 Agent 与机器人

Learning Action Priors for Cross-embodiment Robot Manipulation
提出两阶段训练框架：先通过流匹配（Flow Matching）在无视觉/语言条件下预训练动作模块的运动先验，再迁移至视觉-语言-动作（VLA）联合训练。在 13 个跨形态任务中大幅超越基线，数据稀少场景下效果尤其显著。
• 链接：https://arxiv.org/abs/2606.26095

Neglected Free Lunch from Post-training: Progress Advantage for LLM Agents
证明强化学习后训练本身就可提供有效的步骤级评分信号，无需训练专门的奖励模型。提出的"进度优势"（Progress Advantage）——RL 策略与参考策略的对数概率比——在测试时扩展、不确定性量化和失败归因三个场景中均一致超越基于置信度的基线方法。
• 链接：https://arxiv.org/abs/2606.26080

🔊 语音与多模态

Real-Time Voice AI Hears but Does Not Listen
评估 OpenAI GPT Realtime 2、Google Gemini 3.1 Flash Live 和阿里 Qwen3.5 Omni 后发现，所有系统都是"听字不听声"——能准确识别语气中的哭泣、恐惧和讽刺，但在决策时完全忽略。研究定义了语音 AI 的"情感智能鸿沟"，提醒在涉及语气和情感的高风险场景中谨慎使用。
• 链接：https://arxiv.org/abs/2606.26083

🚀 GitHub AI 趋势日榜 Top 15

今日 GitHub 趋势以 AI Agent 工具和开发者基础设施为主，开源视频制作系统 OpenMontage 一骑绝尘。

排名	项目	语言	今日星增	说明
1	calesthio/OpenMontage	Python	3,719	开源 Agent 驱动的视频生产系统，12 管线 52 工具 500+ 技能
2	apple/container	Swift	1,838	Apple 出品：Mac 上通过轻量虚拟机运行 Linux 容器
3	mukul975/Anthropic-Cybersecurity-Skills	Python	1,031	817 个结构化网络安全技能，映射 6 个安全框架
4	JCodesMore/ai-website-cloner-template	TypeScript	692	一条命令通过 AI 克隆任意网站
5	google-labs-code/design.md	TypeScript	619	向编码 Agent 描述视觉设计系统的格式规范
6	alibaba/page-agent	TypeScript	280	JS 实现的网页 GUI Agent，用自然语言控制 Web 界面
7	xbtlin/ai-berkshire	Python	201	AI 时代价值投资框架，多 Agent 对抗分析
8	mauriceboe/TREK	TypeScript	112	自托管旅行规划器，支持实时协作和 PWA
9	garrytan/gstack	-	-	Garry Tan 的 Claude Code 完整配置：23 个工具
10	aws/agent-toolkit-for-aws	Python	15	AWS 官方 MCP 服务/技能/插件套件
11	IceWhaleTech/CasaOS	-	-	开源个人云系统
12	opendatalab/MinerU	-	-	PDF/文档→LLM 就绪 Markdown/JSON
13	Free-TV/IPTV	-	-	免费电视直播 M3U 播放列表
14	shanraisshan/claude-code-best-practice	-	-	从 Vibe Coding 到 Agentic Engineering 最佳实践
15	NanmiCoder/MediaCrawler	-	-	小红书/抖音/快手/B站/微博爬虫工具

💡 今日洞察

语音 AI 正在"听见"但"没有听懂"。实时语音 AI 系统的情感智能鸿沟是目前被严重低估的问题。如果金融、客服、医疗领域要部署语音 Agent，必须增加对语气和情感信号的独立校验机制，不能仅依赖文字转录。
Agent 不再只是对话，而是协作。Claude Tag 嵌入 Slack 和 OpenMontage 的开源视频制作 Agent 系统说明，AI Agent 已经从"一个人问 AI"进化到"AI 在团队里干活"，这将对企业协作模式和软件开发流程产生深远影响。
排序敏感性暴露大模型评估体系缺陷。现有基准测试只测一份固定排序的输入，而相同的证据、不同的排列即可导致答案翻转。这提醒 AI 评估需要引入"跨排列翻转率"作为标准指标，同时提示开发者在生产环境中应自动进行输入排列校验。

✍️编辑策划 / 整理：Fan Jun AI Tech Notes 组
📅发布日期：2026-06-25
数据来源：ArXiv API、GitHub API、TechCrunch、The Verge、Wired、VentureBeat、机器之心、量子位等