# 003 大语言模型（LLM）作为 Agent 的“大脑”：GPT、Claude、Gemini 对比-编程实验室

从一次诡异的 Agent 死循环说起

上周调一个多步骤工具调用 Agent，GPT-4o 在第三步突然开始反复调用同一个天气查询 API，参数一模一样，连续调了 17 次才超时退出。日志里 token 消耗直接炸了，账单多出 3 美元。我盯着那串重复的get_weather(lat=39.9, lon=116.4)看了十分钟，最后发现是 prompt 里少写了一句“如果已经获取过该数据，直接使用缓存结果”。这个坑让我意识到：LLM 作为 Agent 大脑时，模型本身的“性格”差异会被放大到离谱的程度。

今天不聊理论，直接拿 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 三个模型，在同一个 Agent 框架下跑同样的任务，把它们的“脑回路”扒开看看。

工具调用：谁更像个“靠谱的实习生”

Agent 最核心的能力是调用外部工具。我设计了一个测试：给三个模型同样的函数定义（查询数据库、发送邮件、计算器），然后说“帮我查一下昨天销售额，如果超过 10000 就发邮件通知团队”。

GPT-4o的表现最像人类直觉：先调query_sales("yesterday")，拿到结果 12800，然后调send_email("team@company.com", "昨日销售额 12800，达标")。干净利落，参数格式完全匹配 JSON Schema。但有个隐藏问题——它偶尔会在工具调用之间插入一段自言自语式的推理，比如“嗯，让我先查一下数据……好的，数据拿到了，现在发邮件”。这段推理会消耗 token，而且如果 prompt 里没限制，它可能把推理内容也塞进工具参数里。

Claude 3.5 Sonnet的调用风格更“谨慎”。它会在第一次调用前先问一句：“我需要先查询数据库，确认数据后再决定是否发邮件。”然后才执行。这种“先思考再行动”的模式在复杂任务里其实是优点，但如果你追求低延迟

C语言编译器适配测试终极清单：覆盖11类目标平台、8种标准合规模式、6种内存模型验证（2024Q3最新TS 18661-3补丁适配版）

更多请点击： https://intelliparadigm.com 第一章：C语言编译器适配测试的演进脉络与TS 18661-3:2024Q3补丁核心变更解析 C语言编译器适配测试已从早期的手动验证阶段，逐步演进为基于标准化测试套件（如GCC Conformance Suite、ISO…

李华

iOS激活锁绕过终极指南：使用applera1n免费解锁你的iPhone

iOS激活锁绕过终极指南：使用applera1n免费解锁你的iPhone 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 你是否曾经购买了一部二手iPhone，却发现自己被卡在了激活锁界面&#…

李华

从‘垃圾回收’的视角重新理解Linux RCU：它如何优雅地管理内核对象的生命周期？

从‘垃圾回收’的视角重新理解Linux RCU：它如何优雅地管理内核对象的生命周期？ 在并发编程的世界里，资源管理一直是个令人头疼的问题。想象一下，当多个线程同时访问同一个数据结构时，如何确保数据的一致性，…

李华

终极鸣潮画质优化指南：如何用WaveTools一键解锁120FPS流畅体验

终极鸣潮画质优化指南：如何用WaveTools一键解锁120FPS流畅体验【免费下载链接】WaveTools 🧰鸣潮工具箱项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 还在为《鸣潮》默认60FPS帧率限制而烦恼吗？你是否渴望在开放世界中享…

李华

神经编码分析实战指南：从数据到模型的完整流程与避坑策略

1. 项目概述与核心价值最近在整理一些关于神经编码（Neural Coding）的笔记和实验心得，发现很多刚接触计算神经科学或者想用更“神经科学”的方式做AI研究的朋友，常常会卡在一些基础但关键的概念和操作上。比如，拿到一段…

李华

基于MCP协议构建AI记忆系统：为Claude等智能助手打造长期记忆

1. 项目概述与核心价值最近在折腾AI应用开发，特别是想搞点能深度集成到工作流里的智能工具，发现一个挺有意思的项目：feralcarazp/project-memory-mcp。乍一看这名字，MCP（Model Context Protocol）和Memory&a…

李华