news 2026/6/15 20:35:35

常用的大语言模型有什么

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
常用的大语言模型有什么

目前常用的大语言模型(Large Language Models, LLMs)主要包括以下几类,涵盖开源与闭源、学术与商业用途的代表性模型:


1.OpenAI 系列

  • GPT-3 / GPT-3.5:广泛用于 ChatGPT(免费版)等应用。
  • GPT-4 / GPT-4 Turbo:性能更强,支持多模态(如 GPT-4V),上下文窗口更大(最高达 128K tokens)。
  • GPT-4o(2024年发布):更快、更便宜,支持实时语音和视觉交互。

注:OpenAI 模型为闭源,通过 API 或 ChatGPT 使用。


2.Anthropic 系列(Claude)

  • Claude 2 / Claude 2.1:强调安全性和长上下文(支持 200K tokens)。
  • Claude 3 系列(2024年发布):
    • Claude 3 Haiku(轻量快速)
    • Claude 3 Sonnet(平衡性能与成本)
    • Claude 3 Opus(最强性能,对标 GPT-4)

支持多模态(如图像理解),部分版本可通过 API 使用。


3.Google 系列(Gemini / PaLM)

  • PaLM / PaLM 2:Google 早期大模型,用于 Bard(现升级为 Gemini)。
  • Gemini 系列(2023年底发布):
    • Gemini Nano(设备端运行)
    • Gemini Pro(通用用途,API 可用)
    • Gemini Ultra(最强版本,对标 GPT-4)

Gemini 原生支持多模态,整合进 Google Workspace 和 Android。


4.Meta(Facebook)系列(Llama)——开源代表

  • Llama(2023年7月):开源,需申请许可。
  • Llama 2:可商用(部分限制),性能接近 GPT-3.5。
  • Llama 3(2024年4月发布):
    • 支持 8B 和 70B 参数版本
    • 上下文长度达 8K tokens
    • 性能显著提升,接近 Claude 3 Sonnet / GPT-3.5+
  • Llama 3.1 / 3.2(2024年下半年及2025年陆续发布):进一步优化推理、多语言和工具调用能力。

Llama 系列是当前最流行的开源基础模型,广泛用于微调和本地部署。


5.Mistral AI(法国)—— 高效开源模型

  • Mistral 7B:小而强,性能优于 Llama 2 13B。
  • Mixtral 8x7B:稀疏 MoE(Mixture of Experts)架构,效果接近 GPT-3.5。
  • Mistral Large(闭源):对标 GPT-4,支持多语言。
  • Mistral Small / Medium:面向不同应用场景的商用模型。

Mistral 模型以高性价比和推理效率著称,支持商业使用。


6.中国主流大模型

  • 通义千问(Qwen)(阿里云):
    • Qwen-1.5 / Qwen2 / Qwen2.5 / Qwen3(持续迭代)
    • 开源版本(如 Qwen-Max、Qwen-Plus、Qwen-Turbo)覆盖不同场景
    • 支持多模态(Qwen-VL)、代码(Qwen-Coder)、数学(Qwen-Math)
  • DeepSeek(深度求索)
    • DeepSeek-V2 / V3,支持 MoE 架构
    • DeepSeek-Coder 系列在代码任务上表现优异
  • GLM 系列(智谱 AI):
    • GLM-4(2024年发布),支持多模态和 Agent 能力
    • 开源 GLM-3、GLM-Edge 等
  • Moonshot(月之暗面)
    • 支持超长上下文(最高 128K–256K tokens)
  • 百川智能(Baichuan)
    • Baichuan2-7B/13B,开源可商用

7.其他值得关注的模型

  • Command系列(Cohere):面向企业 NLP 任务。
  • Phi 系列(Microsoft):小型但高效,适合边缘设备(如 Phi-3-mini 仅 3.8B 参数,性能媲美 Llama 2 7B)。
  • Yi 系列(零一万物):Yi-34B 在多个基准测试中表现优异。

选择建议:

  • 想本地部署/微调→ 选Llama 3QwenMistral等开源模型。
  • 追求最强性能→ 用GPT-4oClaude 3 OpusGemini Ultra
  • 注重中文能力QwenGLM-4DeepSeek表现优秀。
  • 低成本/高效率Mistral 7BPhi-3Claude 3 Haiku
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 13:53:45

用了一年Cursor,我的代码能力反而退化了

昨天晚上,我盯着屏幕发了半小时呆。 不是在等编译,是在等AI生成代码——然后我发现,离开AI提示,我竟然写不出一个完整的React组件了。 手指悬在键盘上,脑子一片空白。 这种感觉,就像你开了三年自动挡&am…

作者头像 李华
网站建设 2026/6/15 4:14:19

AI原生应用助力业务流程增强的实战指南

AI原生应用助力业务流程增强的实战指南 关键词:AI原生应用、业务流程增强、大语言模型(LLM)、智能自动化、人机协作 摘要:本文从企业业务流程的实际痛点出发,系统讲解"AI原生应用"这一新一代技术形态如何从底…

作者头像 李华
网站建设 2026/6/15 6:59:32

不管leader问你啥,你就记住一个话术原则

作为大厂搬砖多年的打工人,我深刻体会到:和leader沟通时,怎么说,往往比做什么更重要:1、当被问到不清楚的事情时❌别说:“我不知道”✅试试:“这个我马上去确认一下,稍后同步你” le…

作者头像 李华
网站建设 2026/6/15 11:47:48

x^5 + x + 1 = 0, x^3 - x^2 = ?

x^5 x 1 0, x^3 - x^2 ?x^5 x 1 (x^3 - x^2) (x^2 x 1) x^2 x 1 (x^3 - x^2 1)(x^2 x 1) 0x^2 x 1 x^2 2 * 1/2 * X 1/2^2 3/4 > 3/4x^3 - x^2 1 0x^3 - x^2 -1

作者头像 李华
网站建设 2026/6/15 11:46:26

COMSOL 仿真二次谐波产生:从理论到实践

COMSOL仿真二次谐波产生 基本介绍: 主要内容:根据发表在 Physical Review Letters 上的论文《Artificial nonlinearity generated from electromagnetic coupling metamolecule》最近在研究非线性光学相关内容,根据发表在《Physical Review L…

作者头像 李华
网站建设 2026/6/15 11:45:57

基于springboot的人格测试网站系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

作者头像 李华