news 2026/5/4 22:36:31

一文讲透AI大模型相关的专业名词

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一文讲透AI大模型相关的专业名词

一.LLM

1.全称Large Language Model(大语言模型,简称“大模型”)

LLM:Large Language Model(大语言模型,简称“大模型”)。

基本上,现在所有的大模型都是基于Transformer这套架构训练出来的。

说白了,大模型的底层引擎就是“Transformer”

“Transformer”是由Google发明(点火者),但是真正推广者是OpenAI。

2.我们平时见到的大模型有哪些?

  • ChatGPT (OpenAI)
  • 通义千问 (阿里)
  • 文心一言 (百度)
  • 豆包 (字节跳动)
  • Kimi (月之暗面)
  • DeepSeek (深度求索)
  • 等等

3.大模型是怎么工作的?

  • 本质就是一个文字接龙游戏

举例

  • 当用户问“鸿剑的文章怎么样”?然后大模型对此做出思考。
  • 一会,思考的结果是“特别”,发送给用户。然后再把“特别”这个词抓回去,再回答“的”拼接到“特别”后面,发送给用户,然后再抓回去,再思考出“棒”,拼接到“特别的”后面,答案是“特别的棒”,然后再抓回去。发现该问题回答完了,就会输出一个结束标志(图中的绿色对钩)。
  • 说白了,本质就是一个词一个词往外蹦的,所以我们用deepseek时,也能明显发现大模型给答案时,就是一个一个词的生成的(也叫流式生成),本质原因就是因为这个大模型的生成特点,就是文字接龙游戏。

二.Token

解析:

  • 大模型本质上是一个庞大的数学函数,里面跑的全是矩阵运算。因此大模型接收的只能是数字,输出的也只能是数字。说白了大模型压根不认识人类写的文字。
  • 所以人类要和大模型沟通,需要一个中间人(翻译官),即Tokenizer。它负责编码(将文字转为数字)和解码(将数字转为文字)。
  • 所以Token是大模型处理文本的基本单位
  • 而Token不能说对应一个文字、或一个英文单词,而是具体分情况,但是大致比例如下图所示。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 22:34:28

除了北斗和风云,还有哪些中国卫星在3.6万公里高空默默服务?一份实用卫星功能指南

中国高轨卫星的隐秘力量:从太空守护日常的科技英雄 当我们仰望星空时,很少有人会意识到3.6万公里高空的中国卫星群正在悄然改变着我们的生活。这些太空基础设施如同无形的守护者,在通信、气象、灾害预警等关键领域发挥着不可替代的作用。不同…

作者头像 李华
网站建设 2026/5/4 22:33:25

多智能体强化学习实现四足机器人协同跳跃

1. 项目概述 在四足机器人领域,单体的运动能力始终受到物理尺寸、驱动功率和能量效率等固有因素的限制。香港大学ARC实验室与EngineAI团队提出的"Co-jump"项目,通过多智能体强化学习(MARL)技术,让两台四足机器人无需外部通信即可实…

作者头像 李华
网站建设 2026/5/4 22:32:31

企业如何通过Taotoken实现多模型API的统一管理与访问控制

企业如何通过Taotoken实现多模型API的统一管理与访问控制 1. 多模型统一接入的技术挑战 在企业级AI应用开发中,技术团队常面临多模型厂商API的接入与管理难题。不同厂商的API协议差异、密钥分发机制分散、用量监控不透明等问题,会导致运维成本呈指数级…

作者头像 李华