Skip to content

LLM 基础

大模型是什么?

大模型好比是一个函数,给定一个输入,得到一个输出。但它不纯,每次的语义推理都导向不同的世界。

大模型是怎么生成结果的?

用不严密但通俗的语言描述大模型的工作原理:

  1. 训练:大模型阅读了人类曾说过的所有的话
  2. 参数:把一串 token 后面跟着的不同 token 的概率存入「神经网络」。保存的数据就是「参数」,也叫「权重」
  3. 生成/推理:当我们给它若干 token,大模型就能算出概率最高的下一个 token 是什么
  4. 续写:用生成的 token,再加上上文,就能继续生成下一个 token。以此类推,生成更多文字

经典业务架构

AI 的三种经典业务形态:

  • AI Embedded — AI 嵌入现有流程
  • AI Copilot — AI 作为辅助工具
  • AI Agent — AI 作为自主代理

Released under the ISC License.