LLM 基础
大模型是什么?
大模型好比是一个函数,给定一个输入,得到一个输出。但它不纯,每次的语义推理都导向不同的世界。
大模型是怎么生成结果的?
用不严密但通俗的语言描述大模型的工作原理:
- 训练:大模型阅读了人类曾说过的所有的话
- 参数:把一串 token 后面跟着的不同 token 的概率存入「神经网络」。保存的数据就是「参数」,也叫「权重」
- 生成/推理:当我们给它若干 token,大模型就能算出概率最高的下一个 token 是什么
- 续写:用生成的 token,再加上上文,就能继续生成下一个 token。以此类推,生成更多文字
经典业务架构
AI 的三种经典业务形态:
- AI Embedded — AI 嵌入现有流程
- AI Copilot — AI 作为辅助工具
- AI Agent — AI 作为自主代理
