**大模型的本质:一个超级智能的"接话游戏玩家
输入:"床前明月光,疑是地上霜"
→ 大模型计算每个字的出现概率
→ 输出概率最高的下一个字:"举"
核心原理:
1. 接收输入文本
2. 计算每个可能的下一个字的概率
3. 选择概率最高(或采样)
4. 重复,直到生成停止标记
关键点:
- ✅ 不是"理解",是"预测"
- ✅ 基于统计概率,不是事实记忆
- ✅ 训练数据决定了知识边界
答案:注意力机制(Attention Mechanism)
可以把注意力机制理解为:"看文章时,每个字应该花多少注意力去看它前后的哪些字"
输入句子:"我爱北京天安门"
当模型看到"京"这个字时:
- 80% 注意力放在"北"上(因为"北京"是固定搭配)
- 15% 注意力放在"天"上(因为"京"后面常接"天")
- 3% 注意力放在"安"上
- ... 剩下的分散在其他字
2017年Google论文《Attention Is All You Need》提出,这是现代大模型的基石:
| 组件 | 通俗理解 | 作用 |
|---|---|---|
| 多头注意力 | 同时从多个角度"看"句子 | 同时理解语法、语义、逻辑关系 |
| 前馈神经网络 | 每个位置的"深度思考" | 提炼特征、非线性变换 |
| Layer Normalization | 数据"归一化" | 让训练更稳定 |
| 残差连接 | "抄近道"的信息通道 | 避免梯度消失,深层网络能训练 |
一句话总结Transformer: 它不是"顺序读句子",而是一次性看到整个句子的所有字,并智能地计算每个字之间的关联强度。这就是为什么它能理解复杂的长文本。
在理解其他概念之前,先理解一个最基础的核心概念:**Token(令牌)
大模型不认识"字",只认识"Token"
Token是大模型的"基本处理单位"——它的"单词表"里的条目。所有的文本输入都必须先转换成Token序列,大模型才能处理。
| 语言 | 原文 | Token拆分结果 | Token数量 |
|---|---|---|---|
| 英文 | "Hello, how are you?" | Hello , how are you ? |
6个 |
| 中文 | "你好,今天天气怎么样?" | 你 好 , 今 天 天 气 怎 么 样 ? |
11个 |
结论:
- ✅ 英文:平均1个Token ≈ 0.75个英文单词
- ✅ 中文:平均1个Token ≈ 1.3~1.5个汉字(因为中文字符在大多数分词器中大多是单字拆分)
- ✅ 行业通用换算:1K Token ≈ 750个汉字
这个比例很重要,计算成本、评估上下文窗口大小时都会用到。
| 规模 | 代表模型 | 显存需求 | 相对能力 | 典型应用 |
|---|---|---|---|---|
| 7B级 | Llama 3 8B、Qwen 2 7B、DeepSeek 7B | 16GB | 入门级 | 边缘设备、简单任务 |
| 34B级 | Llama 3 70B、Qwen 2 72B | 80GB | 专业级 | 企业内部、大多数任务 |
| 100B+级 | GPT-4o、Claude 3 Opus | 数百GB | 旗舰级 | 复杂推理、通用AI |
注意: 以上是"推理"显存需求,训练所需显存是推理的10~100倍。
模型一次能"看到"和"记住"的文本长度
这三个参数直接控制大模型的"创造性"和"随机性",是调优Agent输出质量的关键。
作用:控制概率分布的"平坦度"
| 温度值 | 效果 | 适用场景 |
|---|---|---|
| 0 | 完全确定性,永远选概率最高的词 | 代码生成、事实问答、严谨写作 |
| 0.3~0.7 | 平衡,既有创意又不会太离谱 | 日常对话、通用写作 |
| 1.0+ | 高随机性,创意丰富但容易跑偏 | 创意写作、头脑风暴 |
通俗理解: 温度越低,模型越"保守";温度越高,模型越"放飞自我"。
作用:只从概率最高的前k个词中选择
通俗理解: 就像考试做选择题,Top-k是"只在我最有把握的k个选项里蒙"。
作用:从累积概率达到p的最小词集中选择
通俗理解: Top-p是"把我有把握的选项加起来,直到覆盖率达到p%,然后在这个范围内选择"。
| 场景 | Temperature | Top-p | 说明 |
|---|---|---|---|
| 代码生成 | 0.1~0.3 | 0.1 | 精确优先 |
| 事实问答 | 0.2~0.4 | 0.3 | 准确优先 |
| 邮件/公文 | 0.3~0.5 | 0.5 | 专业稳重 |
| 日常对话 | 0.7 | 0.9 | 自然流畅 |
| 写诗/创意 | 1.0+ | 1.0 | 天马行空 |
大模型幻觉(Hallucination)是指模型生成的内容在语法上正确、逻辑上连贯,但与事实不符、无中生有或引用不存在的信息的现象。
—— 斯坦福大学《Foundation Models Report》
| 研究机构 | 幻觉发生率 | 测试场景 |
|---|---|---|
| OpenAI | GPT-4o 约 5~10% | 事实问答 |
| Anthropic | Claude 3 Opus 约 3~7% | 长文档问答 |
| 复旦大学MOSS团队 | 中文模型普遍 10~20% | 中文知识问答 |
关键发现: 中文模型的幻觉发生率普遍高于英文模型,主要原因是中文训练数据质量参差不齐。
问题1: "请介绍一下2025年诺贝尔文学奖得主的代表作"
问题2: "诸葛亮的《出师表》中提到了哪些魏国将领?"
问题3: "请给我一个真实的身份证号码和对应的姓名
| 人类思考方式不同:
人类: 记忆事实 → 检索记忆 → 输出事实
大模型: 统计概率 → 计算概率 → 输出概率最高的词
大模型"说"某个事实,不代表它"知道"这个事实是真的
用户问: "请引用几篇关于大模型幻觉检测的论文"
大模型回答:
"《Hallucination Detection in Large Language Models》(Smith et al., 2023, Nature)这篇论文提出了..."
真相: 这篇论文完全不存在,作者、期刊、年份全是编的。
用户问: "OpenAI的Embedding API支持batch调用吗?"
大模型回答:
"是的,OpenAI Embedding API支持batch调用,使用
/v1/embeddings/batch端点,可以一次传入最多1000个文本..."
真相: 根本没有/v1/embeddings/batch这个端点,OpenAI是直接在/v1/embeddings里传数组。
用户问: "中国《民法典》关于AI生成内容的版权问题是怎么规定的?"
大模型回答:
"根据《民法典》第1023条之二的规定,AI生成内容的版权归属于使用AI工具的自然人..."
真相: 《民法典》里根本没有"第1023条之二",也没有任何关于AI版权的条文。
作用: 在模型外面加一层"安全带"
**具体手段:
- 工具调用校验
- 输出格式约束
- 安全过滤
- 重试机制
用标准化流程替代"自由发挥"
| 不用Superpowers:
- 自由发挥
- 容易跑偏
- 幻觉多
- 质量不稳定
| 用Superpowers:
- 按步骤来
- 每步验证
- 幻觉少
- 质量稳定