AI大模型与Agent实战入门

第一模块:理论基础

第1节:大模型原理解谜


本节目标


1.1 大模型是什么?

从"猜下一个字"讲起

**大模型的本质:一个超级智能的"接话游戏玩家

输入:"床前明月光,疑是地上霜"
→ 大模型计算每个字的出现概率
→ 输出概率最高的下一个字:"举"

核心机制:概率生成

核心原理:
1. 接收输入文本
2. 计算每个可能的下一个字的概率
3. 选择概率最高(或采样)
4. 重复,直到生成停止标记

关键点:
- ✅ 不是"理解",是"预测"
- ✅ 基于统计概率,不是事实记忆
- ✅ 训练数据决定了知识边界


1.1.1 深入理解:Transformer与注意力机制

为什么大模型能"猜"得这么准?

答案:注意力机制(Attention Mechanism)

可以把注意力机制理解为:"看文章时,每个字应该花多少注意力去看它前后的哪些字"

输入句子:"我爱北京天安门"

当模型看到"京"这个字时:
- 80% 注意力放在"北"上(因为"北京"是固定搭配)
- 15% 注意力放在"天"上(因为"京"后面常接"天")
- 3% 注意力放在"安"上
- ... 剩下的分散在其他字

Transformer架构的核心创新

2017年Google论文《Attention Is All You Need》提出,这是现代大模型的基石:

组件 通俗理解 作用
多头注意力 同时从多个角度"看"句子 同时理解语法、语义、逻辑关系
前馈神经网络 每个位置的"深度思考" 提炼特征、非线性变换
Layer Normalization 数据"归一化" 让训练更稳定
残差连接 "抄近道"的信息通道 避免梯度消失,深层网络能训练

一句话总结Transformer: 它不是"顺序读句子",而是一次性看到整个句子的所有字,并智能地计算每个字之间的关联强度。这就是为什么它能理解复杂的长文本。


1.2 关键概念解释

Tokenization:大模型如何"认字"

在理解其他概念之前,先理解一个最基础的核心概念:**Token(令牌)

大模型不认识"字",只认识"Token"

Token是大模型的"基本处理单位"——它的"单词表"里的条目。所有的文本输入都必须先转换成Token序列,大模型才能处理。

中英文Token差异对比:

语言 原文 Token拆分结果 Token数量
英文 "Hello, how are you?" Hello , how are you ? 6个
中文 "你好,今天天气怎么样?" 11个

结论:
- ✅ 英文:平均1个Token ≈ 0.75个英文单词
- ✅ 中文:平均1个Token ≈ 1.3~1.5个汉字(因为中文字符在大多数分词器中大多是单字拆分)
- ✅ 行业通用换算:1K Token ≈ 750个汉字

这个比例很重要,计算成本、评估上下文窗口大小时都会用到。


训练数据(Training Data)


参数规模(Parameters)

什么是参数?

常见模型参数规模(2025年数据):

规模 代表模型 显存需求 相对能力 典型应用
7B级 Llama 3 8B、Qwen 2 7B、DeepSeek 7B 16GB 入门级 边缘设备、简单任务
34B级 Llama 3 70B、Qwen 2 72B 80GB 专业级 企业内部、大多数任务
100B+级 GPT-4o、Claude 3 Opus 数百GB 旗舰级 复杂推理、通用AI

注意: 以上是"推理"显存需求,训练所需显存是推理的10~100倍。


上下文窗口(Context Window)

定义:

模型一次能"看到"和"记住"的文本长度

常见规格:

实际意义:


1.2.1 生成参数详解:Temperature、Top-p、Top-k

这三个参数直接控制大模型的"创造性"和"随机性",是调优Agent输出质量的关键。

Temperature(温度系数)

作用:控制概率分布的"平坦度"

温度值 效果 适用场景
0 完全确定性,永远选概率最高的词 代码生成、事实问答、严谨写作
0.3~0.7 平衡,既有创意又不会太离谱 日常对话、通用写作
1.0+ 高随机性,创意丰富但容易跑偏 创意写作、头脑风暴

通俗理解: 温度越低,模型越"保守";温度越高,模型越"放飞自我"。


Top-k采样

作用:只从概率最高的前k个词中选择

通俗理解: 就像考试做选择题,Top-k是"只在我最有把握的k个选项里蒙"。


Top-p(核采样 Nucleus Sampling)

作用:从累积概率达到p的最小词集中选择

通俗理解: Top-p是"把我有把握的选项加起来,直到覆盖率达到p%,然后在这个范围内选择"。


参数组合建议

场景 Temperature Top-p 说明
代码生成 0.1~0.3 0.1 精确优先
事实问答 0.2~0.4 0.3 准确优先
邮件/公文 0.3~0.5 0.5 专业稳重
日常对话 0.7 0.9 自然流畅
写诗/创意 1.0+ 1.0 天马行空

1.3 大模型的"记忆特点"

✅ 擅长的事情

❌ 不擅长的事情


本节小结

  1. **大模型本质:猜下一个字的概率模型
  2. 三大要素: 训练数据、参数规模、上下文窗口
  3. 能力边界: 知道很多,但不是万能
  4. 核心局限: 基于概率,不是事实

AI大模型与Agent实战入门

第一模块:理论基础

第2节:幻觉的本质与约束机制


本节目标


2.1 什么是幻觉?

学术定义:

大模型幻觉(Hallucination)是指模型生成的内容在语法上正确、逻辑上连贯,但与事实不符、无中生有或引用不存在的信息的现象。

—— 斯坦福大学《Foundation Models Report》

行业研究数据(2025年):

研究机构 幻觉发生率 测试场景
OpenAI GPT-4o 约 5~10% 事实问答
Anthropic Claude 3 Opus 约 3~7% 长文档问答
复旦大学MOSS团队 中文模型普遍 10~20% 中文知识问答

关键发现: 中文模型的幻觉发生率普遍高于英文模型,主要原因是中文训练数据质量参差不齐。

典型特征:


现场演示:容易产生幻觉的问题

问题1: "请介绍一下2025年诺贝尔文学奖得主的代表作"

问题2: "诸葛亮的《出师表》中提到了哪些魏国将领?"

问题3: "请给我一个真实的身份证号码和对应的姓名


2.2 幻觉产生的根本原因

根源:概率生成 vs 事实记忆

| 人类思考方式不同:

人类: 记忆事实 → 检索记忆 → 输出事实
大模型: 统计概率 → 计算概率 → 输出概率最高的词

结论:

大模型"说"某个事实,不代表它"知道"这个事实是真的


2.3 幻觉产生的三种典型场景

真实幻觉案例 1:引用不存在的论文

用户问: "请引用几篇关于大模型幻觉检测的论文"

大模型回答:

"《Hallucination Detection in Large Language Models》(Smith et al., 2023, Nature)这篇论文提出了..."

真相: 这篇论文完全不存在,作者、期刊、年份全是编的。


真实幻觉案例 2:编造不存在的API

用户问: "OpenAI的Embedding API支持batch调用吗?"

大模型回答:

"是的,OpenAI Embedding API支持batch调用,使用/v1/embeddings/batch端点,可以一次传入最多1000个文本..."

真相: 根本没有/v1/embeddings/batch这个端点,OpenAI是直接在/v1/embeddings里传数组。


真实幻觉案例 3:法律条文编造

用户问: "中国《民法典》关于AI生成内容的版权问题是怎么规定的?"

大模型回答:

"根据《民法典》第1023条之二的规定,AI生成内容的版权归属于使用AI工具的自然人..."

真相: 《民法典》里根本没有"第1023条之二",也没有任何关于AI版权的条文。


场景 1:知识盲区

场景 2:信息混淆

场景 3:逻辑链条过长


本节思考题:

  1. **为什么大模型明明"不知道",却不会说"我不知道"?(提示:从训练目标的角度思考)
  2. **如果你要做一个Agent,你会用哪些方法来检测和减少幻觉?
  3. **RAG为什么能解决大部分幻觉问题?它的局限性是什么?

2.4 如何约束幻觉?

方法一:Harness层( harness)

作用: 在模型外面加一层"安全带"

**具体手段:
- 工具调用校验
- 输出格式约束
- 安全过滤
- 重试机制


方法二:Superpowers技能框架

核心思想:

用标准化流程替代"自由发挥"

具体手段:


2.5 为什么结构化流程能约束幻觉?

flowchart TD A[用户需求] --> B{自由发挥?} B -->|是| C[大模型直接输出
容易跑偏
幻觉多] B -->|否| D[标准化流程
Skill框架] D --> E[步骤1: 需求澄清
避免瞎猜] E --> F[步骤2: 方案设计
结构化输出] F --> G[步骤3: 结果验证
自动检查] G --> H[质量稳定
幻觉少] style C fill:#ff6b6b,stroke:#ee5a5a,color:#fff style H fill:#51cf66,stroke:#40c057,color:#fff style D fill:#667eea,stroke:#764ba2,color:#fff

对比实验:同样的任务,不同的结果

| 不用Superpowers:
- 自由发挥
- 容易跑偏
- 幻觉多
- 质量不稳定

| 用Superpowers:
- 按步骤来
- 每步验证
- 幻觉少
- 质量稳定


本节小结

  1. **幻觉本质:概率生成的天然副产品,不是模型"故意骗人"
  2. 产生场景: 知识盲区、信息混淆、逻辑过长
  3. 约束方法: Harness层 + Superpowers技能框架
  4. 核心思想: 用流程约束自由,用验证替代"自由发挥"