预训练阶段 (Pretraining)
Tokenization (分词)
- 文本编码为一维token序列
- 使用Byte Pair Encoding (BPE)
- GPT-4词汇表约100,277个token
- 示例:
Hello world→ 2个token - 压缩序列长度提高效率
推理阶段
- 基于输入生成下一个token
- 概率性生成方式
- 非记忆原文,是统计模式重混
- 核心是token预测
监督微调 (SFT)
- 将基础模型转为助手模型
- 使用人类标注对话数据
- 遵循helpful/truthful/harmless原则
- 数据集: InstructGPT, OpenAssistant
- 标注者生成理想回答
模型能力
- few-shot prompting
- 翻译、问答等任务
- 模拟助手行为
- 上下文学习 (in-context learning)
- 从prompt中学习模式
模型记忆
- 可能记住高频文本
- 如维基百科内容
- 基于统计概率
- 非确切存储方式
- 可通过prompt激活
幻觉 (Hallucination)
- 可能生成不存在的信息
- 对未来事件做出猜测
- 基于训练前知识推断
- 例如对2024年大选的预测
硬件与计算资源
- 高性能GPU (H100)
- 云端大规模训练
- 训练成本高昂
- 数百万美元投入
- 需要数月训练时间
总结
- LLM核心: 预测token的Transformer
- 预训练提供语言能力
- 后训练赋予任务能力
- 理解'心理模型'有助于更好使用
- 行为基于统计
- 能力来源于大规模文本数据
- 不断发展的技术领域