预训练阶段 (Pretraining)

Tokenization (分词)

  • 文本编码为一维token序列
  • 使用Byte Pair Encoding (BPE)
  • GPT-4词汇表约100,277个token
  • 示例: Hello world → 2个token
  • 压缩序列长度提高效率

推理阶段

  • 基于输入生成下一个token
  • 概率性生成方式
  • 非记忆原文,是统计模式重混
  • 核心是token预测

监督微调 (SFT)

  • 将基础模型转为助手模型
  • 使用人类标注对话数据
  • 遵循helpful/truthful/harmless原则
  • 数据集: InstructGPT, OpenAssistant
  • 标注者生成理想回答

模型能力

  • few-shot prompting
  • 翻译、问答等任务
  • 模拟助手行为
  • 上下文学习 (in-context learning)
  • 从prompt中学习模式

模型记忆

  • 可能记住高频文本
  • 如维基百科内容
  • 基于统计概率
  • 非确切存储方式
  • 可通过prompt激活

幻觉 (Hallucination)

  • 可能生成不存在的信息
  • 对未来事件做出猜测
  • 基于训练前知识推断
  • 例如对2024年大选的预测

硬件与计算资源

  • 高性能GPU (H100)
  • 云端大规模训练
  • 训练成本高昂
  • 数百万美元投入
  • 需要数月训练时间

总结

  • LLM核心: 预测token的Transformer
  • 预训练提供语言能力
  • 后训练赋予任务能力
  • 理解'心理模型'有助于更好使用
  • 行为基于统计
  • 能力来源于大规模文本数据
  • 不断发展的技术领域