llm原理

🌱 oldwinterの数字花园

预训练阶段 (Pretraining)

Tokenization (分词)

文本编码为一维token序列
使用Byte Pair Encoding (BPE)
GPT-4词汇表约100,277个token
示例: Hello world → 2个token
压缩序列长度提高效率

推理阶段

基于输入生成下一个token
概率性生成方式
非记忆原文，是统计模式重混
核心是token预测

监督微调 (SFT)

将基础模型转为助手模型
使用人类标注对话数据
遵循helpful/truthful/harmless原则
数据集: InstructGPT, OpenAssistant
标注者生成理想回答

模型能力

few-shot prompting
翻译、问答等任务
模拟助手行为
上下文学习 (in-context learning)
从prompt中学习模式

模型记忆

可能记住高频文本
如维基百科内容
基于统计概率
非确切存储方式
可通过prompt激活

幻觉 (Hallucination)

可能生成不存在的信息
对未来事件做出猜测
基于训练前知识推断
例如对2024年大选的预测

硬件与计算资源

高性能GPU (H100)
云端大规模训练
训练成本高昂
数百万美元投入
需要数月训练时间

总结

LLM核心: 预测token的Transformer
预训练提供语言能力
后训练赋予任务能力
理解'心理模型'有助于更好使用
行为基于统计
能力来源于大规模文本数据
不断发展的技术领域

shockerli-go-awesome- Go 语言优秀资源整理，为项目落地加速🏃-2025-01-15

shockerli-go-awesome- Go 语言优秀资源整理，为项目落地加速🏃-2025-01-15