🏗️ Infrastructure Layer 基础设施层
🧠 Foundation Models 基础模型层
⚙️ Framework & Orchestration 框架编排层
🔧 Tools & Integration 工具集成层
🚀 Application Layer 应用层
☁️ Cloud Providers
- AWS (Bedrock, SageMaker)
- Azure (OpenAI Service)
- GCP (Vertex AI)
- 阿里云 (通义系列)
按需扩展 | 全球部署
🖥️ GPU/TPU 算力
- NVIDIA H100/A100
- Google TPU v5p
- AMD MI300X
- 华为 昇腾 910B
推理加速 | 训练集群
🗄️ Vector Database
- Pinecone (托管服务)
- Milvus (开源分布式)
- Qdrant (Rust高性能)
- Chroma (轻量嵌入式)
向量检索 | 语义搜索
💾 Data & Storage
- S3/OSS 对象存储
- Redis 缓存层
- PostgreSQL + pgvector
- OpenSearch 全文+向量
数据湖 | 混合检索
📊 Observability
- LangSmith 调试追踪
- Helicone 代理监控
- Prometheus 指标
- OpenTelemetry 链路
Token统计 | 成本分析
🌐 API Gateway
- LiteLLM 统一代理
- OpenRouter 路由聚合
- Portkey 可靠性网关
- Kong API管理
负载均衡 | 故障转移
🤖 OpenAI 系列
| 模型 | 特点 |
|---|---|
| GPT-4o | 多模态旗舰 |
| GPT-4.1 | 推理增强 |
| o1/o3 | 深度思考 |
128K context | Function Call
🎭 Anthropic Claude
| 模型 | 特点 |
|---|---|
| Opus 4.5 | 超强推理 |
| Sonnet 4 | 速度均衡 |
| Haiku | 极速响应 |
200K context | Extended Think
💎 Google Gemini
| 模型 | 特点 |
|---|---|
| Ultra 2.5 | 多模态王者 |
| Pro 2.5 | 生产主力 |
| Flash | 闪电推理 |
1M context | Grounding
🦙 开源模型
| 模型 | 参数 |
|---|---|
| Llama 3.3 | 70B |
| Qwen 2.5 | 72B |
| DeepSeek V3 | MoE |
本地部署 | 微调友好
🔢 Embedding 模型
- text-embedding-3
- voyage-3
- bge-m3 (多语言)
- jina-embeddings-v3
3072维 | 语义向量化
🎨 多模态模型
- DALL·E 3 图像生成
- Sora 视频生成
- Whisper 语音识别
- ElevenLabs TTS
视觉理解 | 内容生成
🦜 LangChain
最流行的 LLM 应用框架
- Chains (链式调用)
- Agents (智能代理)
- Memory (对话记忆)
- Callbacks (回调钩子)
Python | TypeScript
🦙 LlamaIndex
数据框架专家
- Data Connectors
- Index Structures
- Query Engines
- Response Synthesis
RAG首选 | 知识库
🤖 Agent SDK
下一代 Agent 框架
- Claude Agent SDK
- OpenAI Agents SDK
- AutoGen (微软)
- CrewAI (多智能体)
自主决策 | 工具调用
🔌 MCP 协议
Model Context Protocol
- Tools (工具能力)
- Resources (资源访问)
- Prompts (提示模板)
- Sampling (采样控制)
标准化 | 可扩展
⚡ Inference Engine
- vLLM 高吞吐
- SGLang 结构化生成
- TensorRT-LLM
- llama.cpp 边缘
KV缓存 | 批处理
🔄 Workflow Engine
- Dify 可视化编排
- Flowise 低代码
- n8n 自动化
- Temporal 编排
DAG流程 | 人机协作
📚 RAG 系统
检索增强生成
Query → Retrieve → Augment → Generate
- 语义切片 | 混合检索
- Rerank重排 | 上下文压缩
- GraphRAG | 知识图谱
🛠️ Function Calling
工具调用能力
{
"name": "search",
"arguments": {...}
}
- 结构化输出
- 并行调用
- 错误恢复
🔧 MCP Servers
热门工具服务
| 类型 | 示例 |
|---|---|
| 文件 | filesystem |
| 搜索 | brave, exa |
| 代码 | github |
| 数据 | postgres |
🧠 Memory 记忆系统
长短期记忆管理
- Buffer 短期缓存
- Summary 摘要压缩
- Entity 实体追踪
- Vector 语义记忆
个性化 | 持久化
🛡️ Guardrails
安全护栏
- 输入验证
- 输出过滤
- 毒性检测
- 幻觉检查
合规 | 可信AI
📏 Evaluation
评估框架
- RAGAS RAG评估
- DeepEval 单元测试
- promptfoo 提示测试
- LMSys 竞技场
基准测试 | A/B实验
💻 AI 编程助手
代码生成 | 智能补全 | 重构
| 产品 | 特点 |
|---|---|
| Cursor | IDE深度集成 |
| Claude Code | CLI Agent |
| GitHub Copilot | 生态完善 |
| Windsurf | 流式编辑 |
Agentic Coding | Vibe Coding
💬 AI 对话助手
问答 | 创作 | 分析
| 产品 | 公司 |
|---|---|
| ChatGPT | OpenAI |
| Claude.ai | Anthropic |
| Gemini | |
| Kimi | 月之暗面 |
多模态 | 联网搜索
🤖 自主 Agent
规划 | 执行 | 反思
| 产品 | 能力 |
|---|---|
| Devin | 软件工程 |
| AutoGPT | 通用任务 |
| BabyAGI | 任务分解 |
| MetaGPT | 多角色协作 |
自我迭代 | 工具编排
🔍 AI 搜索引擎
深度研究 | 多源整合
| 产品 | 特点 |
|---|---|
| Perplexity | 对话式搜索 |
| Grok | 实时推特 |
| 秘塔AI | 深度搜索 |
引用溯源 | 知识图谱
🏢 垂直领域 Agent
专业场景深度定制
| 领域 | 应用 |
|---|---|
| 法律 | Harvey AI |
| 医疗 | Med-PaLM |
| 金融 | Bloomberg GPT |
| 客服 | Intercom Fin |
领域知识 | 合规安全
🌌 AI Agent 技术生态全景图
From Infrastructure to Intelligence | 2025
📋 图例
🔴 应用层 用户直接交互
🟠 工具集成层 能力扩展
🟢 框架编排层 开发抽象
🔵 基础模型层 智能核心
🟣 基础设施层 底层支撑
→ 数据/控制流向
🔄 典型调用链
用户输入
↓
应用层处理
↓
工具调用/RAG
↓
框架编排
↓
LLM推理
↓
基础设施