🏗️ Infrastructure Layer 基础设施层

🧠 Foundation Models 基础模型层

⚙️ Framework & Orchestration 框架编排层

🔧 Tools & Integration 工具集成层

🚀 Application Layer 应用层

☁️ Cloud Providers

AWS (Bedrock, SageMaker)
Azure (OpenAI Service)
GCP (Vertex AI)
阿里云 (通义系列)

按需扩展 | 全球部署

🖥️ GPU/TPU 算力

NVIDIA H100/A100
Google TPU v5p
AMD MI300X
华为昇腾 910B

推理加速 | 训练集群

🗄️ Vector Database

Pinecone (托管服务)
Milvus (开源分布式)
Qdrant (Rust高性能)
Chroma (轻量嵌入式)

向量检索 | 语义搜索

💾 Data & Storage

S3/OSS 对象存储
Redis 缓存层
PostgreSQL + pgvector
OpenSearch 全文+向量

数据湖 | 混合检索

📊 Observability

LangSmith 调试追踪
Helicone 代理监控
Prometheus 指标
OpenTelemetry 链路

Token统计 | 成本分析

🌐 API Gateway

LiteLLM 统一代理
OpenRouter 路由聚合
Portkey 可靠性网关
Kong API管理

负载均衡 | 故障转移

🤖 OpenAI 系列

模型	特点
GPT-4o	多模态旗舰
GPT-4.1	推理增强
o1/o3	深度思考

128K context | Function Call

🎭 Anthropic Claude

模型	特点
Opus 4.5	超强推理
Sonnet 4	速度均衡
Haiku	极速响应

200K context | Extended Think

💎 Google Gemini

模型	特点
Ultra 2.5	多模态王者
Pro 2.5	生产主力
Flash	闪电推理

1M context | Grounding

🦙 开源模型

模型	参数
Llama 3.3	70B
Qwen 2.5	72B
DeepSeek V3	MoE

本地部署 | 微调友好

🔢 Embedding 模型

text-embedding-3
voyage-3
bge-m3 (多语言)
jina-embeddings-v3

3072维 | 语义向量化

🎨 多模态模型

DALL·E 3 图像生成
Sora 视频生成
Whisper 语音识别
ElevenLabs TTS

视觉理解 | 内容生成

🦜 LangChain

最流行的 LLM 应用框架

Chains (链式调用)
Agents (智能代理)
Memory (对话记忆)
Callbacks (回调钩子)

Python | TypeScript

🦙 LlamaIndex

数据框架专家

Data Connectors
Index Structures
Query Engines
Response Synthesis

RAG首选 | 知识库

🤖 Agent SDK

下一代 Agent 框架

Claude Agent SDK
OpenAI Agents SDK
AutoGen (微软)
CrewAI (多智能体)

自主决策 | 工具调用

🔌 MCP 协议

Model Context Protocol

Tools (工具能力)
Resources (资源访问)
Prompts (提示模板)
Sampling (采样控制)

标准化 | 可扩展

⚡ Inference Engine

vLLM 高吞吐
SGLang 结构化生成
TensorRT-LLM
llama.cpp 边缘

KV缓存 | 批处理

🔄 Workflow Engine

Dify 可视化编排
Flowise 低代码
n8n 自动化
Temporal 编排

DAG流程 | 人机协作

📚 RAG 系统

检索增强生成

Query → Retrieve → Augment → Generate

语义切片 | 混合检索
Rerank重排 | 上下文压缩
GraphRAG | 知识图谱

🛠️ Function Calling

工具调用能力

{
  "name": "search",
  "arguments": {...}
}

结构化输出
并行调用
错误恢复

🔧 MCP Servers

热门工具服务

类型	示例
文件	filesystem
搜索	brave, exa
代码	github
数据	postgres

🧠 Memory 记忆系统

长短期记忆管理

Buffer 短期缓存
Summary 摘要压缩
Entity 实体追踪
Vector 语义记忆

个性化 | 持久化

🛡️ Guardrails

安全护栏

输入验证
输出过滤
毒性检测
幻觉检查

合规 | 可信AI

📏 Evaluation

评估框架

RAGAS RAG评估
DeepEval 单元测试
promptfoo 提示测试
LMSys 竞技场

基准测试 | A/B实验

💻 AI 编程助手

代码生成 | 智能补全 | 重构

产品	特点
Cursor	IDE深度集成
Claude Code	CLI Agent
GitHub Copilot	生态完善
Windsurf	流式编辑

Agentic Coding | Vibe Coding

💬 AI 对话助手

问答 | 创作 | 分析

产品	公司
ChatGPT	OpenAI
Claude.ai	Anthropic
Gemini	Google
Kimi	月之暗面

多模态 | 联网搜索

🤖 自主 Agent

规划 | 执行 | 反思

产品	能力
Devin	软件工程
AutoGPT	通用任务
BabyAGI	任务分解
MetaGPT	多角色协作

自我迭代 | 工具编排

🔍 AI 搜索引擎

深度研究 | 多源整合

产品	特点
Perplexity	对话式搜索
Grok	实时推特
秘塔AI	深度搜索

引用溯源 | 知识图谱

🏢 垂直领域 Agent

专业场景深度定制

领域	应用
法律	Harvey AI
医疗	Med-PaLM
金融	Bloomberg GPT
客服	Intercom Fin

领域知识 | 合规安全

🌌 AI Agent 技术生态全景图

From Infrastructure to Intelligence | 2025

📋 图例

🔴 应用层 用户直接交互

🟠 工具集成层 能力扩展

🟢 框架编排层 开发抽象

🔵 基础模型层 智能核心

🟣 基础设施层 底层支撑

→ 数据/控制流向

🔄 典型调用链

用户输入
   ↓
应用层处理
   ↓
工具调用/RAG
   ↓
框架编排
   ↓
LLM推理
   ↓
基础设施