🏗️ Infrastructure Layer 基础设施层
🧠 Foundation Models 基础模型层
⚙️ Framework & Orchestration 框架编排层
🔧 Tools & Integration 工具集成层
🚀 Application Layer 应用层

☁️ Cloud Providers

  • AWS (Bedrock, SageMaker)
  • Azure (OpenAI Service)
  • GCP (Vertex AI)
  • 阿里云 (通义系列)

按需扩展 | 全球部署

🖥️ GPU/TPU 算力

  • NVIDIA H100/A100
  • Google TPU v5p
  • AMD MI300X
  • 华为 昇腾 910B

推理加速 | 训练集群

🗄️ Vector Database

  • Pinecone (托管服务)
  • Milvus (开源分布式)
  • Qdrant (Rust高性能)
  • Chroma (轻量嵌入式)

向量检索 | 语义搜索

💾 Data & Storage

  • S3/OSS 对象存储
  • Redis 缓存层
  • PostgreSQL + pgvector
  • OpenSearch 全文+向量

数据湖 | 混合检索

📊 Observability

  • LangSmith 调试追踪
  • Helicone 代理监控
  • Prometheus 指标
  • OpenTelemetry 链路

Token统计 | 成本分析

🌐 API Gateway

  • LiteLLM 统一代理
  • OpenRouter 路由聚合
  • Portkey 可靠性网关
  • Kong API管理

负载均衡 | 故障转移

🤖 OpenAI 系列

模型 特点
GPT-4o 多模态旗舰
GPT-4.1 推理增强
o1/o3 深度思考
128K context | Function Call

🎭 Anthropic Claude

模型 特点
Opus 4.5 超强推理
Sonnet 4 速度均衡
Haiku 极速响应
200K context | Extended Think

💎 Google Gemini

模型 特点
Ultra 2.5 多模态王者
Pro 2.5 生产主力
Flash 闪电推理
1M context | Grounding

🦙 开源模型

模型 参数
Llama 3.3 70B
Qwen 2.5 72B
DeepSeek V3 MoE
本地部署 | 微调友好

🔢 Embedding 模型

  • text-embedding-3
  • voyage-3
  • bge-m3 (多语言)
  • jina-embeddings-v3
3072维 | 语义向量化

🎨 多模态模型

  • DALL·E 3 图像生成
  • Sora 视频生成
  • Whisper 语音识别
  • ElevenLabs TTS
视觉理解 | 内容生成

🦜 LangChain

最流行的 LLM 应用框架

  • Chains (链式调用)
  • Agents (智能代理)
  • Memory (对话记忆)
  • Callbacks (回调钩子)

Python | TypeScript

🦙 LlamaIndex

数据框架专家

  • Data Connectors
  • Index Structures
  • Query Engines
  • Response Synthesis

RAG首选 | 知识库

🤖 Agent SDK

下一代 Agent 框架

  • Claude Agent SDK
  • OpenAI Agents SDK
  • AutoGen (微软)
  • CrewAI (多智能体)

自主决策 | 工具调用

🔌 MCP 协议

Model Context Protocol

  • Tools (工具能力)
  • Resources (资源访问)
  • Prompts (提示模板)
  • Sampling (采样控制)

标准化 | 可扩展

⚡ Inference Engine

  • vLLM 高吞吐
  • SGLang 结构化生成
  • TensorRT-LLM
  • llama.cpp 边缘

KV缓存 | 批处理

🔄 Workflow Engine

  • Dify 可视化编排
  • Flowise 低代码
  • n8n 自动化
  • Temporal 编排

DAG流程 | 人机协作

📚 RAG 系统

检索增强生成

Query → Retrieve → Augment → Generate
  • 语义切片 | 混合检索
  • Rerank重排 | 上下文压缩
  • GraphRAG | 知识图谱

🛠️ Function Calling

工具调用能力

{
  "name": "search",
  "arguments": {...}
}
  • 结构化输出
  • 并行调用
  • 错误恢复

🔧 MCP Servers

热门工具服务

类型 示例
文件 filesystem
搜索 brave, exa
代码 github
数据 postgres

🧠 Memory 记忆系统

长短期记忆管理

  • Buffer 短期缓存
  • Summary 摘要压缩
  • Entity 实体追踪
  • Vector 语义记忆

个性化 | 持久化

🛡️ Guardrails

安全护栏

  • 输入验证
  • 输出过滤
  • 毒性检测
  • 幻觉检查

合规 | 可信AI

📏 Evaluation

评估框架

  • RAGAS RAG评估
  • DeepEval 单元测试
  • promptfoo 提示测试
  • LMSys 竞技场

基准测试 | A/B实验

💻 AI 编程助手

代码生成 | 智能补全 | 重构

产品 特点
Cursor IDE深度集成
Claude Code CLI Agent
GitHub Copilot 生态完善
Windsurf 流式编辑

Agentic Coding | Vibe Coding

💬 AI 对话助手

问答 | 创作 | 分析

产品 公司
ChatGPT OpenAI
Claude.ai Anthropic
Gemini Google
Kimi 月之暗面

多模态 | 联网搜索

🤖 自主 Agent

规划 | 执行 | 反思

产品 能力
Devin 软件工程
AutoGPT 通用任务
BabyAGI 任务分解
MetaGPT 多角色协作

自我迭代 | 工具编排

🔍 AI 搜索引擎

深度研究 | 多源整合

产品 特点
Perplexity 对话式搜索
Grok 实时推特
秘塔AI 深度搜索

引用溯源 | 知识图谱

🏢 垂直领域 Agent

专业场景深度定制

领域 应用
法律 Harvey AI
医疗 Med-PaLM
金融 Bloomberg GPT
客服 Intercom Fin

领域知识 | 合规安全

🌌 AI Agent 技术生态全景图

From Infrastructure to Intelligence | 2025

📋 图例


🔴 应用层 用户直接交互

🟠 工具集成层 能力扩展

🟢 框架编排层 开发抽象

🔵 基础模型层 智能核心

🟣 基础设施层 底层支撑


→ 数据/控制流向

🔄 典型调用链

用户输入
   ↓
应用层处理
   ↓
工具调用/RAG
   ↓
框架编排
   ↓
LLM推理
   ↓
基础设施
向量化协议实现工具调用记忆增强安全合规本地推理监控指标