多节点多卡
单节点多卡
爬虫模块
单节点单卡
单节点单卡

query 来自用户

中间层,调度层,暴露

cpu消耗的任务

chunk 再reranker 结合之前之前url的摘要

summary llm

scrape.do

httpx,
知乎这些可能搜不到,fallback到scrape.do

reranker
取 topk,比如选12个url,允许只抓到60%

rewrite 出多个子query

GPU1

GPU1

GPU1

  • 1台机子上4张卡,做动态平衡
  • 接着,做多台机子的动态平衡。

这里100个用户,可能产生5w个请求,这里很可能成为瓶颈,

  • 将httpx和scrape.do包装成服务,带宽的网速瓶颈
  • 然后serp api,可能有tcp连接数的瓶颈。

reranker部分,对gpu的资源消耗,以及其延迟,可以忽略不计

GPU0

GPU1

GPU0

爬全文爬全文使用成熟方案、不造轮子