多节点多卡
单节点多卡
爬虫模块
单节点单卡
单节点单卡
query 来自用户
中间层,调度层,暴露
cpu消耗的任务
chunk 再reranker 结合之前之前url的摘要
summary llm
scrape.do
httpx,
知乎这些可能搜不到,fallback到scrape.do
reranker
取 topk,比如选12个url,允许只抓到60%
rewrite 出多个子query
GPU1
GPU1
GPU1
- 1台机子上4张卡,做动态平衡
- 接着,做多台机子的动态平衡。
这里100个用户,可能产生5w个请求,这里很可能成为瓶颈,
- 将httpx和scrape.do包装成服务,带宽的网速瓶颈
- 然后serp api,可能有tcp连接数的瓶颈。
reranker部分,对gpu的资源消耗,以及其延迟,可以忽略不计
GPU0
GPU1
GPU0