AWS上进行
之前是放在谷歌云上面
common type json
向晏铭提问
raw-data数据放哪了 process的函数在哪
现在的处理流程,端到端演示操作一下。
company 4000万条数据 employee 几亿条数据
raw-data 量级:几千万条
linkedin数据
embedding type json 3个key需要,比如简介
公司本地服务器 localserver
ssh dong@192.168.10.117
/data目录
浙大实验室远程服务器 6台4090
任务目标
目前处理速度是400条/s 使用[[在aws服务器上面直接跑一下 benchmark,找到性能瓶颈]]
final json
合成一个index到es
pipeline 以[[lamda function]]为主,就是serverless的function函数
s3
目前s3里面已有的,就是
ocu从4改成8,是否能
嵌入向量搜索后,耗时5分钟。
数据处理流程图
graph TB
subgraph "数据源"
A[原始LinkedIn数据] --> B[本地文件系统<br>/data/google-cloud-data/]
A --> C[实时数据流<br>AWS事件]
end
subgraph "处理层"
D[LinkedinCompanyDataProcessor<br>项目核心处理器]
E[DataProcessor<br>Lambda内嵌处理器]
end
subgraph "执行环境"
F[本地服务器/集群<br>process_us_companies_to_es.py]
G[AWS Lambda<br>lamda-function.py]
end
subgraph "存储层"
H[Elasticsearch/OpenSearch<br>索引存储]
I[Embeddings文件<br>NPZ格式]
end
%% 数据流
B --> F
C --> G
%% 处理关系
F --> D
G --> E
%% 依赖关系
D -.->|共享逻辑| E
%% 存储关系
F --> H
G --> H
I --> F
%% 样式
classDef sourceClass fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
classDef processClass fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
classDef envClass fill:#e8f5e8,stroke:#388e3c,stroke-width:2px
classDef storageClass fill:#fff3e0,stroke:#f57c00,stroke-width:2px
class A,B,C sourceClass
class D,E processClass
class F,G envClass
class H,I storageClass