AWS上进行
之前是放在谷歌云上面

common type json

向晏铭提问

raw-data数据放哪了 process的函数在哪

现在的处理流程,端到端演示操作一下。

company 4000万条数据 employee 几亿条数据

raw-data 量级:几千万条

linkedin数据

embedding type json 3个key需要,比如简介

公司本地服务器 localserver

ssh dong@192.168.10.117

/data目录

浙大实验室远程服务器 6台4090

任务目标

目前处理速度是400条/s 使用[[在aws服务器上面直接跑一下 benchmark,找到性能瓶颈]]

final json

合成一个index到es

pipeline 以[[lamda function]]为主,就是serverless的function函数

s3

目前s3里面已有的,就是

ocu从4改成8,是否能

嵌入向量搜索后,耗时5分钟。

数据处理流程图

graph TB
    subgraph "数据源"
        A[原始LinkedIn数据] --> B[本地文件系统<br>/data/google-cloud-data/]
        A --> C[实时数据流<br>AWS事件]
    end
    
    subgraph "处理层"
        D[LinkedinCompanyDataProcessor<br>项目核心处理器]
        E[DataProcessor<br>Lambda内嵌处理器]
    end
    
    subgraph "执行环境"
        F[本地服务器/集群<br>process_us_companies_to_es.py]
        G[AWS Lambda<br>lamda-function.py]
    end
    
    subgraph "存储层"
        H[Elasticsearch/OpenSearch<br>索引存储]
        I[Embeddings文件<br>NPZ格式]
    end
    
    %% 数据流
    B --> F
    C --> G
    
    %% 处理关系
    F --> D
    G --> E
    
    %% 依赖关系
    D -.->|共享逻辑| E
    
    %% 存储关系
    F --> H
    G --> H
    I --> F
    
    %% 样式
    classDef sourceClass fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    classDef processClass fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
    classDef envClass fill:#e8f5e8,stroke:#388e3c,stroke-width:2px
    classDef storageClass fill:#fff3e0,stroke:#f57c00,stroke-width:2px
    
    class A,B,C sourceClass
    class D,E processClass
    class F,G envClass
    class H,I storageClass
存储到process实时处理已经离线处理完