原始数据 使用 npz 压缩打包 里面是jsonl,每行都是json数据,上百个key process 数据清洗elasticsearchembedding 源数据示例embedding 源数据示例linkedin 公司的原数据 + embedding 后示例json数据示例json数据npz 的 文件列表结构解析npz 的 文件列表结构解析公司id + embedding 256维数据fileds新增和更改,重新落库[[大数据ETL - 数据分析师|ETL]]