🌱 oldwinterの数字花园

原始数据

  • 使用 npz 压缩打包
  • 里面是jsonl,每行都是json数据,上百个key

process 数据清洗

elasticsearch

embedding 源数据示例
embedding 源数据示例

linkedin 公司的原数据 + embedding 后

示例json数据
示例json数据
npz 的 文件列表结构解析
npz 的 文件列表结构解析

公司id + embedding 256维数据

fileds新增和更改,重新落库

[[大数据ETL - 数据分析师|ETL]]