数据分析师对博主数据库进行处理,生成csv表格

当前的表格,还是有点过于标签化,metadata化。这种数据不确定embdding接口能不能很好地理解。待测试对比。

博主数据库(全量)

  • 个人信息
  • 个人简介
  • 历史笔记
  • 等等

prompt提示词编写

让chatgpt,将表格数据,转换成人话

本次待搜索数据or自然语句

初始数据csv

博主数据 (增量)

返回按照相似度降序的列表

存放方案1方案1查询,获得相似度数据方案2方案2方案2方案2embedding模型,对自然化语义描述效果更好,还是标签化描述效果更好?