Datasets & Testing LLM自动评估 全生命周期LLMOps - prompts持续改进Chains基于数据集,选择chain,执行测试用例添加测试用例 add example user的提示词预设的评估兔宝ai兔宝ai映兔aigc - AI编辑器映兔aigc - AI编辑器单次提问-无上下文单次提问-无上下文创建数据集 Datasets自定义评估以上形式,本质均是对一次chain 的Run 进行打分显式反馈用户反馈对比不同chain的Output翻查Projects日志记录,筛选优质提示词Annotation QueuesLLM自动评估人工标注 自研提示词隐式反馈好的提示词,纳为己用筛选优质Run,继续打分