Datasets & Testing LLM自动评估 全生命周期
LLMOps - prompts持续改进
Chains

基于数据集,选择chain,执行测试用例

添加测试用例 add example

user的提示词

预设的评估

创建数据集 Datasets

自定义评估

以上形式,本质均是对一次chain 的Run 进行打分

显式反馈

用户反馈

对比不同chain的Output

翻查Projects日志记录,筛选优质提示词

Annotation Queues

LLM自动评估

人工标注

自研提示词

隐式反馈

好的提示词,纳为己用筛选优质Run,继续打分