🌱 oldwinterの数字花园

Datasets & Testing LLM自动评估全生命周期

LLMOps - prompts持续改进

Chains

基于数据集，选择chain，执行测试用例

添加测试用例 add example

user的提示词

预设的评估

映兔aigc - AI编辑器

映兔aigc - AI编辑器

单次提问-无上下文

单次提问-无上下文

创建数据集 Datasets

自定义评估

以上形式，本质均是对一次chain 的Run 进行打分

显式反馈

用户反馈

对比不同chain的Output

翻查Projects日志记录，筛选优质提示词

Annotation Queues

LLM自动评估

人工标注

自研提示词

隐式反馈