评测对比
← 返回评测任务任务 ID:
task-demo客服话术对比
关联评测集:客服基准集
规则配置
最多 10 条;符合度标识由评测引擎按规则自动打标(Mock)
结果对比视图
横向最多 4 列模型;表格可横向滚动查看。
Case
c1Group G1Input
查一下我的订单到哪了
Expected Output
应给出订单状态或查询路径
| 维度 | 模型 A(GPT) | 模型 B(通义) | 模型 C(本地) | 模型 D(备用) |
|---|---|---|---|---|
| 输出内容 | 您好,已为您查询订单,目前在配送中。 | 您好,订单状态如下:运输中。 | 订单查询失败。 | (空) |
| 耗时(ms) | 120 | 98 | 210 | 45 |
| Token 消耗 | 42 | 38 | 28 | 5 |
| 符合度 | 通过 | 通过 | 未通过 | 未通过 |
Case
c2Group G1Input
我要退款
Expected Output
应说明退款政策或引导操作
| 维度 | 模型 A(GPT) | 模型 B(通义) |
|---|---|---|
| 输出内容 | 好的,退款需满足 7 天无理由条件,已为您发起流程。 | 抱歉无法退款。 |
| 耗时(ms) | 156 | 72 |
| Token 消耗 | 55 | 12 |
| 符合度 | 通过 | 未通过 |