基础研发域/原生智能体设计·ZeroAgent系统/评测对比/评测任务/task-demo

评测对比

← 返回评测任务任务 ID:task-demo

客服话术对比

关联评测集:客服基准集

规则配置

最多 10 条;符合度标识由评测引擎按规则自动打标(Mock)

结果对比视图

横向最多 4 列模型;表格可横向滚动查看。

Case c1Group G1
Input

查一下我的订单到哪了

Expected Output

应给出订单状态或查询路径

维度模型 A(GPT)模型 B(通义)模型 C(本地)模型 D(备用)
输出内容您好,已为您查询订单,目前在配送中。您好,订单状态如下:运输中。订单查询失败。(空)
耗时(ms)1209821045
Token 消耗4238285
符合度通过通过未通过未通过
Case c2Group G1
Input

我要退款

Expected Output

应说明退款政策或引导操作

维度模型 A(GPT)模型 B(通义)
输出内容好的,退款需满足 7 天无理由条件,已为您发起流程。抱歉无法退款。
耗时(ms)15672
Token 消耗5512
符合度通过未通过