基础研发域/原生智能体设计·ZeroAgent系统/评测对比/评测任务/task-demo

评测对比

评测集评测规则评测任务

← 返回评测任务任务 ID：task-demo

客服话术对比

关联评测集：客服基准集

规则配置

最多 10 条；符合度标识由评测引擎按规则自动打标（Mock）

结果对比视图

横向最多 4 列模型；表格可横向滚动查看。

Case c1Group G1

Input

查一下我的订单到哪了

Expected Output

应给出订单状态或查询路径

维度	模型 A（GPT）	模型 B（通义）	模型 C（本地）	模型 D（备用）
输出内容	您好，已为您查询订单，目前在配送中。	您好，订单状态如下：运输中。	订单查询失败。	（空）
耗时(ms)	120	98	210	45
Token 消耗	42	38	28	5
符合度	通过	通过	未通过	未通过

Case c2Group G1

Input

我要退款

Expected Output

应说明退款政策或引导操作

维度	模型 A（GPT）	模型 B（通义）
输出内容	好的，退款需满足 7 天无理由条件，已为您发起流程。	抱歉无法退款。
耗时(ms)	156	72
Token 消耗	55	12
符合度	通过	未通过