通义实验室推出通用智能体评测基准 PawBench
金十数据 6 月 5 日讯,通义实验室推出评测基准 PawBench,v1.0 版本已开源。它面向个人助理与通用智能体场景,将底座模型与运行框架(Harness)纳入同一评测体系。据介绍,PawBench 不是单纯做一个模型排行榜,而是把“模型、Harness、任务”三者放在一起做交叉评测。
 
 
Back to Top