
随着大型语言模型(LLMs)发展成为能够与数字环境互动的自主代理,建立可信且透明的评估框架的需求变得至关重要。传统基准通常依赖于不透明的指标或缺乏可审计性的自我评估机制,这使得验证代理在现实场景中是否可靠行为变得困难。DrawingBench通过引入一个可验证的评估框架来填补这一空白,该框架通过基于鼠标的绘图任务评估LLMs的空间推理和用户界面(UI)交互能力。其核心创新在于透明性:DrawingBench不依赖于主观或黑箱评分,而是使用八个客观的规则基础标准来评估代理行为,使利益相关者能够在行动层面检查和重现结果。这种方法支持外部监督,允许通过结构化反馈进行人机协作的改进。动机源于代理系统在安全关键领域(如医疗保健、工业自动化和客户服务)的日益部署,在这些领域中,信任不仅必须通过性能建立,还必须通过可验证、可审计的行为建立。通过要求模型生成低级GUI动作序列(例如,moveTo、click、mouseDown)以完成空间绘图任务,DrawingBench测试了一种独特的技能组合:理解自然语言指令、进行精确的空间推理、管理工具状态和执行长远的行动计划——所有这些都不依赖于视觉感知。这种仅文本的范式挑战了空间任务需要视觉的假设,证明LLMs可以仅通过内部表示推理坐标系统和几何关系。该框架包括250个多样化的提示,涵盖20个类别和四个难度级别,确保广泛覆盖空间推理挑战。至关重要的是,DrawingBench引入了一个多轮反馈协议,模型在初次尝试后会收到确定性、基于规则的反馈,并被允许改进其输出。这种设计使得研究迭代改进和外部控制成为可能,提供了人类监督如何比自我修正更有效地引导代理行为的见解。对四个最先进的LLMs——Claude-4 Sonnet、GPT-4.1、GPT-4.1-mini和Gemini-2.5 Flash进行的1,000次测试的实证评估显示,模型达到了高基线性能(92.8%的完美分数),结构化反馈推动了显著的改进,尤其是在复杂任务上。这些发现强调了规范清晰性的重要性,而不是固有任务复杂性,这一现象被称为“难度悖论”。总体而言,DrawingBench为可信的代理评估提供了一个新颖的模板,结合了严格、可重复的评估与外部控制和改进机制。