首页 /研究 /我们究竟在机器人操作基准测试中衡量什么?
MANIPULATION

我们究竟在机器人操作基准测试中衡量什么?

Tianchong Jiang, Xiangshan Tan, Samuel Wheeler, Luzhe Sun, Tewodros W. Ayalew, Matthew Walter

发表年份
2026
引用次数
0
访问权限
开放获取

摘要

本文指出机器人操作基准测试存在四种失效模式,包括捷径可解性、缺乏统计显著性、渐进过拟合和数据源依赖,并提出相应的诊断方法。通过对多个流行基准的审计,发现许多声称的进展缺乏统计支持,且小模型在部分基准上可达到或接近最先进水平。

关键词

benchmark auditingmanipulationfailure modesstatistical significanceoverfitting

相关论文

查看 MANIPULATION 分类全部论文