首页 /研究 /Colosseum V2:视觉语言动作模型泛化能力基准测试
MANIPULATION开放获取

Colosseum V2:视觉语言动作模型泛化能力基准测试

Jeremy Morgan, Prajwal Vijay, Hyeonho Oh, Jincen Song, Ashvin Arora, Alina Du, Gaurav Sukhatme, Jesse Thomason, Ishika Singh

2026

摘要

本文提出了Colosseum V2,一个用于评估机器人操作中视觉语言动作模型泛化能力的大规模仿真基准。该基准包含28个任务,覆盖多种操作原语和长时域行为,揭示了当前模型在分布偏移下性能下降的局限性。

关键词

benchmarkgeneralizationvision-language-actionsimulationrobot manipulation

相关论文