首页 /研究 /PointACT:具有多尺度点-动作交互的视觉-语言-动作模型
MANIPULATION开放获取

PointACT:具有多尺度点-动作交互的视觉-语言-动作模型

Shizhe Chen, Paul Pacaud, Cordelia Schmid

2026

摘要

PointACT提出一种双系统3D感知VLA策略,通过多尺度点-动作交互机制将分层3D点云表示直接集成到动作解码中。在LIBERO和RLBench基准上,该方法相比现有VLA基线取得了显著改进,尤其是在冻结视觉-语言骨干时优势更大。

关键词

VLA3D point cloudmulti-scale attentionrobot manipulationdual-system

相关论文