首页 /研究 /理解视觉与语言信息并与人类和环境交互的机器智能
PERCEPTION开放获取

理解视觉与语言信息并与人类和环境交互的机器智能

Van Quang Nguyen

2026

摘要

本文提出GRIT和LTMI等新型架构,改进图像描述、视觉对话和交互指令跟随等视觉-语言任务。通过整合网格与区域特征及轻量级注意力机制,提升了推理精度与速度。

关键词

image captioningvisual dialoginstruction followingtransformervision-language

相关论文