SalsaAgent：用于交互式舞蹈生成的多模态具身语言模型

Payam Jome Yazdian, Zoe Stanley, Angelica Lim

摘要

本文提出SalsaAgent，一种能够根据人类领舞和音乐背景生成全身萨尔萨舞动作的语言模型。通过将交互建模为非语言运动令牌传递，并采用两阶段令牌到扩散管道，该方法在运动质量、音乐与伙伴协调性以及双人空间行为一致性上显著优于基线。

dance generationmultimodallanguage modelhuman-robot interactionmotion token

HRI

📊 3,196 引用

Masahiro Mori, Karl F. MacDorman, Norri Kageki

2012

HRI

开放获取📊 3,034 引用

Christoph Bartneck, Dana Kulić, Elizabeth A. Croft 等 4 位作者

2008

HRI

📊 1,925 引用

Kazuo Hirai, Masato Hirose, Y. Haikawa 等 4 位作者

2002

HRI

📊 1,914 引用

Peter A. Hancock, Deborah R. Billings, Kristin E. Schaefer 等 6 位作者

2011