首页 /研究 /MuVAP:面向野外对话中的多模态多方语音活动投影与话轮转换预测
HRI

MuVAP:面向野外对话中的多模态多方语音活动投影与话轮转换预测

Haotian Qi, Gabriel Skantze

发表年份
2026
引用次数
0
访问权限
开放获取

摘要

本文提出MuVAP框架,通过将声学预测与面部轨迹结合,实现仅依赖单声道音频和单摄像头视图的说话人感知话轮转换预测。为解决多说话人建模的复杂性,引入角色相对投影方法,并构建了31小时无剪辑的多方对话数据集,实验表明该方法在话轮保持和下一说话人预测任务上优于强基线模型。

关键词

turn-taking predictionmultimodalvoice activity projectionhuman-robot interactionmultiparty conversation

相关论文

查看 HRI 分类全部论文