知道该问什么的机器人：通过定向解释恢复未对齐的奖励

Helena Merker, Nick Walker, Andreea Bobu

摘要

本文提出一种框架，通过检测演示中未充分指定的特征，并主动请求针对性的纠正演示来恢复奖励函数。关键创新在于利用特征在演示中的统计变异性识别模糊特征，并通过自然语言解释引导用户提供有效补充数据。

reward learningactive learningexplanationhuman-robot interactiondemonstration

HRI

📊 3,196 引用

Masahiro Mori, Karl F. MacDorman, Norri Kageki

2012

HRI

开放获取📊 3,034 引用

Christoph Bartneck, Dana Kulić, Elizabeth A. Croft 等 4 位作者

2008

HRI

📊 1,925 引用

Kazuo Hirai, Masato Hirose, Y. Haikawa 等 4 位作者

2002

HRI

📊 1,914 引用

Peter A. Hancock, Deborah R. Billings, Kristin E. Schaefer 等 6 位作者

2011