Home /Research /Towards Vygotskian Autotelic Agents : Learning Skills with Goals, Language and Intrinsically Motivated Deep Reinforcement Learning
LEARNING

Towards Vygotskian Autotelic Agents : Learning Skills with Goals, Language and Intrinsically Motivated Deep Reinforcement Learning

Cédric Colas

Year
2021
Citations
2

Abstract

Concevoir des machines autonomes qui explorent des environnements larges, découvrent des interactions pertinentes et développent des répertoires de comportements non-bornés est un des défis majeurs en intelligence artificielle. Inspiré par le remarquable apprentissage de l'humain, l'apprentissage machine développemental étudie les mécanismes permettant aux machines d'auto-organiser leurs trajectoires développementales et de développer des répertoires de comportements. Notre recherche progresse vers ce but.L’apprentissage par renforcement (RL) entraîne des agents à contrôler leur environnement de sorte à maximiser des récompenses et apparaît donc adapté à notre objectif. Malgré ses récent succès---battre l’humains à certains jeux vidéos, aux échecs, au go ou contrôler des robots---le RL ne saurait être suffisant : les agents RL sont peu autonomes et montrent des comportements bornés car ils s'attaquent à de (petits) sets de tâches pré-définies, caractérisées par des fonctions de récompenses pré-codées. Dans cette recherche, nous proposons de transférer, d'adapter et d'étendre des idées issues d'une approche de robotique développementale appelée processus d'exploration de buts intrinsèquement motivés (IMGEP) aux méthodes de RL. Notre nouveau cadre algorithmique étend les techniques de RL conditionné par des buts pour développer des agents RL autotéliques: des agents intrinsèquement motivés à représenter, générer, poursuivre et maîtriser leurs propres buts en vue de développer des répertoires de comportements.L'acquisition efficace de répertoires de comportements non-bornés nécessite une génération créative de buts en dehors de la distribution des effets connus (exploration créative), la généralisation de comportements connus à des comportements nouveaux (généralisation systématique) et la capacité à composer des comportements connus pour en former de nouveaux (composition). Inspiré par la psychologie développementale, nous proposons d'utiliser le langage comme un outil cognitif de sorte à soutenir ces propriétés.Ce manuscrit est construit autour de deux notions: les buts et le langage. La première partie se concentre sur les buts. Elle couvre les concepts fondamentaux et la littérature associée traitant des motivations intrinsèques, de l'apprentissage par renforcement et de la robotique développementale avant d'introduire notre framework: les processus d'exploration de buts intrinsèquement motivés avec des politiques conditionnées par des buts (GC-IMGEP). À partir de ce cadre, nous présentons trois études computationnelles des propriétés des agents autotéliques. Nous montrons d'abord que l'exploration autotélique peut être utilisée pour résoudre des tâches nécessitant une importante exploration (étude 1: GEP-PG et 2: ME-ES). Nous proposons ensuite CURIOUS dans un environnement sans récompense: un agent autotélique qui vise une diversité de buts, transfère de l'information entre compétences et organise sa trajectoire d'apprentissage en poursuivant les buts liés à de forts progrès (étude 3).La seconde partie se concentre sur le langage. Inspirés par les travaux de Vygostky et d'autres, nous discutons des utilisations des capacités communicatives et cognitives du langage dans le cadre d'agents dirigés par des buts. Le langage facilite les interactions humain-agent, l'abstraction, la généralisation systématique, le contrôle à long horizon temporel, mais aussi la créativité et la simulation mentale. Dans les deux études computationnelles qui suivent, nous implémentons ces deux dernières capacités. IMAGINE utilise le langage pour apprendre des représentations de buts (usage communicatif) et pour imaginer de nouveaux buts de sorte à diriger une exploration créative (usage cognitif). Dans notre dernière étude, LGB entraîne un modèle du monde à générer une diversité de futurs possibles à partir de descriptions linguistiques. Cela mène à une plus grande diversité comportementale et à des comportements de changement de stratégie.

Keywords

HumanitiesPolitical scienceSociologyPhilosophy

Related papers

Browse all LEARNING papers