Home /Research /Gradient-based reinforcement learning techniques for underwater robotics behavior learning

LEARNING

Gradient-based reinforcement learning techniques for underwater robotics behavior learning

Andrés El-Fakdi Sencianes

Year: 2011
Citations: 2

Abstract

Darrerament, l'interes pel desenvolupament d'aplicacions amb robots submarins autonoms (AUV) ha crescut de forma considerable. Els AUVs son atractius gracies al seu tamany i el fet que no necessiten un operador huma per pilotar-los. Tot i aixo, es impossible comparar, en termes d'eficiencia i flexibilitat, l'habilitat d'un pilot huma amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilitzacio de AUVs per cobrir grans arees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autonom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicacio de comportaments per a AUVs utilitzant tecniques d'aprenentatge per reforc (RL). La contribucio principal d'aquesta tesi consisteix en l'aplicacio de diverses tecniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autonomes en temps real. En RL, el robot intenta maximitzar un reforc escalar obtingut com a consequencia de la seva interaccio amb l'entorn. L'objectiu es trobar una politica optima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforcos totals. Aixi, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: metodes basats en funcions de valor (VF) i metodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submari Ictineu en una tasca autonoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat metode d'Actor i Critic (AC), fruit de la fusio de metodes VF amb tecniques de PG.

Keywords

HumanitiesArtCartographyPolitical scienceGeography

Gradient-based reinforcement learning techniques for underwater robotics behavior learning

Abstract

Keywords

Related papers

TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems

The Organization of Behavior

The spread of true and false news online

Fractional Brownian Motions, Fractional Noises and Applications