Home /Research /Gradient-based reinforcement learning techniques for underwater robotics behavior learning
LEARNING

Gradient-based reinforcement learning techniques for underwater robotics behavior learning

Andrés El-Fakdi Sencianes

Year
2011
Citations
2

Abstract

Darrerament, l'interes pel desenvolupament d'aplicacions amb robots submarins autonoms (AUV) ha crescut de forma considerable. Els AUVs son atractius gracies al seu tamany i el fet que no necessiten un operador huma per pilotar-los. Tot i aixo, es impossible comparar, en termes d'eficiencia i flexibilitat, l'habilitat d'un pilot huma amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilitzacio de AUVs per cobrir grans arees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autonom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicacio de comportaments per a AUVs utilitzant tecniques d'aprenentatge per reforc (RL). La contribucio principal d'aquesta tesi consisteix en l'aplicacio de diverses tecniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autonomes en temps real. En RL, el robot intenta maximitzar un reforc escalar obtingut com a consequencia de la seva interaccio amb l'entorn. L'objectiu es trobar una politica optima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforcos totals. Aixi, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: metodes basats en funcions de valor (VF) i metodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submari Ictineu en una tasca autonoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat metode d'Actor i Critic (AC), fruit de la fusio de metodes VF amb tecniques de PG.

Keywords

HumanitiesArtCartographyPolitical scienceGeography

Related papers

Browse all LEARNING papers