Gradient-based reinforcement learning techniques for underwater robotics behavior learning
Andrés El-Fakdi Sencianes
- 发表年份
- 2011
- 引用次数
- 2
摘要
Darrerament, l'interes pel desenvolupament d'aplicacions amb robots submarins autonoms (AUV) ha crescut de forma considerable. Els AUVs son atractius gracies al seu tamany i el fet que no necessiten un operador huma per pilotar-los. Tot i aixo, es impossible comparar, en termes d'eficiencia i flexibilitat, l'habilitat d'un pilot huma amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilitzacio de AUVs per cobrir grans arees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autonom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicacio de comportaments per a AUVs utilitzant tecniques d'aprenentatge per reforc (RL). La contribucio principal d'aquesta tesi consisteix en l'aplicacio de diverses tecniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autonomes en temps real. En RL, el robot intenta maximitzar un reforc escalar obtingut com a consequencia de la seva interaccio amb l'entorn. L'objectiu es trobar una politica optima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforcos totals. Aixi, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: metodes basats en funcions de valor (VF) i metodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submari Ictineu en una tasca autonoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat metode d'Actor i Critic (AC), fruit de la fusio de metodes VF amb tecniques de PG.
关键词
相关论文
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems
Martı́n Abadi, Ashish Agarwal, Paul Barham 等 20 位作者
2016
The Organization of Behavior
D. O. Hebb
2005
The spread of true and false news online
Soroush Vosoughi, Deb Roy, Sinan Aral
2018
Fractional Brownian Motions, Fractional Noises and Applications
Benoît B. Mandelbrot, John W. Van Ness
1968