TY - JOUR 
A1 - Dimas&#x20;Martínez,&#x20;Pedro
T1 - Reinforcement&#x20;learning&#x20;pilot&#x20;for&#x20;playing&#x20;game

Y1 - 2020
UR - http:&#x2F;&#x2F;hdl.handle.net&#x2F;10317&#x2F;8869
AB - En&#x20;este&#x20;proyecto&#x20;confeccionaremos&#x20;e&#x20;implementaremos&#x20;un&#x20;demostrador&#x20;de&#x20;aprendizaje&#x20;máquina.&#x20;Concretamente,&#x20;diseñaremos&#x20;dos&#x20;modelos&#x20;de&#x20;aprendizaje&#x20;por&#x20;refuerzo,&#x20;el&#x20;primero&#x20;mediante&#x20;el&#x20;algoritmo&#x20;de&#x20;Q-learning&#x20;aproximado&#x20;y&#x20;el&#x20;segundo&#x20;con&#x20;el&#x20;algoritmo&#x20;Policy-gradient.&#x20;Ambos&#x20;son&#x20;algoritmos&#x20;bastante&#x20;populares&#x20;en&#x20;este&#x20;campo&#x20;debido&#x20;a&#x20;los&#x20;buenos&#x20;resultados&#x20;que&#x20;obtienen.&#x20;Como&#x20;entorno&#x20;de&#x20;aprendizaje,&#x20;estudiaremos&#x20;los&#x20;resultados&#x20;de&#x20;los&#x20;algoritmos&#x20;mediante&#x20;la&#x20;librería&#x20;de&#x20;Python&#x20;OpenAI&#x20;Gym.&#x20;Además&#x20;de&#x20;explicar&#x20;ambos&#x20;algoritmos&#x20;y&#x20;sus&#x20;bases&#x20;teóricas,&#x20;explicaremos&#x20;el&#x20;uso&#x20;de&#x20;diferentes&#x20;sistemas&#x20;de&#x20;aproximación&#x20;de&#x20;funciones&#x20;de&#x20;hipótesis.&#x20;Concretamente,&#x20;utilizaremos&#x20;regresores&#x20;lineales&#x20;y&#x20;árboles&#x20;de&#x20;decisión&#x20;para&#x20;el&#x20;algoritmo&#x20;de&#x20;Q-Learning&#x20;aproximado,&#x20;y&#x20;una&#x20;red&#x20;neuronal&#x20;para&#x20;resolver&#x20;policy&#x20;gradient.&#x20;Para&#x20;resolver&#x20;el&#x20;algoritmo&#x20;de&#x20;Q-Learning&#x20;aproximado,&#x20;haremos&#x20;uso&#x20;del&#x20;entorno&#x20;de&#x20;OpenAI&#x20;Gym&#x20;Frozen&#x20;lake.&#x20;Este&#x20;entorno&#x20;se&#x20;presenta&#x20;como&#x20;un&#x20;mapa&#x20;de&#x20;4x4&#x20;donde&#x20;el&#x20;agente&#x20;deberá&#x20;llegar&#x20;a&#x20;la&#x20;meta,&#x20;esquivando&#x20;los&#x20;agujeros&#x20;que&#x20;se&#x20;encuentre&#x20;en&#x20;el&#x20;camino.&#x20;Para&#x20;este&#x20;entorno,&#x20;nuestro&#x20;agente&#x20;ha&#x20;llegado&#x20;a&#x20;ganar&#x20;una&#x20;de&#x20;cada&#x20;tres&#x20;partidas.&#x20;Para&#x20;el&#x20;segundo&#x20;modelo,&#x20;utilizaremos&#x20;el&#x20;entorno&#x20;de&#x20;Atari&#x20;QBert.&#x20;Este&#x20;videojuego&#x20;se&#x20;presenta&#x20;como&#x20;una&#x20;forma&#x20;intuitiva&#x20;de&#x20;demostrar&#x20;el&#x20;potencial&#x20;de&#x20;policy-gradient.&#x20;Consiste&#x20;en&#x20;una&#x20;pirámide&#x20;de&#x20;plataformas&#x20;por&#x20;las&#x20;que&#x20;el&#x20;agente&#x20;deberá&#x20;pasar&#x20;para&#x20;conseguir&#x20;completar&#x20;la&#x20;pantalla.&#x20;Sin&#x20;embargo,&#x20;no&#x20;será&#x20;tan&#x20;fácil&#x20;puesto&#x20;que&#x20;habrá&#x20;enemigos&#x20;que&#x20;perseguirán&#x20;al&#x20;agente&#x20;para&#x20;mermar&#x20;sus&#x20;vidas.&#x20;En&#x20;este&#x20;entorno&#x20;de&#x20;entrenamiento,&#x20;nuestros&#x20;resultados&#x20;muestran&#x20;una&#x20;muy&#x20;buena&#x20;progresión,&#x20;comenzando&#x20;con&#x20;una&#x20;recompensa&#x20;media&#x20;de&#x20;-578&#x20;y&#x20;alcanzando&#x20;recompensas&#x20;medias&#x20;de&#x20;+320.&#x20;El&#x20;agente&#x20;adquiere&#x20;con&#x20;relativa&#x20;facilidad&#x20;la&#x20;capacidad&#x20;de&#x20;eliminar&#x20;enemigos&#x20;para&#x20;maximizar&#x20;las&#x20;recompensas.&#x20;Concluiremos&#x20;analizando&#x20;el&#x20;rendimiento&#x20;de&#x20;ambos&#x20;algoritmos&#x20;en&#x20;base&#x20;a&#x20;los&#x20;resultados&#x20;mencionados&#x20;anteriormente,&#x20;además&#x20;de&#x20;comentar&#x20;diferentes&#x20;líneas&#x20;de&#x20;ampliación&#x20;del&#x20;proyecto&#x20;y&#x20;posibles&#x20;campos&#x20;que&#x20;se&#x20;podrían&#x20;mejorar.&#x20;El&#x20;objetivo&#x20;primordial&#x20;de&#x20;este&#x20;proyecto&#x20;es&#x20;proporcionar,&#x20;a&#x20;aquellos&#x20;perfiles&#x20;no&#x20;expertos,&#x20;una&#x20;base&#x20;para&#x20;comenzar&#x20;la&#x20;andadura&#x20;en&#x20;este&#x20;mundo&#x20;del&#x20;aprendizaje&#x20;por&#x20;refuerzo.
KW - Ingeniería&#x20;Telemática
KW - Inteligencia&#x20;artificial
KW - Artificial&#x20;intelligence
KW - Juego
KW - Play
KW - 1203.04&#x20;Inteligencia&#x20;Artificial
LA - spa
ER -