TY - JOUR A1 - Dimas Martínez, Pedro T1 - Reinforcement learning pilot for playing game Y1 - 2020 UR - http://hdl.handle.net/10317/8869 AB - En este proyecto confeccionaremos e implementaremos un demostrador de aprendizaje máquina. Concretamente, diseñaremos dos modelos de aprendizaje por refuerzo, el primero mediante el algoritmo de Q-learning aproximado y el segundo con el algoritmo Policy-gradient. Ambos son algoritmos bastante populares en este campo debido a los buenos resultados que obtienen. Como entorno de aprendizaje, estudiaremos los resultados de los algoritmos mediante la librería de Python OpenAI Gym. Además de explicar ambos algoritmos y sus bases teóricas, explicaremos el uso de diferentes sistemas de aproximación de funciones de hipótesis. Concretamente, utilizaremos regresores lineales y árboles de decisión para el algoritmo de Q-Learning aproximado, y una red neuronal para resolver policy gradient. Para resolver el algoritmo de Q-Learning aproximado, haremos uso del entorno de OpenAI Gym Frozen lake. Este entorno se presenta como un mapa de 4x4 donde el agente deberá llegar a la meta, esquivando los agujeros que se encuentre en el camino. Para este entorno, nuestro agente ha llegado a ganar una de cada tres partidas. Para el segundo modelo, utilizaremos el entorno de Atari QBert. Este videojuego se presenta como una forma intuitiva de demostrar el potencial de policy-gradient. Consiste en una pirámide de plataformas por las que el agente deberá pasar para conseguir completar la pantalla. Sin embargo, no será tan fácil puesto que habrá enemigos que perseguirán al agente para mermar sus vidas. En este entorno de entrenamiento, nuestros resultados muestran una muy buena progresión, comenzando con una recompensa media de -578 y alcanzando recompensas medias de +320. El agente adquiere con relativa facilidad la capacidad de eliminar enemigos para maximizar las recompensas. Concluiremos analizando el rendimiento de ambos algoritmos en base a los resultados mencionados anteriormente, además de comentar diferentes líneas de ampliación del proyecto y posibles campos que se podrían mejorar. El objetivo primordial de este proyecto es proporcionar, a aquellos perfiles no expertos, una base para comenzar la andadura en este mundo del aprendizaje por refuerzo. KW - Ingeniería Telemática KW - Inteligencia artificial KW - Artificial intelligence KW - Juego KW - Play KW - 1203.04 Inteligencia Artificial LA - spa ER -