Mostrar el registro sencillo del ítem

dc.contributor.authorDimas Martínez, Pedro 
dc.date.accessioned2020-11-26T18:48:22Z
dc.date.available2020-11-26T18:48:22Z
dc.date.issued2020-06-19
dc.description.abstractEn este proyecto confeccionaremos e implementaremos un demostrador de aprendizaje máquina. Concretamente, diseñaremos dos modelos de aprendizaje por refuerzo, el primero mediante el algoritmo de Q-learning aproximado y el segundo con el algoritmo Policy-gradient. Ambos son algoritmos bastante populares en este campo debido a los buenos resultados que obtienen. Como entorno de aprendizaje, estudiaremos los resultados de los algoritmos mediante la librería de Python OpenAI Gym. Además de explicar ambos algoritmos y sus bases teóricas, explicaremos el uso de diferentes sistemas de aproximación de funciones de hipótesis. Concretamente, utilizaremos regresores lineales y árboles de decisión para el algoritmo de Q-Learning aproximado, y una red neuronal para resolver policy gradient. Para resolver el algoritmo de Q-Learning aproximado, haremos uso del entorno de OpenAI Gym Frozen lake. Este entorno se presenta como un mapa de 4x4 donde el agente deberá llegar a la meta, esquivando los agujeros que se encuentre en el camino. Para este entorno, nuestro agente ha llegado a ganar una de cada tres partidas. Para el segundo modelo, utilizaremos el entorno de Atari QBert. Este videojuego se presenta como una forma intuitiva de demostrar el potencial de policy-gradient. Consiste en una pirámide de plataformas por las que el agente deberá pasar para conseguir completar la pantalla. Sin embargo, no será tan fácil puesto que habrá enemigos que perseguirán al agente para mermar sus vidas. En este entorno de entrenamiento, nuestros resultados muestran una muy buena progresión, comenzando con una recompensa media de -578 y alcanzando recompensas medias de +320. El agente adquiere con relativa facilidad la capacidad de eliminar enemigos para maximizar las recompensas. Concluiremos analizando el rendimiento de ambos algoritmos en base a los resultados mencionados anteriormente, además de comentar diferentes líneas de ampliación del proyecto y posibles campos que se podrían mejorar. El objetivo primordial de este proyecto es proporcionar, a aquellos perfiles no expertos, una base para comenzar la andadura en este mundo del aprendizaje por refuerzo.es_ES
dc.formatapplication/pdfes_ES
dc.language.isospaes_ES
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 España*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/*
dc.title.alternativeReinforcement learning pilot for playing gamees_ES
dc.titleDemostrador de aprendizaje reforzado en plataforma de juegoes_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.subject.otherIngeniería Telemáticaes_ES
dc.contributor.advisorVales Alonso, Javier 
dc.subjectInteligencia artificiales_ES
dc.subjectArtificial intelligencees_ES
dc.subjectJuegoes_ES
dc.subjectPlayes_ES
dc.identifier.urihttp://hdl.handle.net/10317/8869
dc.description.centroEscuela Técnica Superior de Ingeniería de Telecomunicaciónes_ES
dc.contributor.departmentTecnologías de la Información y las Comunicacioneses_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
dc.description.universityUniversidad Politécnica de Cartagenaes_ES
dc.subject.unesco1203.04 Inteligencia Artificiales_ES


Ficheros en el ítem

untranslated

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Atribución-NoComercial-SinDerivadas 3.0 España
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 3.0 España