TY - JOUR A1 - Moreno Lorente, Sergio T1 - Control of an anti-collision protocol for RFID with reinforcement learning Y1 - 2019 UR - http://hdl.handle.net/10317/8096 AB - El objetivo general del TFG es emplear aprendizaje reforzado para controlar de forma dinámica el número de slots de las rondas de identificación del protocolo anticolisión para RFID especificado en el standard EPCglobal Gen2. Los objetivos específicos son: 1. Realizar un simulador del protocolo anticolisión DFSA para RFID en Python, adaptando un simulador en Matlab proporcionado al alumno. 2. Dotar al simulador de la interfaz apropiada para emplearlo con implementaciones existentes de algoritmos de aprendizaje reforzado en código abierto. 3. Obtener mediante experimentación y ajuste de parámetros una política capaz de obtener un rendimiento comparable a una política de referencia existente. En este TFG se pretende emplear algoritmos de aprendizaje reforzado para controlar de forma dinámica un protocolo anticolisión para RFID. En concreto, se considera el protocolo anticolisión especificado en el standard EPCglobal Gen2 [1]. Se busca encontrar una política que minimice el tiempo esperado de identificación de un conjunto de tags, desconocido a priori, controlando en cada etapa de decisión el número de slots de las rondas de identificación. El alumno deberá realizar un simulador del protocolo anticolisión DFSA para RFID en Python, a partir de un simulador en Matlab ya existente y que le será proporcionado. El simulador en Matlab fue empleado para la validación de resultados en [2]. Los detalles del simulador relativos al efecto captura, el cálculo del link budget y el modelo de la propagación multicamino, están explicados en [3]. Además, el simulador en Python deberá implementar la interfaz definida por Open AI [4], y deberá incluir la posibilidad de interrumpir la ronda de identificación en curso [1]. Una vez implementado el simulador, habrá que seleccionar los algoritmos de aprendizaje reforzado más adecuados para el problema abordado e integrar el simulador con las implementaciones existentes en código abierto de dichos algoritmos. A continuación, el alumno deberá iniciar una fase de experimentación en la que deberá ejecutar los algoritmos seleccionados y realizar los ajustes necesarios en el simulador y en los parámetros de los algoritmos. El rendimiento de los algoritmos se comparará con una política de referencia descrita en [2], con un conocimiento a priori del número de tags (política de tipo "oracle"). KW - Ingeniería Telemática KW - Inteligencia artificial KW - Artificial intelligence KW - 1203.04 Inteligencia Artificial LA - spa ER -