Seminarios

Investigación y desarrollo · Seminarios

Gradiente Estocástico y Aproximación Estocástica:

Aplicados a Q-learning

El proyecto está motivado en demostrar la convergencia de Q-learning. Este es un algoritmo aplicado a Procesos de Decisión de Markov finitos en tiempo discreto, donde no se tiene suficiente información. Así, lo que busca el algoritmo es solucionar las ecuaciones de optimalidad (o ecuaciones de Bellman). Con este propósito en mente, en el proyecto discutimos cuatro cosas principalmente:

Procesos de decisión de Markov finitos en tiempo discreto, que es el modelo que desde un principio nos interesa.
Aproximación estocástica (AE), que es el algoritmo que sirve como marco general de muchos algoritmos, entre ellos Q-learning. Bajo algunas premisas lograremos establecer la convergencia de AE.
Método del descenso del gradiente estocástico, que es la herramienta principal por la cual se puede establecer la convergencia del algoritmo de AE (y de muchos de los algoritmos de Machine Learning).
Reinforcement Learning, que es la rama en la cual se encuentra el algoritmo de Q-learning. Nos permitimos ver este algoritmo como caso particular de AE.

Aplicaciones a Procesos de Decisión de Markov completos, y soluciones para encontrar estrategias óptimas en juegos de mes

Detalles:

Expositor:

José Sebastian Ñungo Manrrique

Fecha:

27 de Agosto de 2020

Play Video