Investigación y desarrollo · Seminarios
Se estudia la evaluación de políticas en Aprendizaje Reforzado en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica con ruido Markoviano. Los métodos clásicos, Diferencias Temporales y Gradientes de Diferencias Temporales, son ineficientes al estimar la función valor. Por eso, se estudia la alternativa que ofrece el algoritmo de Online Bootstrap Inference, el cual promete ser una mejora a los métodos existentes.
YouTube – Quantil Matemáticas Aplicadas
1. Presentación
Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.