Investigación y desarrollo · Seminarios
En este seminario, Juan Pablo presenta un modelo teórico para aprender en entornos de alto riesgo donde cometer un error puede tener consecuencias irreversibles. En lugar de asumir que un agente de aprendizaje por refuerzo puede explorar libremente, se introduce la posibilidad de pedir ayuda a un mentor, permitiendo aprendizaje seguro en contextos con transiciones no reversibles y sin reinicios.
El proyecto, desarrollado en el laboratorio CHAI de UC Berkeley junto a Benjamin Plummer y Stuart Russell, modela esta interacción como una extensión de los procesos de decisión de Markov. Se demuestra que, bajo ciertas condiciones, un agente puede aprender a actuar de forma casi óptima haciendo un número sublineal de consultas al mentor, incluso sin repetir estados. Este trabajo ofrece una herramienta formal para integrar nociones de riesgo, seguridad y asistencia humana en el aprendizaje automático.
YouTube – Quantil Matemáticas Aplicadas
No disponible
Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.