Inferencia Robusta y Cuantificación de Incertidumbre para la Toma de Decisiones Basada en Datos

Los modelos de aprendizaje automático se han convertido en herramientas esenciales para la toma de decisiones en sectores críticos como la salud, las políticas públicas y las finanzas. Sin embargo, su aplicación práctica enfrenta dos grandes desafíos: el sesgo de selección en los datos y la cuantificación adecuada de la incertidumbre. Sin abordar estos problemas, las predicciones pueden ser erróneas, las políticas injustas y las decisiones ineficientes. Investigaciones recientes, como las presentadas por Cortes-Gomez et al. (2023, 2024) en sus artículos Statistical inference under constrained selection bias y Decision-focused uncertainty quantification, fueron expuestas en el seminario de Quantil como parte de la presentación de estos trabajos de investigación.

El sesgo de selección surge cuando los datos disponibles para entrenar un modelo no reflejan fielmente la población objetivo, generando inferencias distorsionadas. Formalmente, el problema puede describirse como la estimación de una cantidad de interés f(P) sobre una distribución desconocida P, cuando solo se tiene acceso a datos de una distribución observada Q potencialmente sesgada. En general, P y Q están relacionadas por un factor de sesgo (X) = p(X)/q(X), pero este ratio es desconocido. La solución propuesta impone restricciones basadas en información externa, como censos o estudios serológicos, permitiendo definir un conjunto factible θ para θ(X), en lugar de asumir una divergencia arbitraria entre P y Q. Mediante un problema de optimización, se obtienen límites superiores e inferiores sobre f(P), asegurando inferencias estadísticamente válidas sin introducir suposiciones no verificables. Se demuestra que estos límites son asintóticamente normales, permitiendo la construcción de intervalos de confianza robustos.

Para motivar la necesidad de la metodología propuesta, consideremos primero una visualización sin aplicar correcciones al sesgo de selección. La Figura 1 muestra la estimación del riesgo relativo de hospitalización por COVID-19 en diferentes grupos raciales. Sin embargo, sin una metodología que controle el sesgo de selección, esta representación gráfica podría ser engañosa, ya que no permite diferenciar si las disparidades observadas reflejan desigualdades reales o simplemente son el resultado de sesgos en los datos observados. En este contexto, interpretar directamente estas diferencias sin ajustes adecuados podría llevar a conclusiones incorrectas.

Figura 1. Estimación del Riesgo Relativo de Hospitalización sin Corrección por Sesgo

Inicialmente, una representación gráfica de los datos sin corregir por el sesgo de selección (como se ilustra en la Figura 1) podría no revelar las verdaderas disparidades o incluso sugerir conclusiones erróneas debido a la influencia del sesgo en los datos observados. Sin embargo, al aplicar la metodología desarrollada por Cortes-Gomez et al. (2023), obtenemos la Figura 2, que proporciona garantías estadísticas sobre la validez de la inferencia. Esta metodología permite separar los efectos reales de las disparidades de aquellos inducidos por la falta de representatividad en los datos, asegurando que la interpretación sea correcta y confiable. Los resultados obtenidos indican que el método propuesto mejora significativamente la precisión de las estimaciones en escenarios donde el sesgo de selección es problemático. 

La Figura 2 muestra la estimación del riesgo relativo de hospitalización por COVID-19 en diferentes grupos raciales, ajustada por la metodología propuesta. De acuerdo con los resultados obtenidos, se observa un mayor riesgo de hospitalización en las poblaciones asiática, negra e hispana en comparación con la población blanca. Para los grupos negro e hispano, el método de identificación parcial utilizado en el estudio se acerca a una identificación puntual, lo que sugiere una fuerte evidencia de disparidades estructurales en el acceso y tratamiento hospitalario. Además, los intervalos de confianza generados en este análisis reflejan una mejora significativa en la precisión de las estimaciones, lo que permite obtener conclusiones robustas sin depender de supuestos fuertes sobre la distribución subyacente

Figura 2. Estimación de f(P) por Grupo Racial en Hospitalización COVID-19

Aun cuando se logra minimizar el sesgo en las estimaciones, la incertidumbre sigue siendo un desafío clave. La mayoría de los métodos actuales de cuantificación de incertidumbre producen intervalos de confianza sin considerar el contexto en el que se tomarán decisiones basadas en ellos. En muchas aplicaciones, no basta con garantizar que la predicción contenga el valor verdadero con cierta probabilidad, sino que los conjuntos de predicción sean coherentes con la estructura de decisión.

Consideremos el ejemplo del diagnóstico médico en dermatología, como se discute en el artículo de Cortes-Gomez et al. (2024). Un método estándar de predicción conformal podría generar un conjunto de posibles diagnósticos con una alta probabilidad de incluir la enfermedad real. Sin embargo, este conjunto podría ser difícil de interpretar clínicamente si incluye enfermedades que abarcan múltiples categorías distintas, algunas benignas y otras malignas. Como se mencionó en la presentación, diferentes etiquetas dentro del conjunto de predicción implican acciones de diagnóstico y tratamiento completamente distintas.

Para abordar esta limitación, se ha desarrollado un enfoque de cuantificación de incertidumbre enfocado en decisiones. Este adapta el marco de predicción conformal para minimizar una pérdida de decisión  asociada al conjunto de predicción  Se plantea la minimización de bajo la restricción de que  cubra la verdadera etiqueta Y con probabilidad al menos  Para el caso en que la función de pérdida es separable, el problema tiene solución cerrada mediante una regla de decisión tipo Neyman-Pearson basada en la razón entre la probabilidad condicional y la penalización de incluir cada etiqueta. En el caso general, se resuelve mediante una optimización combinatoria sobre el conjunto de predicción, seguido de un ajuste conformal para garantizar cobertura estadística.

Los resultados empíricos demuestran que este enfoque reduce significativamente la pérdida de decisión en comparación con los métodos conformales estándar, al tiempo que mantiene la validez estadística. En aplicaciones médicas, los conjuntos de predicción obtenidos con este método presentan mayor coherencia clínica, agrupando diagnósticos según su similitud terapéutica y evitando conjuntos redundantes o contradictorios. Como se observó, los conjuntos de predicción ajustados a decisiones reducen la ambigüedad en la interpretación clínica, mejorando la utilidad de los modelos en contextos de alta incertidumbre. Esto permite que los médicos tengan conjuntos de posibles diagnósticos que no solo tienen una garantía estadística de contener la verdad, sino que también son más relevantes y accionables para la planificación del tratamiento.

Estas investigaciones resaltan la importancia de integrar información externa y estructura de decisión en los modelos de inferencia estadística y aprendizaje automático. La robustez ante el sesgo de selección y la adaptación de incertidumbre a la toma de decisiones permiten desarrollar modelos más confiables y útiles en escenarios críticos, desde la formulación de políticas públicas hasta el diagnóstico médico asistido por inteligencia artificial, sentando las bases para sistemas predictivos más justos, interpretables y accionables.

Tags
Predicción conformal Sesgo de selección

Newsletter

Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.

Link a la presentación del seminario

https://www.youtube.com/watch?v=8CNPKVwUGtQ&t=3s&ab_channel=QuantilMatem%C3%A1ticasAplicadas

Referencias

  • Cortes-Gomez, S., Dulce, M., Patino, C., & Wilder, B. (2023). Statistical inference under constrained selection bias. arXiv preprint arXiv:2306.03302.
  • Cortes-Gomez, S., Patiño, C., Byun, Y., Wu, S., Horvitz, E., & Wilder, B. (2024). Decision-focused uncertainty quantification. arXiv preprint arXiv:2410.01767.

Artículos recientes

En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.

Machine Learning

Inferencia Robusta y Cuantificación de Incertidumbre para la Toma de Decisiones Basada en Datos

Los modelos de aprendizaje automático se han convertido en herramientas esenciales para la toma de decisiones en sectores críticos como la salud, las políticas públicas y las finanzas. Sin embargo, su aplicación práctica enfrenta dos grandes desafíos: el sesgo de selección en los datos y la cuantificación adecuada de la incertidumbre.

Redes Neuronales

El Potencial Impacto del Aprendizaje de Máquinas en el Diseño de las Políticas Públicas en Colombia: Una década de experiencias

Este blog es un resumen extendido del articulo Riascos, A. (2025).1 Desde el inicio de la llamada tercera ola de redes neuronales (Goodfellow et al., (2016)), en la primera década de este siglo, se ha generado una gran esperanza en las posibilidades de la inteligencia artificial para transformar todas las actividades humanas. Asimismo, se han levantado alertas sobre los riesgos que conlleva la introducción de esta nueva tecnología (Bengio et al., (2024)).

Deep Learning

Explorando Redes Neuronales en Grafos para la Clasificación de Asentamientos Informales en Bogotá, Colombia

Los asentamientos informales son definidos como áreas residenciales cuyos habitantes no poseen tenencia legal de las tierras, los barrios carecen de servicios básicos e infraestructura urbana y no cumplen con requisitos de planificación, así como se pueden encontrar en zonas de peligro ambiental y geográfico (ONU, 2015).

Tecnología

Reinforcement Learning para Optimización de Portafolios

En el contexto de los mercados financieros, la optimización de portafolios consiste en identificar la combinación óptima de activos para maximizar la relación retorno-riesgo. No obstante, esta toma de decisiones se realiza en un entorno de incertidumbre, ya que el comportamiento de los activos no es estacionario a lo largo del tiempo.

Tecnología

Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Matemáticas del Descontento: Estudio de las Protestas Panameñas desde la Teoría de Grafos y Juegos

Durante la segunda mitad de 2022, Panamá enfrentó un hecho social sin precedentes. Si bien en el pasado ha habido protestas por parte de ciertos sectores sociales, nunca se había registrado una manifestación tan masiva que incluyera a distintos sectores de la sociedad panameña …