En esta investigación comparamos la fórmula actual de ajuste de riesgos utilizada por el Ministerio de Salud y Protección Social de Colombia, contra especificaciones alternativas que se ajustan para los factores adicionales. El objetivo de un mecanismo de ajuste de riesgo es reducir la incertidumbre del gasto anual en salud controlando las variables que no están sujetas a manipulación por parte de las aseguradoras de salud.
En este proyecto demostramos que la fórmula de ajuste de riesgo actual, la cual se basa en los factores demográficos y sus interacciones, sólo puede predecir el 30% del gasto total en salud en el quintil superior de la distribución del gasto. También mostramos que la fórmula del gobierno podría mejorar significativamente al condicionar según un pronóstico en lugar de los resultados (ex ante) en los indicadores de medidas de 29 enfermedades a largo plazo. En esta investigación estimamos modelos basados en aprendizaje automático y mostramos que las metodologías no paramétricas como los modelos de árboles potenciados, funcionan mejor que las regresiones lineales incluso cuando se ajustan en un conjunto más pequeño de regresores. Finalmente, este proyecto evidencia cómo la política de ajuste de riesgos en Colombia puede redistribuir sus recursos de manera más eficiente al ajustar la condición de salud de los afiliados ex ante y al usar especificaciones no paramétricas que capturan la relación no lineal entre los factores de riesgo mejor que los modelos lineales.
Para predecir el gasto anual en salud de los afiliados al sistema contributivo en Colombia, utilizamos la Base de Suficiencia del Ministerio de Salud y Protección Social para los años 2010 y 2011. Utilizamos las características demográficas y los diagnósticos recibidos por cada inscrito durante el 2010 para predecir el gasto anual en salud en el 2011 ajustado por el número de días inscritos en este año. Para cada afiliado, observamos género, edad, municipio de residencia, asegurador, proveedor, costo del servicio y diagnóstico ICD-10. De una intersección de 13 millones de individuos, creamos dos conjuntos de datos mutuamente excluyentes seleccionando aleatoriamente 500,000 inscritos cada uno. Uno de los conjuntos de datos es el conjunto de entrenamiento donde ajustaremos todos nuestros modelos y el otro es el conjunto de prueba donde calcularemos las medidas de ajuste.
Nuestros resultados muestran que los modelos lineales, y en particular la fórmula actual del gobierno, tienden a subestimar la distribución total del gasto en salud en casi un 11%. La subestimación es problemática porque deja una parte del riesgo para la salud sin garantías. Mientras la inclusión de un ajuste de riesgo de morbilidad ex ante con variables ficticias para las 29 enfermedades a largo plazo reduce las medidas de error MAE y RMSE sustancialmente en comparación con la fórmula del gobierno, la inclusión de estas técnicas genera un aumento en el índice predictivo general. Los modelos basados en aprendizaje automático considerados en esta investigación fueron bosque aleatorio (RF), modelos de árboles potenciados (GBM) y redes neuronales artificiales (ANN). Todos los parámetros de estos modelos se obtuvieron mediante validación cruzada. El mejor modelo en este caso descubrimos que es el modelo de árboles potenciados que se ajusta sobre el conjunto de variables elegidas mediante la función de selección (GMB FS), este alcanza un índice predictivo más apto, y errores mucho menores, superando a los modelos lineales instalados en todo el conjunto de regresores.
En Proyectos, podrás conocer las aplicaciones reales de nuestros servicios, casos de uso y ejemplos de los mismos.