Víctimas Invisibles: la estimación del subregistro en el Conflicto Armado

© European Union

El conflicto armado interno en Colombia representa una gran porción en la historia del país. La disputa por poder y control territorial entre los distintos grupos armados y las instituciones estatales ha desatado la violación de derechos humanos, principalmente en contra de la población civil, que siempre queda en medio del conflicto. En el marco del Acuerdo Final para la Terminación del Conflicto y la Construcción de una Paz Estable y Duradera, suscrito en el año 2016, se creó en 2017 la Comisión para el Esclarecimiento de la Verdad, la Convivencia y la No Repetición (Comisión de la Verdad), como un mecanismo para conocer la verdad de lo ocurrido en el marco del conflicto armado y contribuir al esclarecimiento de las violaciones e infracciones cometidas durante el mismo (Comisión de la Verdad, 2017). Así mismo, la Comisión busca aportar insumos para la construcción de la política estatal de víctimas.

La Comisión de la Verdad trabaja de la mano de la Jurisdicción Especial para la Paz (JEP), que representa al componente de justicia del Sistema Integral de Verdad, Justicia, Reparación y no Repetición en el marco del Acuerdo Final. El trabajo mancomunado de estas dos organizaciones, junto con el apoyo del Human Right Data Analysis Group (HRDAG), dio como resultado el Informe Final de la Comisión de la Verdad, que tuvo entre sus objetivos mostrar los hallazgos relacionados con el Conflicto Armado en Colombia. La construcción de este informe tuvo un reto enorme: la estimación del subregistro de víctimas del conflicto. María Juliana Durán y Paula Andrea Amado, consultoras del HRDAG, nos explican la metodología desarrollada para enfrentar este reto.

(Ver seminario Datos de la Comisión de la Verdad: estimación del subregistro de víctimas)

El conflicto en Colombia ha sido ampliamente documentado por entidades que tienen distintas metodologías y alcances. El HRDAG hizo uso de 112 bases de datos provenientes de 44 fuentes diferentes que constituían una base de cerca de 13 millones de registros. Los objetivos del proyecto estuvieron enfocados en hacer un análisis estadístico de patrones de los violencia en el periodo 1985-2018, eliminar los datos duplicados de las 112 bases usadas, imputar los campos faltantes en los registros y estimar el subregistro. Todo lo anterior, para cuatro tipos de violaciones a derechos humanos: homicidio, secuestro, reclutamiento y desaparición. Como ejemplo, la Figura 1 exhibe el número de víctimas según responsable, de acuerdo al Registro único de Víctimas (RUV) y al Centro Nacional de Memoria Histórica (CNMH).

Figura 1. Comparación de registros de homicidios del RUV y del CNMH,  por responsable. Elaborado por HRDAG.

Para lograr estos objetivos, el proyecto se dividió en tres etapas.

  1. Deduplicación o Vinculación de Registros

Para hacer la identificación de múltiples registros que, posiblemente, pertenecen a la misma víctima se definieron tres categorías de modelos:

  • Modelo de bloques: pretende analizar cada par de registros y examinar si corresponden a un mismo hecho. Para esto, se seleccionan grupos de registros que comparten alguna característica. Las reglas de selección no son inmediatas —no es fácil enumerar una serie de criterios explícitos que apliquen para todos los datos—, así que se le solicitó a Michelle Dukich, una investigadora del HRDAG experta en vinculación de registros y limpieza de este tipo de bases de datos1, que etiquetara (como duplicados y no duplicados) una muestra de cerca de dos millones de registros. Luego, se entrenó un modelo de machine learning para que “aprendiera” las reglas que implícitamente estaba usando Michelle y las empleara para clasificar el resto de los datos.
  • Modelo de clasificación: con las etiquetas asignadas en la etapa anterior, se hace la identificación de registros correferentes es decir, que posiblemente refieran un mismo hecho. Luego, el modelo de clasificación estima un score (definido entre 0 y 1) que indica la similaridad entre cada par de registros (1 sí es similar y 0 de lo contrario).
  • Modelo de grupos: se genera un grupo de expansión proveniente de la clasificación del modelo anterior. Para ello, se usa puntaje que mide la ‘similitud’ entre registros y se define un umbral a partir del cual se asume que un par de registros corresponden a una misma persona y un mismo hecho violento. El umbral ‘correcto’ se estimó con los datos de entrenamiento clasificados por Michelle Dukich. La figura 2 muestra que el error en el conteo tras aplicar este método es muy bajo.

Figura 2. Resultados de testeo del modelo de grupos en la identificación de registros duplicados. Elaborado por HRDAG.

Al finalizar este proceso se concluyó que, de los casi 13 millones de registros iniciales, 8.775.884 son registros únicos.

La probabilidad de que una víctima sea registrada en varias bases de datos depende, por ejemplo, de la ciudad en la que reside y de si es o no una figura pública. Eliminar estos registros duplicados es esencial para que los datos reflejen fielmente las dinámicas del conflicto y no sobre representen a ciertos grupos.


1 En este contexto, se conoce como “oráculo” a una persona o herramienta que, como Michelle, se encarga de hacer la asignación de etiquetas de una categoría en particular a cada observación de una base de datos.

  1. Imputación estadística de campos faltantes

La base de registros únicos generada en la etapa anterior contiene características (campos) de cada hecho violento documentado. Por ejemplo, organización a la que pertenecía el perpetrador, género, edad y etnia de la víctima; fecha y ubicación del hecho, etc… Con una cantidad tan grande de registros, los campos faltantes no son un problema per se. Si el hecho de que un campo falte fuera aleatorio, esto no tendría mayor impacto en el análisis. Sin embargo, el hecho de que un campo falte está relacionado con variables como la fecha del hecho (porque el sistema de registro de víctimas ha cambiado a lo largo del tiempo) o la ubicación (porque hay disparidad en las capacidades de reporte de cada región).

Al tener en cuenta esta variables observadas se corrige el sesgo. Los investigadores hacen la hipótesis de que los valores faltantes de una variable siguen un patrón similar a los valores observados, condicionados al resto de variables observadas. Así, hacen uso de la metodología MAR: Missing at Random, que consiste en construir ecuaciones encadenadas con una especificación condicionada a los datos observados, que contengan información sobre cómo se relacionan las variables por ejemplo, el género y la edad de la víctima y un componente aleatorio. Esta ecuación sirve para imputar los datos faltantes, cuando los haya, a cada registro. El proceso se repite múltiples veces para estimar los parámetros de interés de cada conjunto de datos, y finalmente se combinan las estimaciones para generar una predicción puntual de los datos faltantes, aplicando las reglas de combinación de Rubin. Esta metodología se implementó mediante el método Predictive mean matching del paquete mice de R. 

Las diferentes bases de datos contienen información heterogénea, por lo que esta se divide entre variables de base (aquellas que pueden presentar información faltante y que son relevantes en el estudio) y variables de soporte. Estas últimas se construyen mediante información adicional de las bases de datos. Por ejemplo, el arma homicida, la vereda o ubicación, la profesión de la víctima o el relato del hecho. Justamente el relato de hecho, luego de ser limpiado y lematizado, se usa para la construcción de una red neuronal del tipo Long-Short Term Memory (LSTM) que permite estimar el score de probabilidad de una variable de soporte para cada categoría de un evento violento (i.e que haya sido homicidio, que haya sido cometido por grupos guerrilleros, etc.). 

  1. Estimación del subregistro de víctimas

Nuevamente, el subreporte (hechos que no se registran en ninguna base de datos) no existe por azar, sino por diferencias estructurales en el escenario del conflicto armado: ausencia de entidades que registren las denuncias, el miedo a denunciar por posibles amenazas, dificultades geográficas, entre otras. También, hay grupos étnicos, geográficos o ideológicos que sistemáticamente tiene menor probabilidad de ser registrados cuando experimentan una violación a los derechos humanos.

Dado lo anterior, los investigadores emplearon la Estimación por Sistemas Múltiples (ESM) para abordar adecuadamente el problema del subreporte de víctimas.  La ESM es aplicable cuando se cumplen cuatro supuestos:

  • La población estimada es cerrada. Es decir, una vez que una persona entra a un estado (por ejemplo, homicidio), no sale de ese estado. Esto es razonable por la naturaleza de los estados considerados.
  • El vínculo de los registros es preciso: esto se garantiza por el tratamiento de las bases de datos desarrollado en la etapa 1.
  • Independencia de la fuentes, es decir, el que un hecho esté documentado en una fuente no afecta la probabilidad de que también esté documentado en otras fuentes. Aunque es difícil que esto se cumpla, la literatura ha mostrado que el problema se reduce cuando se usan tres o más bases. El estudio emplea más de 100. 
  • Probabilidad de captura homogénea entre unidades de observación. Es decir, que todos los eventos tengan la misma probabilidad de ser documentados en cada base de datos empleada. Como se ha discutido, esto no es realista, así que para resolver el incumplimiento de este supuesto se aplicó un enfoque de estratificación, en el que se definen subconjuntos de los datos en los que la condición sí se cumpla. Por ejemplo, estratificar por año dió buenos resultados. Cada estrato funciona como una proxy a la homogeneización de la probabilidad mencionada. Se hace uso de un tipo de ESM bayesiano no paramétrico llamado “Modelos de Clases Latentes Múltiples para Captura-Recaptura” para implementar esta solución.

Este enfoque busca aproximar el tamaño real de una población (número de víctimas de cada violación a derechos humanos) a partir de los patrones de documentación de los hechos: si un hecho es documentado múltiples veces por varias fuentes2 y se cumplen los anteriores supuestos, el tamaño del subregistro no es tan significativo. En cambio, si las coincidencias entre bases de datos son reducidas, se estima que el subregistro es mayor.

Al aplicar este método, se puede estimar un intervalo de confianza para el número real de víctimas de cada año entre 1985 y 2018. La figura 3 muestra el resultado para el caso de desaparición forzada. Se concluye, entre otros, que el aumento de este fenómeno a comienzos de los 2000 fue más pronunciado que lo que se creía y que en 2007 hubo un pico de subregistros. 

Figura 3. Víctimas de desaparición forzada entre 1985 y 2016. Tomado del Informe metodológico del proyecto conjunto JEP-CEV-HRDAG de integración de datos y estimación estadística (2022).


2 En el caso de la desaparición forzada, la mayoría de registros son aportados por el RUV, lo que compromete la robustez de la metodología según el Departamento Administrativo Nacional de Estadística (Dane, 2023)

Algunas implicaciones

Los resultados de este análisis son relevantes en dos frentes: por un lado, contar con registros más precisos sobre violaciones a los derechos humanos permite mejorar los análisis cuantitativos que se hagan sobre estos fenómenos y formular con mayor exactitud la política pública de víctimas; por otro lado, el subregistro es en sí mismo una variable interesante para estudiar. Estos datos indican qué periodos, lugares y grupos poblacionales han tenido peor monitoreo de violaciones a derechos humanos durante el conflicto armado y, con ello, indican qué tan bien se han empleado las capacidades estatales y no estatales para documentar estos fenómenos. En suma, esta investigación genera un gran aporte para esclarecer la magnitud y características de la violencia generada por un fenómeno tan complejo como el conflicto armado colombiano.

Los resultados de las estimaciones para las distintas violaciones de derechos humanos se encuentran publicados por el Departamento Administrativo Nacional de Estadística (DANE, 2023). Se puede acceder a ellos a través de este enlace. La base de datos final, construida con la metodología aquí descrita, está organizada temporal y geográficamente, lo que permitirá desarrollar futuras investigaciones sobre la dinámica del conflicto y su relación con otras variables institucionales, sociales y económicas. 

Tags
Gobierno

Newsletter

Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.

Artículos recientes

En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.

Matemáticas del Descontento: Estudio de las Protestas Panameñas desde la Teoría de Grafos y Juegos

Durante la segunda mitad de 2022, Panamá enfrentó un hecho social sin precedentes. Si bien en el pasado ha habido protestas por parte de ciertos sectores sociales, nunca se había registrado una manifestación tan masiva que incluyera a distintos sectores de la sociedad panameña …

Justicia Algorítmica

Equidad en modelos de inteligencia artificial: ¿Cómo mitigar la discriminación en presencia de múltiples atributos sensibles?

Supongamos que contamos con un modelo de aprendizaje de máquinas, f, que predice el precio de una prima de seguros, Y, para unos datos que incluyen un atributo sensible, como lo es el género. Puede existir una discriminación debido a un …

Tecnología

Modelos de traducción para la preservación de las lenguas indígenas en Colombia

Según la Organización Nacional Indígena de Colombia (ONIC) existen 69 lenguas habladas en el territorio colombiano, entre las cuales 65 son lenguas indígenas. Esto posiciona a Colombia como el tercer país con mayor diversidad lingüística en el territorio latinoamericano, después de Brasil y México, con una notable concentración en las zonas de la Amazonía y el Vaupés…

Economía

Diseños óptimos para subastas de electricidad

Esta entrada de blog está basada en mi tesis de maestría en ingeniería industrial y economía en la Universidad de los Andes, titulada Optimal Design for Electricity Auctions: A Deep learning approach.

Tecnología

Víctimas Invisibles: la estimación del subregistro en el Conflicto Armado

El conflicto armado interno en Colombia representa una gran porción en la historia del país. La disputa por poder y control territorial entre los distintos grupos armados y las instituciones estatales ha desatado la violación de derechos humanos.

Justicia Algorítmica

Trade-off entre justicia y ajuste: un caso de estudio de crimen

El estudio de la justicia algorítmica surge en 2011 con Cynthia Dwork [1], quien se basó en el principio de igualdad de oportunidades: todas las personas, sin importar sus características, deben poder acceder a las mismas oportunidades y beneficios.