Víctimas Invisibles: la estimación del subregistro en el Conflicto Armado

18/09/2023
Catalina Bernal y Joan Robles
Gobierno

El conflicto armado interno en Colombia representa una gran porción en la historia del país. La disputa por poder y control territorial entre los distintos grupos armados y las instituciones estatales ha desatado la violación de derechos humanos, principalmente en contra de la población civil, que siempre queda en medio del conflicto. En el marco del Acuerdo Final para la Terminación del Conflicto y la Construcción de una Paz Estable y Duradera, suscrito en el año 2016, se creó en 2017 la Comisión para el Esclarecimiento de la Verdad, la Convivencia y la No Repetición (Comisión de la Verdad), como un mecanismo para conocer la verdad de lo ocurrido en el marco del conflicto armado y contribuir al esclarecimiento de las violaciones e infracciones cometidas durante el mismo (Comisión de la Verdad, 2017). Así mismo, la Comisión busca aportar insumos para la construcción de la política estatal de víctimas.

La Comisión de la Verdad trabaja de la mano de la Jurisdicción Especial para la Paz (JEP), que representa al componente de justicia del Sistema Integral de Verdad, Justicia, Reparación y no Repetición en el marco del Acuerdo Final. El trabajo mancomunado de estas dos organizaciones, junto con el apoyo del Human Right Data Analysis Group (HRDAG), dio como resultado el Informe Final de la Comisión de la Verdad, que tuvo entre sus objetivos mostrar los hallazgos relacionados con el Conflicto Armado en Colombia. La construcción de este informe tuvo un reto enorme: la estimación del subregistro de víctimas del conflicto. María Juliana Durán y Paula Andrea Amado, consultoras del HRDAG, nos explican la metodología desarrollada para enfrentar este reto.

(Ver seminario Datos de la Comisión de la Verdad: estimación del subregistro de víctimas)

El conflicto en Colombia ha sido ampliamente documentado por entidades que tienen distintas metodologías y alcances. El HRDAG hizo uso de 112 bases de datos provenientes de 44 fuentes diferentes que constituían una base de cerca de 13 millones de registros. Los objetivos del proyecto estuvieron enfocados en hacer un análisis estadístico de patrones de los violencia en el periodo 1985-2018, eliminar los datos duplicados de las 112 bases usadas, imputar los campos faltantes en los registros y estimar el subregistro. Todo lo anterior, para cuatro tipos de violaciones a derechos humanos: homicidio, secuestro, reclutamiento y desaparición. Como ejemplo, la Figura 1 exhibe el número de víctimas según responsable, de acuerdo al Registro único de Víctimas (RUV) y al Centro Nacional de Memoria Histórica (CNMH).

Figura 1. Comparación de registros de homicidios del RUV y del CNMH, por responsable. Elaborado por HRDAG.

Para lograr estos objetivos, el proyecto se dividió en tres etapas.

Deduplicación o Vinculación de Registros

Para hacer la identificación de múltiples registros que, posiblemente, pertenecen a la misma víctima se definieron tres categorías de modelos:

Modelo de bloques: pretende analizar cada par de registros y examinar si corresponden a un mismo hecho. Para esto, se seleccionan grupos de registros que comparten alguna característica. Las reglas de selección no son inmediatas —no es fácil enumerar una serie de criterios explícitos que apliquen para todos los datos—, así que se le solicitó a Michelle Dukich, una investigadora del HRDAG experta en vinculación de registros y limpieza de este tipo de bases de datos¹, que etiquetara (como duplicados y no duplicados) una muestra de cerca de dos millones de registros. Luego, se entrenó un modelo de machine learning para que “aprendiera” las reglas que implícitamente estaba usando Michelle y las empleara para clasificar el resto de los datos.
Modelo de clasificación: con las etiquetas asignadas en la etapa anterior, se hace la identificación de registros correferentes —es decir, que posiblemente refieran un mismo hecho—. Luego, el modelo de clasificación estima un score (definido entre 0 y 1) que indica la similaridad entre cada par de registros (1 sí es similar y 0 de lo contrario).
Modelo de grupos: se genera un grupo de expansión proveniente de la clasificación del modelo anterior. Para ello, se usa puntaje que mide la ‘similitud’ entre registros y se define un umbral a partir del cual se asume que un par de registros corresponden a una misma persona y un mismo hecho violento. El umbral ‘correcto’ se estimó con los datos de entrenamiento clasificados por Michelle Dukich. La figura 2 muestra que el error en el conteo tras aplicar este método es muy bajo.

Figura 2. Resultados de testeo del modelo de grupos en la identificación de registros duplicados. Elaborado por HRDAG.

Al finalizar este proceso se concluyó que, de los casi 13 millones de registros iniciales, 8.775.884 son registros únicos.

La probabilidad de que una víctima sea registrada en varias bases de datos depende, por ejemplo, de la ciudad en la que reside y de si es o no una figura pública. Eliminar estos registros duplicados es esencial para que los datos reflejen fielmente las dinámicas del conflicto y no sobre representen a ciertos grupos.

¹En este contexto, se conoce como “oráculo” a una persona o herramienta que, como Michelle, se encarga de hacer la asignación de etiquetas de una categoría en particular a cada observación de una base de datos.

Imputación estadística de campos faltantes

La base de registros únicos generada en la etapa anterior contiene características (campos) de cada hecho violento documentado. Por ejemplo, organización a la que pertenecía el perpetrador, género, edad y etnia de la víctima; fecha y ubicación del hecho, etc… Con una cantidad tan grande de registros, los campos faltantes no son un problema per se. Si el hecho de que un campo falte fuera aleatorio, esto no tendría mayor impacto en el análisis. Sin embargo, el hecho de que un campo falte está relacionado con variables como la fecha del hecho (porque el sistema de registro de víctimas ha cambiado a lo largo del tiempo) o la ubicación (porque hay disparidad en las capacidades de reporte de cada región).

Al tener en cuenta esta variables observadas se corrige el sesgo. Los investigadores hacen la hipótesis de que los valores faltantes de una variable siguen un patrón similar a los valores observados, condicionados al resto de variables observadas. Así, hacen uso de la metodología MAR: Missing at Random, que consiste en construir ecuaciones encadenadas con una especificación condicionada a los datos observados, que contengan información sobre cómo se relacionan las variables —por ejemplo, el género y la edad de la víctima— y un componente aleatorio. Esta ecuación sirve para imputar los datos faltantes, cuando los haya, a cada registro. El proceso se repite múltiples veces para estimar los parámetros de interés de cada conjunto de datos, y finalmente se combinan las estimaciones para generar una predicción puntual de los datos faltantes, aplicando las reglas de combinación de Rubin. Esta metodología se implementó mediante el método Predictive mean matching del paquete mice de R.

Las diferentes bases de datos contienen información heterogénea, por lo que esta se divide entre variables de base (aquellas que pueden presentar información faltante y que son relevantes en el estudio) y variables de soporte. Estas últimas se construyen mediante información adicional de las bases de datos. Por ejemplo, el arma homicida, la vereda o ubicación, la profesión de la víctima o el relato del hecho. Justamente el relato de hecho, luego de ser limpiado y lematizado, se usa para la construcción de una red neuronal del tipo Long-Short Term Memory (LSTM) que permite estimar el score de probabilidad de una variable de soporte para cada categoría de un evento violento (i.e que haya sido homicidio, que haya sido cometido por grupos guerrilleros, etc.).

Estimación del subregistro de víctimas

Nuevamente, el subreporte (hechos que no se registran en ninguna base de datos) no existe por azar, sino por diferencias estructurales en el escenario del conflicto armado: ausencia de entidades que registren las denuncias, el miedo a denunciar por posibles amenazas, dificultades geográficas, entre otras. También, hay grupos étnicos, geográficos o ideológicos que sistemáticamente tiene menor probabilidad de ser registrados cuando experimentan una violación a los derechos humanos.

Dado lo anterior, los investigadores emplearon la Estimación por Sistemas Múltiples (ESM) para abordar adecuadamente el problema del subreporte de víctimas. La ESM es aplicable cuando se cumplen cuatro supuestos:

La población estimada es cerrada. Es decir, una vez que una persona entra a un estado (por ejemplo, homicidio), no sale de ese estado. Esto es razonable por la naturaleza de los estados considerados.
El vínculo de los registros es preciso: esto se garantiza por el tratamiento de las bases de datos desarrollado en la etapa 1.
Independencia de la fuentes, es decir, el que un hecho esté documentado en una fuente no afecta la probabilidad de que también esté documentado en otras fuentes. Aunque es difícil que esto se cumpla, la literatura ha mostrado que el problema se reduce cuando se usan tres o más bases. El estudio emplea más de 100.
Probabilidad de captura homogénea entre unidades de observación. Es decir, que todos los eventos tengan la misma probabilidad de ser documentados en cada base de datos empleada. Como se ha discutido, esto no es realista, así que para resolver el incumplimiento de este supuesto se aplicó un enfoque de estratificación, en el que se definen subconjuntos de los datos en los que la condición sí se cumpla. Por ejemplo, estratificar por año dió buenos resultados. Cada estrato funciona como una proxy a la homogeneización de la probabilidad mencionada. Se hace uso de un tipo de ESM bayesiano no paramétrico llamado “Modelos de Clases Latentes Múltiples para Captura-Recaptura” para implementar esta solución.

Este enfoque busca aproximar el tamaño real de una población (número de víctimas de cada violación a derechos humanos) a partir de los patrones de documentación de los hechos: si un hecho es documentado múltiples veces por varias fuentes² y se cumplen los anteriores supuestos, el tamaño del subregistro no es tan significativo. En cambio, si las coincidencias entre bases de datos son reducidas, se estima que el subregistro es mayor.

Al aplicar este método, se puede estimar un intervalo de confianza para el número real de víctimas de cada año entre 1985 y 2018. La figura 3 muestra el resultado para el caso de desaparición forzada. Se concluye, entre otros, que el aumento de este fenómeno a comienzos de los 2000 fue más pronunciado que lo que se creía y que en 2007 hubo un pico de subregistros.

Figura 3. Víctimas de desaparición forzada entre 1985 y 2016. Tomado del Informe metodológico del proyecto conjunto JEP-CEV-HRDAG de integración de datos y estimación estadística (2022).

² En el caso de la desaparición forzada, la mayoría de registros son aportados por el RUV, lo que compromete la robustez de la metodología según el Departamento Administrativo Nacional de Estadística (Dane, 2023)

Algunas implicaciones

Los resultados de este análisis son relevantes en dos frentes: por un lado, contar con registros más precisos sobre violaciones a los derechos humanos permite mejorar los análisis cuantitativos que se hagan sobre estos fenómenos y formular con mayor exactitud la política pública de víctimas; por otro lado, el subregistro es en sí mismo una variable interesante para estudiar. Estos datos indican qué periodos, lugares y grupos poblacionales han tenido peor monitoreo de violaciones a derechos humanos durante el conflicto armado y, con ello, indican qué tan bien se han empleado las capacidades estatales y no estatales para documentar estos fenómenos. En suma, esta investigación genera un gran aporte para esclarecer la magnitud y características de la violencia generada por un fenómeno tan complejo como el conflicto armado colombiano.

Los resultados de las estimaciones para las distintas violaciones de derechos humanos se encuentran publicados por el Departamento Administrativo Nacional de Estadística (DANE, 2023). Se puede acceder a ellos a través de este enlace. La base de datos final, construida con la metodología aquí descrita, está organizada temporal y geográficamente, lo que permitirá desarrollar futuras investigaciones sobre la dinámica del conflicto y su relación con otras variables institucionales, sociales y económicas.

Fuentes

Links de interés

Artículos recientes

En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.

Justicia Algorítmica

Justicia en los Modelos de Inteligencia Artificial: Nueva Perspectiva Basada en el Re-diseño de Algoritmos

En los últimos años, los modelos de inteligencia artificial han demostrado un potencial increíble para transformar industrias, desde la salud hasta las finanzas. Sin embargo, también han expuesto un problema preocupante: el sesgo algorítmico.

Leer artículo

Machine Learning

Inferencia Robusta y Cuantificación de Incertidumbre para la Toma de Decisiones Basada en Datos

Los modelos de aprendizaje automático se han convertido en herramientas esenciales para la toma de decisiones en sectores críticos como la salud, las políticas públicas y las finanzas. Sin embargo, su aplicación práctica enfrenta dos grandes desafíos: el sesgo de selección en los datos y la cuantificación adecuada de la incertidumbre.

Leer artículo

Redes Neuronales

El Potencial Impacto del Aprendizaje de Máquinas en el Diseño de las Políticas Públicas en Colombia: Una década de experiencias

Este blog es un resumen extendido del articulo Riascos, A. (2025).1 Desde el inicio de la llamada tercera ola de redes neuronales (Goodfellow et al., (2016)), en la primera década de este siglo, se ha generado una gran esperanza en las posibilidades de la inteligencia artificial para transformar todas las actividades humanas. Asimismo, se han levantado alertas sobre los riesgos que conlleva la introducción de esta nueva tecnología (Bengio et al., (2024)).

Leer artículo

Deep Learning

Explorando Redes Neuronales en Grafos para la Clasificación de Asentamientos Informales en Bogotá, Colombia

Los asentamientos informales son definidos como áreas residenciales cuyos habitantes no poseen tenencia legal de las tierras, los barrios carecen de servicios básicos e infraestructura urbana y no cumplen con requisitos de planificación, así como se pueden encontrar en zonas de peligro ambiental y geográfico (ONU, 2015).

Leer artículo

Tecnología

Reinforcement Learning para Optimización de Portafolios

En el contexto de los mercados financieros, la optimización de portafolios consiste en identificar la combinación óptima de activos para maximizar la relación retorno-riesgo. No obstante, esta toma de decisiones se realiza en un entorno de incertidumbre, ya que el comportamiento de los activos no es estacionario a lo largo del tiempo.

Leer artículo

Tecnología

Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Víctimas Invisibles: la estimación del subregistro en el Conflicto Armado

Tags

Newsletter

Artículos recientes

Justicia Algorítmica

Justicia en los Modelos de Inteligencia Artificial: Nueva Perspectiva Basada en el Re-diseño de Algoritmos

Leer artículo

Machine Learning

Inferencia Robusta y Cuantificación de Incertidumbre para la Toma de Decisiones Basada en Datos

Leer artículo

Redes Neuronales

El Potencial Impacto del Aprendizaje de Máquinas en el Diseño de las Políticas Públicas en Colombia: Una década de experiencias

Leer artículo

Deep Learning

Explorando Redes Neuronales en Grafos para la Clasificación de Asentamientos Informales en Bogotá, Colombia

Leer artículo

Tecnología

Reinforcement Learning para Optimización de Portafolios

Leer artículo

Tecnología

Clustering de datos genómicos

Leer artículo

Mantengámonos en contacto

Nuestras redes

Servicios

Recursos