Trade-off entre justicia y ajuste: un caso de estudio de crimen

El estudio de la justicia algorítmica surge en 2011 con Cynthia Dwork [1], quien se basó en el principio de igualdad de oportunidades: todas las personas, sin importar sus características, deben poder acceder a las mismas oportunidades y beneficios. A partir de ese momento, el estudio de la justicia algorítmica comenzó a ganar popularidad, con el objetivo de identificar y mitigar problemas discriminatorios en los modelos de aprendizaje automático.

Particularmente preocupantes son los sesgos que pueden estar presentes en los modelos de predicción de crímenes. Los estados que emplean estos modelos confían en las predicciones resultantes para asignar recursos en diferentes áreas de una ciudad. Si el modelo tiene sesgos y, por ejemplo, pronostica más crímenes en zonas de bajos recursos sin que esto se refleje en la realidad, podría perjudicar a los habitantes de esas zonas al imponer una vigilancia innecesaria y excesiva.

Existen diversas causas para los sesgos en los modelos predictivos, siendo tres principales en los modelos de crímenes:

  1. Dificultad en registrar todos los crímenes en una ciudad: Incluso si un estado cuenta con un sistema de vigilancia uniformemente distribuido en la ciudad, detectar y registrar todos los crímenes que ocurren resulta ser una tarea compleja.
  2. Concentración elevada de eventos en ciertas áreas: Generalmente, algunas zonas de las ciudades presentan una mayor concentración de eventos criminales. Esto puede deberse a que realmente hay una alta tasa de crímenes en esa zona o a que otras áreas carecen de suficiente vigilancia y, por lo tanto, no informan sobre los eventos ocurridos.
  3. Suposiciones subyacentes del modelo: Los modelos de predicción de crímenes se basan en supuestos específicos. Si estos supuestos no se ajustan adecuadamente a la realidad o contienen sesgos inherentes, los resultados pueden estar distorsionados.

Las métricas comúnmente empleadas para evaluar el desempeño técnico de un modelo no revelan los sesgos subyacentes. Es posible que un modelo tenga una precisión del 98%, cometiendo solo un 2% de errores en sus predicciones. No obstante, si todos esos errores ocurren consistentemente en áreas habitadas por personas de estratos socioeconómicos bajos, podría evidenciarse un sesgo. Por esta razón, siguiendo el trabajo recientemente expuesto por  Cristian Pulido, Diego Alejandro Hernández y Francisco Gomez en el seminario de Matemáticas Aplicadas de Quantil, es imperativo definir métricas de evaluación distintas a las tradicionalmente utilizadas. Con este propósito, se establece una función de utilidad ƒ, que puede expresarse de la siguiente manera:

donde el conjunto C abarca todas las áreas protegidas, es decir, zonas que podrían verse afectadas, como las de bajos recursos socioeconómicos. Además, P representa la predicción probabilística, mientras que Q representa los crímenes simulados. En términos intuitivos, el objetivo es minimizar la disparidad entre estas dos distribuciones, logrando un modelo que capture la estructura subyacente de las distribuciones de crímenes.

A partir de este valor, se calculan algunas métricas de justicia como la varianza, la diferencia min-max y el valor Gini. Resulta particularmente importante analizar la relación entre estas métricas de justicia y las métricas tradicionales de rendimiento técnico. Este es el objetivo de Cristian Alejandro Pulido, y Diego Alejandro Hernández bajo la dirección de Francisco Gomez [2]. Para este fin, se simularon 30 escenarios siguiendo la distribución usual de población en ciudades latinoamericanas, las cuales se distribuyen como un Sector Model:

A partir de estas simulaciones se entrenaron tres modelos comúnmente utilizados en este ámbito: NAIVE, KDE y SEPP. Para cada uno de estos se analizó su rendimiento técnico comparando la distribución real simulada de la predicha por medio de la earth mover’s distance, y sus posibles sesgos a partir de la varianza, distancia max-min y Gini de la función de utilidad.

De estos experimentos se puede evidenciar que hay una tendencia de los modelos mejor ajustados a tener mayores injusticias, lo cual puede ser un problema social dado que la elección de un modelo comúnmente se basa únicamente en este tipo de métricas tradicionales. Al ignorar las métricas de justicia se puede estar incurriendo en sesgos implícitos y perjudicando a poblaciones históricamente discriminadas.

Aunque en las simulaciones se siguió una distribución poblacional usual en latinoamérica, los datos artificiales no siempre representan la realidad. En particular no cuentan con las problemáticas de desbalance y ausencia de datos. Es por esto que la investigación continuará para evidenciar qué impactos se tienen sobre datos reales de crímenes, y adicionalmente para analizar cómo el subreporte puede impactar la justicia de los modelos.

Referencias

[1] Cynthia Dwork, Moritz Hardt, Toniann Pitassi, Omer Reingold y Richard Zemel. Fairness Through Awareness, 2011. 

[2] Cristian Pulido, Diego Alejandro Hernández y Francisco Gomez. Análisis sobre la justicia de los modelos más usuales en Seguridad Predictiva. https://www.youtube.com/watch?v=uCIanZ8jT-4

Tags
Justicia Algorítmica

Newsletter

Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.

Artículos recientes

En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.

Matemáticas del Descontento: Estudio de las Protestas Panameñas desde la Teoría de Grafos y Juegos

Durante la segunda mitad de 2022, Panamá enfrentó un hecho social sin precedentes. Si bien en el pasado ha habido protestas por parte de ciertos sectores sociales, nunca se había registrado una manifestación tan masiva que incluyera a distintos sectores de la sociedad panameña …

Justicia Algorítmica

Equidad en modelos de inteligencia artificial: ¿Cómo mitigar la discriminación en presencia de múltiples atributos sensibles?

Supongamos que contamos con un modelo de aprendizaje de máquinas, f, que predice el precio de una prima de seguros, Y, para unos datos que incluyen un atributo sensible, como lo es el género. Puede existir una discriminación debido a un …

Tecnología

Modelos de traducción para la preservación de las lenguas indígenas en Colombia

Según la Organización Nacional Indígena de Colombia (ONIC) existen 69 lenguas habladas en el territorio colombiano, entre las cuales 65 son lenguas indígenas. Esto posiciona a Colombia como el tercer país con mayor diversidad lingüística en el territorio latinoamericano, después de Brasil y México, con una notable concentración en las zonas de la Amazonía y el Vaupés…

Economía

Diseños óptimos para subastas de electricidad

Esta entrada de blog está basada en mi tesis de maestría en ingeniería industrial y economía en la Universidad de los Andes, titulada Optimal Design for Electricity Auctions: A Deep learning approach.

Tecnología

Víctimas Invisibles: la estimación del subregistro en el Conflicto Armado

El conflicto armado interno en Colombia representa una gran porción en la historia del país. La disputa por poder y control territorial entre los distintos grupos armados y las instituciones estatales ha desatado la violación de derechos humanos.

Justicia Algorítmica

Trade-off entre justicia y ajuste: un caso de estudio de crimen

El estudio de la justicia algorítmica surge en 2011 con Cynthia Dwork [1], quien se basó en el principio de igualdad de oportunidades: todas las personas, sin importar sus características, deben poder acceder a las mismas oportunidades y beneficios.