Double-robust estimators in log-linear capture-recapture models

¿Cómo podríamos estimar el número de desaparecidos por el conflicto armado colombiano? O ¿Cuántos individuos quedan de una población de animales en vía de extinción? Estas son preguntas que permiten responder los estimadores de captura y recaptura, en últimas, estos buscan calcular la cantidad total de la población existente con base en información recopilada a través de muestras.

La figura 1 presenta el método de captura y recaptura. En este, suponga que tiene una población total sobre la que desconoce su tamaño (N) representada por la letra d, pero, a través del muestreo identificó a dos partes de la población (fuente 1 y 2). Ahora, sea b el número de individuos en la fuente 1, c el número de individuos en la fuente 2 and a el número de individuos que aparecen en ambas fuentes. Entonces se puede estimar la cantidad total de individuos (N) como N= c*b/a. No obstante, para que esta estimación sea posible se debe partir de un supuesto importante: independencia entre listas. Este supuesto sugiere que la probabilidad de ser capturado en una lista es independiente de la probabilidad de ser capturada en otra. 

Figura 1: representación gráfica del método de captura y recaptura con dos fuentes

Claro, este supuesto es plausible en poblaciones de animales, donde la probabilidad de capturar un individuo es independiente de recapturarlo. No obstante, en poblaciones sociales como las personas pueden haber patrones de comportamiento como la ubicación, las migraciones, entre otros que hagan que un individuo sea capturado en múltiples listas, violando el cumplimiento de este supuesto. Aunque, en épocas modernas se desarrollaron nuevas formas de estimación más elaboradas como los modelos log-lineales, no obstante, siguen partiendo de este “dudoso” supuesto o relajándolo a que esta probabilidad es independiente si “condiciono” por algunas características observables.

En esta línea, Mateo Dulce ofrece una solución muy inteligente. Utiliza una reciente literatura sobre estimadores robustos para encontrar una forma estadística, con mínima varianza, insesgada y consistente de estimar este parámetro, incluso si se rompe este supuesto de independencia. Para esto, intuitivamente trata de estimar el sesgo presente en la estimación inicial, usando teoría de eficiencia semiparamétrica. Dada la dificultad que tiene explicar estos de forma intuitiva, les dejo los enlaces de la página de Mateo Dulce por si quieren aprender más sobre el tema:

Mateo Dulce Rubio – Statistics & Data Science – Dietrich College of Humanities and Social Sciences – Carnegie Mellon University (cmu.edu)

También, pueden seguir el canal de youtube de Quantil, donde se publican las grabaciones de los semilleros. Entre estos el de Mateo. 

Quantil Matemáticas Aplicadas – YouTube

 

Muchas gracias por leerme.

Tags
Artificial intelligence

Newsletter

Get information about Data Science, Artificial Intelligence, Machine Learning and more.

Recent articles

In the Blog articles, you will find the latest news, publications, studies and articles of current interest.

Machine Learning

Inferencia Robusta y Cuantificación de Incertidumbre para la Toma de Decisiones Basada en Datos

Los modelos de aprendizaje automático se han convertido en herramientas esenciales para la toma de decisiones en sectores críticos como la salud, las políticas públicas y las finanzas. Sin embargo, su aplicación práctica enfrenta dos grandes desafíos: el sesgo de selección en los datos y la cuantificación adecuada de la incertidumbre.

Redes Neuronales

El Potencial Impacto del Aprendizaje de Máquinas en el Diseño de las Políticas Públicas en Colombia: Una década de experiencias

Este blog es un resumen extendido del articulo Riascos, A. (2025).1 Desde el inicio de la llamada tercera ola de redes neuronales (Goodfellow et al., (2016)), en la primera década de este siglo, se ha generado una gran esperanza en las posibilidades de la inteligencia artificial para transformar todas las actividades humanas. Asimismo, se han levantado alertas sobre los riesgos que conlleva la introducción de esta nueva tecnología (Bengio et al., (2024)).

Deep Learning

Explorando Redes Neuronales en Grafos para la Clasificación de Asentamientos Informales en Bogotá, Colombia

Los asentamientos informales son definidos como áreas residenciales cuyos habitantes no poseen tenencia legal de las tierras, los barrios carecen de servicios básicos e infraestructura urbana y no cumplen con requisitos de planificación, así como se pueden encontrar en zonas de peligro ambiental y geográfico (ONU, 2015).

Technology

Reinforcement Learning para Optimización de Portafolios

En el contexto de los mercados financieros, la optimización de portafolios consiste en identificar la combinación óptima de activos para maximizar la relación retorno-riesgo. No obstante, esta toma de decisiones se realiza en un entorno de incertidumbre, ya que el comportamiento de los activos no es estacionario a lo largo del tiempo.

Technology

Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Mathematics of Discontent: A Study of the Panamanian Protests from Graph and Game Theory

During the second half of 2022, Panama faced an unprecedented social event. Although in the past there have been protests by certain social sectors, never before had there been such a massive demonstration that included different sectors of Panamanian society ...