Estimadores doble-robustos en modelos log-lineales de Captura-Recaptura

¿Cómo podríamos estimar el número de desaparecidos por el conflicto armado colombiano? O ¿Cuántos individuos quedan de una población de animales en vía de extinción? Estas son preguntas que permiten responder los estimadores de captura y recaptura, en últimas, estos buscan calcular la cantidad total de la población existente con base en información recopilada a través de muestras.

La figura 1 presenta el método de captura y recaptura. En este, suponga que tiene una población total sobre la que desconoce su tamaño (N) representada por la letra d, pero, a través del muestreo identificó a dos partes de la población (fuente 1 y 2). Ahora, sea b el número de individuos en la fuente 1, c el número de individuos en la fuente 2 y a el número de individuos que aparecen en ambas fuentes. Entonces se puede estimar la cantidad total de individuos (N) como N= c*b/a. No obstante, para que esta estimación sea posible se debe partir de un supuesto importante: independencia entre listas. Este supuesto sugiere que la probabilidad de ser capturado en una lista es independiente de la probabilidad de ser capturada en otra. 

Figura 1: representación gráfica del método de captura y recaptura con dos fuentes

Claro, este supuesto es plausible en poblaciones de animales, donde la probabilidad de capturar un individuo es independiente de recapturarlo. No obstante, en poblaciones sociales como las personas pueden haber patrones de comportamiento como la ubicación, las migraciones, entre otros que hagan que un individuo sea capturado en múltiples listas, violando el cumplimiento de este supuesto. Aunque, en épocas modernas se desarrollaron nuevas formas de estimación más elaboradas como los modelos log-lineales, no obstante, siguen partiendo de este “dudoso” supuesto o relajándolo a que esta probabilidad es independiente si “condiciono” por algunas características observables.

En esta línea, Mateo Dulce ofrece una solución muy inteligente. Utiliza una reciente literatura sobre estimadores robustos para encontrar una forma estadística, con mínima varianza, insesgada y consistente de estimar este parámetro, incluso si se rompe este supuesto de independencia. Para esto, intuitivamente trata de estimar el sesgo presente en la estimación inicial, usando teoría de eficiencia semiparamétrica. Dada la dificultad que tiene explicar estos de forma intuitiva, les dejo los enlaces de la página de Mateo Dulce por si quieren aprender más sobre el tema:

Mateo Dulce Rubio – Statistics & Data Science – Dietrich College of Humanities and Social Sciences – Carnegie Mellon University (cmu.edu)

También, pueden seguir el canal de youtube de Quantil, donde se publican las grabaciones de los semilleros. Entre estos el de Mateo. 

Quantil Matemáticas Aplicadas – YouTube

 

Muchas gracias por leerme.

Tags
Inteligencia artificial

Newsletter

Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.

Artículos recientes

En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.

Tecnología

Víctimas Invisibles: la estimación del subregistro en el Conflicto Armado

El conflicto armado interno en Colombia representa una gran porción en la historia del país. La disputa por poder y control territorial entre los distintos grupos armados y las instituciones estatales ha desatado la violación de derechos humanos.

Justicia Algorítmica

Trade-off entre justicia y ajuste: un caso de estudio de crimen

El estudio de la justicia algorítmica surge en 2011 con Cynthia Dwork [1], quien se basó en el principio de igualdad de oportunidades: todas las personas, sin importar sus características, deben poder acceder a las mismas oportunidades y beneficios.

Tecnología

Evaluación De Políticas Bajo Ruido Markoviano Mediante El Algoritmo De Online Bootstrap Inference

Imagínese poder abstraer el mundo de tal forma que sea posible evaluar cuantitativamente el beneficio que se obtiene de tomar ciertas acciones a lo largo del tiempo. La buena noticia es que esto no es algo descabellado, de hecho una de las maneras de hacerlo es usando la teoría alrededor del Aprendizaje Reforzado (RL).

Tecnología

¿Quien Nada Debe, Nada Teme?

Gracias a los avances en la capacidad de cómputo; el aprendizaje automático y profundo, y la inteligencia artificial (IA), en la actualidad se vislumbran aplicaciones de la tecnología que antes parecían ciencia ficción

Economía

Diésel Y Gasolina: ¿Está El País Preparado Para Abandonar El Precio Regulado?

¿Se sorprendería si de un mes a otro la gasolina subiera $2,000 pesos por galón? Los datos financieros dirían que no. En términos simples, podemos imaginar la volatilidad como lo que consideraríamos movimientos normales.

Tecnología

Modelling Under-Reported Spatio-Temporal Crime Events *

This post is almost entirely equal to my previous post: Modelling Under-reported Spatio-temporal Events. However, following the suggestions of several referees, the emphasis is only on crime events.