Double-robust estimators in log-linear capture-recapture models

¿Cómo podríamos estimar el número de desaparecidos por el conflicto armado colombiano? O ¿Cuántos individuos quedan de una población de animales en vía de extinción? Estas son preguntas que permiten responder los estimadores de captura y recaptura, en últimas, estos buscan calcular la cantidad total de la población existente con base en información recopilada a través de muestras.

La figura 1 presenta el método de captura y recaptura. En este, suponga que tiene una población total sobre la que desconoce su tamaño (N) representada por la letra d, pero, a través del muestreo identificó a dos partes de la población (fuente 1 y 2). Ahora, sea b el número de individuos en la fuente 1, c el número de individuos en la fuente 2 and a el número de individuos que aparecen en ambas fuentes. Entonces se puede estimar la cantidad total de individuos (N) como N= c*b/a. No obstante, para que esta estimación sea posible se debe partir de un supuesto importante: independencia entre listas. Este supuesto sugiere que la probabilidad de ser capturado en una lista es independiente de la probabilidad de ser capturada en otra. 

Figura 1: representación gráfica del método de captura y recaptura con dos fuentes

Claro, este supuesto es plausible en poblaciones de animales, donde la probabilidad de capturar un individuo es independiente de recapturarlo. No obstante, en poblaciones sociales como las personas pueden haber patrones de comportamiento como la ubicación, las migraciones, entre otros que hagan que un individuo sea capturado en múltiples listas, violando el cumplimiento de este supuesto. Aunque, en épocas modernas se desarrollaron nuevas formas de estimación más elaboradas como los modelos log-lineales, no obstante, siguen partiendo de este “dudoso” supuesto o relajándolo a que esta probabilidad es independiente si “condiciono” por algunas características observables.

En esta línea, Mateo Dulce ofrece una solución muy inteligente. Utiliza una reciente literatura sobre estimadores robustos para encontrar una forma estadística, con mínima varianza, insesgada y consistente de estimar este parámetro, incluso si se rompe este supuesto de independencia. Para esto, intuitivamente trata de estimar el sesgo presente en la estimación inicial, usando teoría de eficiencia semiparamétrica. Dada la dificultad que tiene explicar estos de forma intuitiva, les dejo los enlaces de la página de Mateo Dulce por si quieren aprender más sobre el tema:

Mateo Dulce Rubio – Statistics & Data Science – Dietrich College of Humanities and Social Sciences – Carnegie Mellon University (cmu.edu)

También, pueden seguir el canal de youtube de Quantil, donde se publican las grabaciones de los semilleros. Entre estos el de Mateo. 

Quantil Matemáticas Aplicadas – YouTube

 

Muchas gracias por leerme.

Tags
Artificial intelligence

Newsletter

Get information about Data Science, Artificial Intelligence, Machine Learning and more.

Recent articles

In the Blog articles, you will find the latest news, publications, studies and articles of current interest.

Mathematics of Discontent: A Study of the Panamanian Protests from Graph and Game Theory

During the second half of 2022, Panama faced an unprecedented social event. Although in the past there have been protests by certain social sectors, never before had there been such a massive demonstration that included different sectors of Panamanian society ...

Algorithmic Justice

Fairness in artificial intelligence models: how to mitigate discrimination in the presence of multiple sensitive attributes?

Let's suppose we have a machine learning model, 𝑓, that predicts the price of an insurance premium, Y, based on data that includes a sensitive attribute, such as gender. Discrimination may occur due to a statistical bias...

Technology

Translation models for the preservation of indigenous languages in Colombia

According to the National Indigenous Organization of Colombia (ONIC) there are 69 languages spoken in Colombian territory, 65 of which are indigenous languages. This makes Colombia the third most linguistically diverse country in Latin America, after Brazil and Mexico, with a notable concentration in the Amazon and Vaupés...

Economía

Optimal designs for electricity auctions

This blog entry is based on my master's thesis in Industrial Engineering and Economics at the Universidad de los Andes, titled "Optimal Design for Electricity Auctions: A Deep Learning Approach."

Technology

Invisible Victims: Estimating Underreporting in the Armed Conflict

The internal armed conflict in Colombia represents a large portion of the country's history. The dispute for power and territorial control between different armed groups and state institutions has unleashed the violation of human rights.

Algorithmic Justice

Trade-off between justice and adjustment: a case study of crime

The study of algorithmic justice emerged in 2011 with Cynthia Dwork [1], who based it on the principle of equal opportunity: all people, regardless of their characteristics, should be able to access the same opportunities and benefits.