Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Antes de 2009, se utilizaba la secuenciación en masa (Bulk RNA-seq), que proporcionaba un perfil global de expresión génica para toda la muestra combinada. El resultado de este método era un vector cuya dimensión correspondía al número total de genes de la especie, donde cada entrada representaba el nivel promedio de expresión de un gen en la muestra analizada. Sin embargo, en 2009 surgió una nueva tecnología llamada secuenciación de célula única (scRNA-seq), que se ha consolidado como una de las técnicas más utilizadas en el campo. Este método incluye un paso adicional para separar químicamente cada célula individual antes de la secuenciación, lo que permite analizar la expresión génica a nivel celular en lugar de hacerlo de manera global. Esto permite un análisis más detallado, especialmente en los distintos tipos celulares, que se caracterizan por sus propiedades fisiológicas, morfológicas y funcionales. Al obtener un perfil de expresión para cada célula, esta metodología genera una matriz en la que se presenta el nivel de expresión de cada célula individual (ver Figura 1).

Figura 1: Pasos de Singel Cell RNA-seq

Una de las primeras tareas en el análisis de datos de scRNA-seq es la clusterización de las células, cuyo objetivo es agruparlas de manera que los grupos reflejen los tipos celulares presentes en la muestra. Este proceso enfrenta varios desafíos importantes:

  1. La alta dimensionalidad de los datos, que en el caso de los humanos puede involucrar entre 25.000 y 35.000 genes, dependiendo de los genes reportados.
  2. La alta dispersión de la matriz de conteos, que en muchos casos puede superar el 90%.
  3. Los errores técnicos, como los dropouts, que generan ceros falsos en los datos.

Este proyecto se centró en la clusterización de los datos, proponiendo nuevas metodologías basadas en la distribución inherente de los mismos. Además, se realizaron comparaciones con métodos previamente utilizados y con enfoques tradicionales para la agrupación de datos en alta dimensionalidad. Finalmente, se desarrolló un demo de una aplicación que ejecuta los métodos más efectivos desarrollados en el proyecto.

La primera aproximación desarrollada utiliza un método de agrupación basado en grafos. A partir de la matriz de conteos, se calcula la correlación de Pearson entre cada par de células y se construye el grafo k-MST con k = log(número de células). Inicialmente, el grafo se inicializa como el árbol de expansión mínima (MST) del grafo original. Luego, se recalcula el MST del grafo inicial, excluyendo las aristas que ya han sido incorporadas en el nuevo grafo. Este proceso iterativo continúa durante k iteraciones, y el grafo final se obtiene al unir los k árboles de expansión mínima ortogonales. Una vez construido el grafo, se ejecuta el algoritmo de Louvain para detectar las comunidades (Figura 2).

Figura 2: Algoritmo basado en grafos. a) Extracción de datos de células individuales. b) Consolidación de la matriz de recuentos crudos. c) Normalización de los datos basada en factores de tamaño. d) Cálculo de correlaciones de Pearson en pares. e) Construcción del grafo. f) Detección de comunidades.

La segunda aproximación utiliza una red de tipo autoencoder para la reducción de dimensionalidad y para aprender los parámetros de los clusters. A diferencia de una arquitectura tradicional, esta red no tiene solo una capa de salida, sino tres, que representan los parámetros de la distribución binomial negativa con inflación de ceros. A partir de esto, se define una función de pérdida llamada LZINB, que es de tipo log-likelihood y permite ajustar los datos a esta distribución. La binomial negativa se emplea comúnmente en datos de secuenciación debido a su capacidad para modelar la sobredispersión, mientras que la inflación de ceros facilita la modelación de los dropouts en los datos.

La segunda función de pérdida utilizada LGMM permite aprender los parámetros de los clusters mediante una función característica de los modelos de mezcla gaussiana, donde se asume que cada cluster sigue una distribución normal. El entrenamiento se divide en dos fases: la primera se enfoca en la reducción de dimensionalidad, mientras que en la segunda se introduce el aprendizaje de los parámetros de los clusters.

 

Figura 3: Arquitectura de la metodología basada en redes neuronales

Por último, se desarrolló un modelo supervisado utilizando la base de datos del Human Protein Atlas, que contiene perfiles de expresión para diferentes tipos celulares en 81 tejidos humanos. Aunque se podría utilizar cualquier modelo supervisado, más del 50% de los tipos celulares tenían una única representación, lo que complicaba la aplicación de métodos tradicionales. Por esta razón, se optó por un enfoque basado en Naive Bayes, utilizando una distribución binomial negativa para ajustar los conteos de la matriz de entrenamiento. Además, se incorporó información previa sobre el tejido secuenciado, dando más peso a los tipos celulares correspondientes al tejido analizado, lo que mejoró la precisión del modelo. Antes de entrenar el modelo, las bases de datos fueron normalizadas para asegurar que todas las características tuvieran la misma magnitud, facilitando así una comparación más equitativa entre las distintas variables.

Figura 4: Algoritmo supervisado basado en la distribución binomial negativa. Se reciben tres entradas, la base de Human Protein Atlas (a), la matriz de conteos del experimento a analizar (b) y el tejido del experimento (c). Se realiza una normalización de los datos para garantizar que se mantengan las mismas magnitudes (d) y se procede a entrenar el modelo (e), en donde se aprenden las medias y dispersiones de cada gen en los tipos celulares considerados. Finalmente, con la base normalizada se obtienen las probabilidades de cada célula de pertenecer a los tipos celulares del HPA (f)

El rendimiento de los tres modelos se comparó con metodologías tradicionales para datos de alta dimensionalidad y con herramientas utilizadas actualmente para la clusterización de datos de scRNA-seq. Para esto, se utilizaron tanto datos simulados generados con la herramienta Symsim como datos de experimentos reales, comparando los clusters identificados por expertos con los detectados por los algoritmos. En la mayoría de los casos, al menos uno de los algoritmos desarrollados mostró mejores resultados que las otras aproximaciones. Sin embargo, ninguno de los métodos se destacó de manera consistente sobre los demás, posiblemente por la complejidad inherente de los datos. Esto resalta la necesidad de continuar investigando y desarrollando nuevas metodologías de agrupación para el análisis de datos de secuenciación.

Tags

Newsletter

Get information about Data Science, Artificial Intelligence, Machine Learning and more.

Link a la presentación del seminario

https://www.youtube.com/watch?v=Q3MBYLpNDI0 

References

Recent articles

In the Blog articles, you will find the latest news, publications, studies and articles of current interest.

Technology

Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Mathematics of Discontent: A Study of the Panamanian Protests from Graph and Game Theory

During the second half of 2022, Panama faced an unprecedented social event. Although in the past there have been protests by certain social sectors, never before had there been such a massive demonstration that included different sectors of Panamanian society ...

Algorithmic Justice

Fairness in artificial intelligence models: how to mitigate discrimination in the presence of multiple sensitive attributes?

Let's suppose we have a machine learning model, 𝑓, that predicts the price of an insurance premium, Y, based on data that includes a sensitive attribute, such as gender. Discrimination may occur due to a statistical bias...

Technology

Translation models for the preservation of indigenous languages in Colombia

According to the National Indigenous Organization of Colombia (ONIC) there are 69 languages spoken in Colombian territory, 65 of which are indigenous languages. This makes Colombia the third most linguistically diverse country in Latin America, after Brazil and Mexico, with a notable concentration in the Amazon and Vaupés...

Economía

Optimal designs for electricity auctions

This blog entry is based on my master's thesis in Industrial Engineering and Economics at the Universidad de los Andes, titled "Optimal Design for Electricity Auctions: A Deep Learning Approach."

Technology

Invisible Victims: Estimating Underreporting in the Armed Conflict

The internal armed conflict in Colombia represents a large portion of the country's history. The dispute for power and territorial control between different armed groups and state institutions has unleashed the violation of human rights.