Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Antes de 2009, se utilizaba la secuenciación en masa (Bulk RNA-seq), que proporcionaba un perfil global de expresión génica para toda la muestra combinada. El resultado de este método era un vector cuya dimensión correspondía al número total de genes de la especie, donde cada entrada representaba el nivel promedio de expresión de un gen en la muestra analizada. Sin embargo, en 2009 surgió una nueva tecnología llamada secuenciación de célula única (scRNA-seq), que se ha consolidado como una de las técnicas más utilizadas en el campo. Este método incluye un paso adicional para separar químicamente cada célula individual antes de la secuenciación, lo que permite analizar la expresión génica a nivel celular en lugar de hacerlo de manera global. Esto permite un análisis más detallado, especialmente en los distintos tipos celulares, que se caracterizan por sus propiedades fisiológicas, morfológicas y funcionales. Al obtener un perfil de expresión para cada célula, esta metodología genera una matriz en la que se presenta el nivel de expresión de cada célula individual (ver Figura 1).

Figura 1: Pasos de Singel Cell RNA-seq

Una de las primeras tareas en el análisis de datos de scRNA-seq es la clusterización de las células, cuyo objetivo es agruparlas de manera que los grupos reflejen los tipos celulares presentes en la muestra. Este proceso enfrenta varios desafíos importantes:

  1. La alta dimensionalidad de los datos, que en el caso de los humanos puede involucrar entre 25.000 y 35.000 genes, dependiendo de los genes reportados.
  2. La alta dispersión de la matriz de conteos, que en muchos casos puede superar el 90%.
  3. Los errores técnicos, como los dropouts, que generan ceros falsos en los datos.

Este proyecto se centró en la clusterización de los datos, proponiendo nuevas metodologías basadas en la distribución inherente de los mismos. Además, se realizaron comparaciones con métodos previamente utilizados y con enfoques tradicionales para la agrupación de datos en alta dimensionalidad. Finalmente, se desarrolló un demo de una aplicación que ejecuta los métodos más efectivos desarrollados en el proyecto.

La primera aproximación desarrollada utiliza un método de agrupación basado en grafos. A partir de la matriz de conteos, se calcula la correlación de Pearson entre cada par de células y se construye el grafo k-MST con k = log(número de células). Inicialmente, el grafo se inicializa como el árbol de expansión mínima (MST) del grafo original. Luego, se recalcula el MST del grafo inicial, excluyendo las aristas que ya han sido incorporadas en el nuevo grafo. Este proceso iterativo continúa durante k iteraciones, y el grafo final se obtiene al unir los k árboles de expansión mínima ortogonales. Una vez construido el grafo, se ejecuta el algoritmo de Louvain para detectar las comunidades (Figura 2).

Figura 2: Algoritmo basado en grafos. a) Extracción de datos de células individuales. b) Consolidación de la matriz de recuentos crudos. c) Normalización de los datos basada en factores de tamaño. d) Cálculo de correlaciones de Pearson en pares. e) Construcción del grafo. f) Detección de comunidades.

La segunda aproximación utiliza una red de tipo autoencoder para la reducción de dimensionalidad y para aprender los parámetros de los clusters. A diferencia de una arquitectura tradicional, esta red no tiene solo una capa de salida, sino tres, que representan los parámetros de la distribución binomial negativa con inflación de ceros. A partir de esto, se define una función de pérdida llamada LZINB, que es de tipo log-likelihood y permite ajustar los datos a esta distribución. La binomial negativa se emplea comúnmente en datos de secuenciación debido a su capacidad para modelar la sobredispersión, mientras que la inflación de ceros facilita la modelación de los dropouts en los datos.

La segunda función de pérdida utilizada LGMM permite aprender los parámetros de los clusters mediante una función característica de los modelos de mezcla gaussiana, donde se asume que cada cluster sigue una distribución normal. El entrenamiento se divide en dos fases: la primera se enfoca en la reducción de dimensionalidad, mientras que en la segunda se introduce el aprendizaje de los parámetros de los clusters.

 

Figura 3: Arquitectura de la metodología basada en redes neuronales

Por último, se desarrolló un modelo supervisado utilizando la base de datos del Human Protein Atlas, que contiene perfiles de expresión para diferentes tipos celulares en 81 tejidos humanos. Aunque se podría utilizar cualquier modelo supervisado, más del 50% de los tipos celulares tenían una única representación, lo que complicaba la aplicación de métodos tradicionales. Por esta razón, se optó por un enfoque basado en Naive Bayes, utilizando una distribución binomial negativa para ajustar los conteos de la matriz de entrenamiento. Además, se incorporó información previa sobre el tejido secuenciado, dando más peso a los tipos celulares correspondientes al tejido analizado, lo que mejoró la precisión del modelo. Antes de entrenar el modelo, las bases de datos fueron normalizadas para asegurar que todas las características tuvieran la misma magnitud, facilitando así una comparación más equitativa entre las distintas variables.

Figura 4: Algoritmo supervisado basado en la distribución binomial negativa. Se reciben tres entradas, la base de Human Protein Atlas (a), la matriz de conteos del experimento a analizar (b) y el tejido del experimento (c). Se realiza una normalización de los datos para garantizar que se mantengan las mismas magnitudes (d) y se procede a entrenar el modelo (e), en donde se aprenden las medias y dispersiones de cada gen en los tipos celulares considerados. Finalmente, con la base normalizada se obtienen las probabilidades de cada célula de pertenecer a los tipos celulares del HPA (f)

El rendimiento de los tres modelos se comparó con metodologías tradicionales para datos de alta dimensionalidad y con herramientas utilizadas actualmente para la clusterización de datos de scRNA-seq. Para esto, se utilizaron tanto datos simulados generados con la herramienta Symsim como datos de experimentos reales, comparando los clusters identificados por expertos con los detectados por los algoritmos. En la mayoría de los casos, al menos uno de los algoritmos desarrollados mostró mejores resultados que las otras aproximaciones. Sin embargo, ninguno de los métodos se destacó de manera consistente sobre los demás, posiblemente por la complejidad inherente de los datos. Esto resalta la necesidad de continuar investigando y desarrollando nuevas metodologías de agrupación para el análisis de datos de secuenciación.

Tags

Newsletter

Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.

Link a la presentación del seminario

https://www.youtube.com/watch?v=Q3MBYLpNDI0 

Referencias

Artículos recientes

En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.

Tecnología

Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Matemáticas del Descontento: Estudio de las Protestas Panameñas desde la Teoría de Grafos y Juegos

Durante la segunda mitad de 2022, Panamá enfrentó un hecho social sin precedentes. Si bien en el pasado ha habido protestas por parte de ciertos sectores sociales, nunca se había registrado una manifestación tan masiva que incluyera a distintos sectores de la sociedad panameña …

Justicia Algorítmica

Equidad en modelos de inteligencia artificial: ¿Cómo mitigar la discriminación en presencia de múltiples atributos sensibles?

Supongamos que contamos con un modelo de aprendizaje de máquinas, f, que predice el precio de una prima de seguros, Y, para unos datos que incluyen un atributo sensible, como lo es el género. Puede existir una discriminación debido a un …

Tecnología

Modelos de traducción para la preservación de las lenguas indígenas en Colombia

Según la Organización Nacional Indígena de Colombia (ONIC) existen 69 lenguas habladas en el territorio colombiano, entre las cuales 65 son lenguas indígenas. Esto posiciona a Colombia como el tercer país con mayor diversidad lingüística en el territorio latinoamericano, después de Brasil y México, con una notable concentración en las zonas de la Amazonía y el Vaupés…

Economía

Diseños óptimos para subastas de electricidad

Esta entrada de blog está basada en mi tesis de maestría en ingeniería industrial y economía en la Universidad de los Andes, titulada Optimal Design for Electricity Auctions: A Deep learning approach.

Tecnología

Víctimas Invisibles: la estimación del subregistro en el Conflicto Armado

El conflicto armado interno en Colombia representa una gran porción en la historia del país. La disputa por poder y control territorial entre los distintos grupos armados y las instituciones estatales ha desatado la violación de derechos humanos.