Cosmology to the Extreme: Artificial Intelligence for Mapping the Universe on a Large Scale

© Claire Lamman/DESI collaboration; custom colormap package by cmastro

What if the laws of physics as we know them were wrong? Not in some minor detail, but in something fundamental. That is one of the two possible conclusions that emerge from the most recent data on the large-scale universe: either there is a completely unknown energy component, or our physics needs to be rebuilt from its foundations. In either case, artificial intelligence is at the center of how we are arriving at that answer.

In the seminar held on November 20, 2025, Jaime Forero-Romero, Associate Professor in the Department of Physics at Universidad de los Andes, presented the current state of this problem: how to map the universe on a large scale, what that map tells us about its composition and fate, and how artificial intelligence has become indispensable at every step of the process.

A Map Where Every Point Is a Galaxy

Jaime’s core work consists of building maps of the universe. Real three-dimensional maps where each point represents an entire galaxy, and the whole Milky Way fits into less than a pixel. These maps are constructed using spectroscopic telescopes that measure the redshift of millions of galaxies, making it possible to infer their distance and locate them in space.

The key instrument is the Dark Energy Spectroscopic Instrument (DESI), a next-generation survey located in Arizona. DESI consists of three components: 5,000 small robots, each with an optical fiber at its tip, mounted on a telescope that captures light from galaxies, along with a spectrograph that breaks that light down and records the information. The result is tens of millions of spectra—more than everything accumulated in the entire previous history of astronomy. Its findings have made the front pages of Le Monde and The Economist.

Observing with DESI is not a matter of sitting beside the telescope and looking through the eyepiece. It means spending the night watching terminals with graphs and Python pipelines running, verifying that the data are coming out correctly, and deciding which command to execute next. Twenty-first-century observational cosmology is, therefore, a data science.

Redshift: How We Measure the Universe

To build these maps, the key concept is redshift. When light from a galaxy passes through a spectrograph, it is broken down into its wavelengths, revealing dark lines characteristic of elements such as hydrogen. If those lines are shifted toward longer wavelengths compared to where they should be according to quantum mechanics, we say that the galaxy has a redshift Z, where

 

The interpretation is not, as one might think, that galaxies are moving away from us as in the Doppler effect. The correct interpretation is that spacetime itself is expanding. If you run that movie backward, you arrive at a point of almost infinite density: the Big Bang. This was the conclusion of Hubble’s famous graph, created nearly 100 years ago with only about twenty data points, and which laid the foundations of modern cosmology.

Dark Energy: Constant or Not?

In the late twentieth century, by measuring the brightness of supernovae at different distances, a group of astronomers discovered that the universe is not only expanding, but doing so at an ever-increasing rate. They received the 2011 Nobel Prize in Physics for that discovery. Explaining this acceleration requires one of two possibilities: either there is an unknown component of the universe (dark energy) that acts as a repulsive pressure, or the laws of physics are wrong on cosmological scales.

Since then, the standard model has assumed that dark energy is a constant: the same everywhere and at all times, like a horizontal line on a graph of density versus time. What the DESI data are suggesting is that this line is not straight—that is, dark energy may vary over time. Since that result was published, approximately two or three theoretical papers per day have appeared proposing explanations. The paper has already accumulated nearly 1,000 citations in a single year.

It is worth not confusing dark energy with dark matter, two distinct concepts. Dark matter has gravity, forms clumps called halos, and every galaxy resides within one of them. Dark energy does not form structures; it is distributed homogeneously throughout space. Neither is fully understood: dark matter has never been detected in particle accelerators, and dark energy challenges fundamental physics. In any case, either path—a new component or incorrect physics—represents a profound frontier of knowledge.

Las ondas de sonido congeladas del universo temprano

Uno de los fenómenos que se buscan en estos mapas son las Oscilaciones Acústicas de Bariones (BAO). En el universo temprano existía un plasma caliente y denso atravesado por ondas de sonido, perturbaciones en la densidad que se propagaban a velocidades enormes. Cuando el universo se expandió y se enfrió, esas ondas se «congelaron» y dejaron una huella estadística en la distribución de galaxias que observamos hoy.

Esa huella se detecta como un exceso de probabilidad de encontrar pares de galaxias separadas por una distancia específica, calculable a partir de física relativista. Esta “regla estándar” de tamaño conocido permite medir distancias cósmicas y reconstruir cómo ha evolucionado la tasa de expansión del universo. Es, precisamente, el método que usa DESI para evaluar si la energía oscura varía en el tiempo.

El problema central: inversión a gran escala

El reto fundamental de la cosmología observacional puede plantearse así: dado un universo observado (un mapa de galaxias) queremos inferir los parámetros físicos que lo generaron. Es un problema de inversión masivo y de alta dimensionalidad. Se parte de lo observado y se busca devolverse a la receta: qué distribución inicial de materia y energía, bajo qué leyes físicas, produjo lo que vemos. Y ahí es donde entra la inteligencia artificial.

El crecimiento exponencial de datos lo hace inevitable. En los años 80 el estado del arte era obtener miles de espectros. En el 2000, cientos de miles. En 2010, un millón. DESI llevará esa cifra a decenas de millones. Lo que un experimento anterior lograba en cinco años, DESI lo hace en un mes, gracias a sus 5.000 robots y al procesamiento automatizado en supercomputadoras. Manejar ese volumen sin aprendizaje automático es imposible.

Tres usos de IA en DESI

El survey DESI tiene tres familias de proyectos de inteligencia artificial aplicados a los datos, desarrollados en el grupo de Jaime Forero:

  1. Reducción de dimensionalidad para detección de outliers

Cada espectro de DESI es un arreglo de aproximadamente 5.000 puntos: una intensidad por longitud de onda. Con millones de esos espectros, el espacio de datos vive en dimensión 5.000. Usando UMAP (Uniform Manifold Approximation and Projection), se reduce esa dimensionalidad a dos o tres dimensiones, preservando la estructura de similitud entre espectros. En esa representación comprimida, galaxias similares quedan agrupadas y los outliers (espectros que no se parecen a ningún otro) aparecen como islas aisladas.

Este trabajo, iniciado por el estudiante doctoral John con 1,7 millones de espectros, fue continuado por Valeria Torres Gómez, estudiante de doble programa de física e ingeniería de sistemas, ahora con acceso a 52 millones de espectros del survey completo. El pipeline corre de forma masivamente paralela en NERSC, una de las supercomputadoras más potentes del mundo, ubicada en Berkeley, y permite analizar 50 millones de espectros de un día para el otro.

¿Para qué sirven los outliers? En su mayoría revelan fallas del instrumento: fluctuaciones en las CCD, errores en el pipeline, datos contaminados. Identificarlos permite «limpiar» el mapa y garantizar que cada punto es confiable. Aunque parezca un problema secundario, reducir la basura en el mapa, incluso en un 1%, es crítico para la inferencia estadística de parámetros cosmológicos: cada fuente de incertidumbre eliminada mejora la precisión de las conclusiones. En algunos casos, además, los outliers son genuinamente atípicos desde el punto de vista astrofísico y merecen investigación propia.

  1. Predicción de redshift a partir de imágenes

Obtener el espectro completo de una galaxia es costoso en tiempo de telescopio. Sin embargo, DESI previamente tomó imágenes fotométricas del cielo. La pregunta es: ¿se puede predecir el corrimiento al rojo de una galaxia solo a partir de su imagen, sin necesidad de tomar su espectro?

Usando redes neuronales convolucionales entrenadas con los datos etiquetados de DESI, el grupo logró hacer exactamente eso: inferir el redshift de galaxias en regiones donde solo existen imágenes. Compararon dos enfoques: ingeniería de features manual versus pasar el espectro completo a la red. La red convolucional sobre el espectro completo dio mejores resultados.

  1. Clasificación de posición en la red cósmica con grafos y Random Forest

La distribución de galaxias no es aleatoria: forma una estructura filamentaria conocida como la red cósmica, con filamentos, nodos y vacíos. Clasificar en qué parte de esa estructura vive cada galaxia es una tarea que el ojo humano no puede hacer a la escala de DESI.

El enfoque del grupo fue construir un grafo sobre las posiciones de las galaxias, usando específicamente el grafo beta skeleton, popular en reconocimiento visual por seguir la conectividad que el ojo humano percibe como filamentos y, usar las propiedades de ese grafo como features de entrada a un Random Forest. El modelo, entrenado en simulaciones cosmológicas, predice si una galaxia está en un filamento, un nodo, un vacío u otra región de la red cósmica.

Un mensaje importante: la IA no es infalible

Jaime Forero-Romero fue enfático en un punto: en cosmología, ningún resultado basado en IA se acepta sin confirmación independiente. Ya sea por inspección visual de un experto humano o por un método estadístico alternativo, todo hallazgo debe validarse antes de considerarse científicamente sólido. La IA está integrada profundamente en cada paso del pipeline de DESI: desde el procesamiento cercano al instrumento hasta la interpretación de los mapas, pero siempre como una herramienta que requiere supervisión, no como un oráculo.

Conclusión

El trabajo presentado en este seminario ilustra cómo la cosmología moderna es, al mismo tiempo, física fundamental, ingeniería de datos y aprendizaje automático. Los resultados de DESI, que sugieren que la energía oscura no es constante, no habrían sido posibles sin pipelines masivos de procesamiento, reducción de dimensionalidad, redes convolucionales y clasificadores sobre grafos. Y a su vez, los problemas que plantea la cosmología (como alta dimensionalidad, datos ruidosos, inferencia inversa a gran escala) están empujando los límites de lo que la IA puede hacer.

La pregunta de fondo sigue abierta: ¿qué es la energía oscura? ¿Varía en el tiempo? ¿O estamos ante el colapso de la física como la conocemos? La respuesta, si llega, vendrá de mapas de galaxias analizados con algoritmos que hoy apenas empezamos a dominar.

Esta entrada en el blog resume el seminario «Cosmología al extremo: inteligencia artificial para mapear el Universo a gran escala», presentado por Jaime E. Forero-Romero el 20 de noviembre de 2025 en el marco de los seminarios de Quantil Matemáticas Aplicadas. El video completo está disponible en el canal de YouTube de Quantil.

Recent articles

In the Blog articles, you will find the latest news, publications, studies and articles of current interest.

IA

Cosmology to the Extreme: Artificial Intelligence for Mapping the Universe on a Large Scale

¿Qué pasaría si las leyes de la física que conocemos estuvieran mal? No en algún detalle menor, sino en algo fundamental. Esa es una de las dos posibles conclusiones que se derivan de los datos más recientes sobre el universo a gran escala …

Safety

Adversarial Robustness: How difficult is it to break a language model?

Large language models have become everyday tools: they assist in writing texts, support medical diagnoses, generate code, and answer complex questions in seconds …

Technology

When Mistakes Don’t Matter: Rethinking How We Train Decision-Making Models

The standard way to evaluate predictive models is dominated by a simple idea: if prediction error decreases, the model is better. Metrics such as MSE or accuracy have become the standard in most industrial pipelines …

Technology

Beyond the Average: Quantile Regression and Stepwise Policies

Suppose a government implements a new health policy aimed at reducing avoidable hospitalizations. A traditional evaluation might tell us that, on average, hospitalizations fall by 10%…

Neural Networks

Neural Networks for Optimization in Treasury Auctions

Which auction format—uniform-price or discriminatory—is more suitable for reducing the government’s financing cost?…

AI Governance

Beyond Automation: Why We Need New Metrics to Understand the Future of Work with AI

In recent years, the conversation about artificial intelligence and employment has been dominated by a substitution narrative: Which jobs will disappear? How many jobs will be replaced by algorithms? While this question is important, it has led us to view the future of work from a narrow perspective…