Reinforcement Learning para Optimización de Portafolios

En el contexto de los mercados financieros, la optimización de portafolios consiste en identificar la combinación óptima de activos para maximizar la relación retorno-riesgo. No obstante, esta toma de decisiones se realiza en un entorno de incertidumbre, ya que el comportamiento de los activos no es estacionario a lo largo del tiempo. Además, la correlación entre el comportamiento de distintos activos a lo largo del tiempo plantea retos adicionales al intentar determinar cuál es el portafolio óptimo.

Gráfica 1: Retornos trimestrales de 12 acciones del índice de S&P 500. Se evidencian i) el comportamiento no estacionario de los retornos de los activos y ii) la correlación entre los diferentes retornos de los activos en un mismo momento del tiempo

Los modelos tradicionales como teoría de portafolios de Markowitz y el Modelo de Precios de Activos de Capital (CAPM) han sido ampliamente usados para responder a esta pregunta.  No obstante, con el boom del Machine Learning, han surgido una gama de modelos que plantean enfoques alternativos. Uno de ellos es el problema del bandido multiarmado (o Multi-Armed Bandit) y su enfoque con el algoritmo de Thompson Sampling (TS). 

Para contextualizar, suponga que usted se encuentra en un casino de Las Vegas y se encuentra frente a 10 jackpots, digamos que cada jackpot es un arma que usted puede disparar, y cada arma tiene una probabilidad de ganar. Su objetivo es maximizar su ganancia o retorno esperado. Existe incertidumbre en el juego, ya que no sabe la probabilidad exacta de ganar, pero puede aproximarse a estas distribuciones utilizando el teorema de Bayes. Al principio, tiene creencias iniciales sobre las probabilidades, pero a medida que avanza, refina su conocimiento en función de los resultados observados.

Gráfica 2: Máquinas Jackpots de casino en Las Vegas

Al inicio del juego, se asume que todas las máquinas tienen la misma probabilidad de ganar. Sin embargo, cada vez que tira de una palanca, obtiene nueva información sobre la probabilidad de ganar. Para decidir qué máquina usar, saca un valor aleatorio de cada distribución y elige la máquina con el valor más alto, lo que permite probar opciones menos exploradas de vez en cuando (exploración), pero enfocándose cada vez más en la mejor opción según los datos obtenidos (explotación). Mediante este trade off entre exploración y explotación, TS logra capturar la noción de retorno versus riesgo para tomar decisiones secuenciales con incertidumbre, aproximándose así a una modelación del comportamiento de los mercados financieros. 

Ahora bien, un supuesto importante detrás de TS es que las distribuciones sean estacionarias en el largo plazo, algo que no se cumple en el caso de los portafolios financieros. Por ello, han surgido extensiones de TS para flexibilizar este supuesto. Los algoritmos de Adaptive Thompson Sampling (ADTS) y Combinatorial Adaptive Thompson Sampling (CADTS), propuestos por Fonseca, Silva y Castro en 2024, descomponen el comportamiento de los portafolios en componentes de largo y corto plazo. Estos algoritmos incorporan un parámetro de corto plazo que depende de una ventana temporal preestablecida. Así, las decisiones sobre el portafolio que maximiza los retornos en cada periodo se basan en una ponderación entre el parámetro de largo plazo y el de corto plazo.

Esta hipótesis no es descabellada en el mundo real. Por ejemplo, considere el caso de Apple, que es una empresa consolidada y fuerte en el mercado. Sin embargo, a principios de 2024, el lanzamiento de su producto Apple Vision Pro resultó en ventas limitada, situación que afectó negativamente a la compañía. Un caso similar es el de Tropicana, propiedad de PepsiCo. En 2009, la marca rediseñó su logo, pero los clientes no reconocieron el nuevo diseño, lo que llevó a una disminución significativa en las ventas y, finalmente, a la decisión de volver al logo antiguo.

Por otro lado, volviendo al problema de la correlación entre los retornos de los portafolios, una propuesta interesante es combinar ADTS con el proceso de ortogonalización por PCA propuesto por Ozkaya y Wang en 2020. Este proceso de ortogonalización se aplicaría antes de ADTS para reducir la dimensionalidad del problema, disminuyendo el número de portafolios y garantizando que sean independientes entre sí, de manera que contengan únicamente la información relevante.

Gráfica 3: Riqueza esperada de invertir un dólar al inicio del período

En la Gráfica 3 se muestra una comparación del rendimiento de la metodología de ortogonalización con ADTS (en azul), CADTS (en rojo) y la metodología tradicional de Markowitz (en verde), suponiendo que se invirtió un dólar al inicio del periodo. Los resultados indican que CADTS es bastante volátil, aunque al final del periodo (2022-2024) muestra un rendimiento superior al de los otros algoritmos. Esta volatilidad podría deberse a un golpe de suerte, dado que en las simulaciones solo se incorporó la maximización del retorno esperado. Por otro lado, a pesar de que el modelo de ortogonalización con ADTS también se basa solo en el retorno, la ortogonalización hace que el comportamiento sea más moderado al reducir el conjunto de opciones. Finalmente, el algoritmo tradicional de Markowitz presenta un rendimiento más prudente a lo largo del tiempo (2011-2024), ya que no solo incorpora la noción de retorno, sino también la de riesgo, lo que genera decisiones más conservadoras.  Para concluir, los métodos de Multi-Armed Bandits parecen ser prometedores. En el futuro, la tarea será explorar su potencial, especialmente incorporando de manera explícita nociones de riesgo como con el Sharpe ratio. 

Tags
Procesamiento del lenguaje natural

Newsletter

Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.

Link a la presentación del seminario

 https://www.youtube.com/watch?v=OKwBVOxwBBw

Referencias

Ozkaya, G., & Wang, Y. (2023). Multi-Armed Bandit Approach to Portfolio Choice Problem. Barcelona Graduate School of Economics.

Fonseca, G., Silva, L., & Castro, P. (2024). Improving Portfolio Optimization Results with Bandit Networks.

Fama, E. F., & French, K. R. (1993). Common Risk Factors in the Returns on Stocks and Bonds. Journal of Financial Economics, 33(1), 3–56.

Artículos recientes

En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.

Reinforcement Learning para Optimización de Portafolios

En el contexto de los mercados financieros, la optimización de portafolios consiste en identificar la combinación óptima de activos para maximizar la relación retorno-riesgo. No obstante, esta toma de decisiones se realiza en un entorno de incertidumbre, ya que el comportamiento de los activos no es estacionario a lo largo del tiempo.

Tecnología

Clustering de datos genómicos

La secuenciación de RNA es una técnica que permite analizar la actividad de los genes en una muestra, como sangre, cerebro u otro tejido animal. Actualmente, es una de las herramientas más utilizadas en biología computacional y medicina, ya que facilita el estudio del impacto de las enfermedades en la expresión génica, lo que, a su vez, afecta la síntesis de proteínas y, en consecuencia, el funcionamiento celular.

Matemáticas del Descontento: Estudio de las Protestas Panameñas desde la Teoría de Grafos y Juegos

Durante la segunda mitad de 2022, Panamá enfrentó un hecho social sin precedentes. Si bien en el pasado ha habido protestas por parte de ciertos sectores sociales, nunca se había registrado una manifestación tan masiva que incluyera a distintos sectores de la sociedad panameña …

Justicia Algorítmica

Equidad en modelos de inteligencia artificial: ¿Cómo mitigar la discriminación en presencia de múltiples atributos sensibles?

Supongamos que contamos con un modelo de aprendizaje de máquinas, f, que predice el precio de una prima de seguros, Y, para unos datos que incluyen un atributo sensible, como lo es el género. Puede existir una discriminación debido a un …

Tecnología

Modelos de traducción para la preservación de las lenguas indígenas en Colombia

Según la Organización Nacional Indígena de Colombia (ONIC) existen 69 lenguas habladas en el territorio colombiano, entre las cuales 65 son lenguas indígenas. Esto posiciona a Colombia como el tercer país con mayor diversidad lingüística en el territorio latinoamericano, después de Brasil y México, con una notable concentración en las zonas de la Amazonía y el Vaupés…

Economía

Diseños óptimos para subastas de electricidad

Esta entrada de blog está basada en mi tesis de maestría en ingeniería industrial y economía en la Universidad de los Andes, titulada Optimal Design for Electricity Auctions: A Deep learning approach.