Predicción y decisiones económicas con Big Data
Fecha: 2024
Daniel Peña, Pilar Poncela, Eva Senra (editores)
Sumario
La digitalización de la información y el desarrollo de la inteligencia artificial están propiciando un cambio sin precedentes en la disponibilidad de nuevos datos. Gran parte de la información a la que hoy en día podemos acceder se produce de manera no estructurada. Gracias al desarrollo de los modelos de lenguaje natural, el texto se ha convertido en una de las principales fuentes de información y la posibilidad de trasladar “texto a números” se está convirtiendo en una poderosa herramienta de análisis en las ciencias sociales. El último exponente son los modelos generativos del lenguaje (LLM, por sus siglas en inglés). En este capítulo exploramos a través de varios ejemplos el papel que estos desarrollos pueden jugar dentro del análisis de las ciencias sociales con un especial foco en el ámbito económico.
El cambio climático representa un desafío crucial para la sociedad actual, y es imperativo implementar políticas efectivas para combatirlo. Sin embargo, hay una carencia de datos actualizados sobre la percepción pública al respecto. Este estudio subraya la importancia de analizar la información de las redes sociales para entender la percepción social en tiempo real (nowcasting) sobre el cambio climático, empleando técnicas de procesamiento de lenguaje natural. De acuerdo al análisis de tuits recogidos entre 2019-2022 en España, nuestros resultados muestran un pico de preocupación climática en España en los meses posteriores al levantamiento del primer confinamiento en 2020, seguido de una leve mejoría, aunque aún por debajo de los niveles pre-COVID-19. Sin embargo, durante el período más extremo de la crisis del COVID-19, los datos demuestran que la preocupación por el cambio climático se relaja, mostrando evidencia en favor de la “hipótesis de la existencia de una reserva de preocupaciones finita” (Weber, 2006). En resumen, estos resultados ponen de manifiesto el aumento de la preocupación por la cuestión climática en España en el período evaluado, a pesar de la gran incidencia de la crisis sanitaria del COVID-19.
Este documento aborda el análisis de la evolución de los precios en España utilizando datos desagregados tanto geográfica (52 provincias) como temporalmente (período 2002:1-2023:9). Para ello, se ha utilizado una metodología que permite contrastar tanto la presencia de un único patrón de comportamiento común (convergencia) como la presencia de varios clubes de convergencia. Los resultados muestran que, para el total del índice de precios al consumo, existen hasta cinco patrones de comportamiento significativamente diferentes. Este resultado se mantiene si se descompone este índice en sus componentes principales, a excepción de los de bebidas alcohólicas y tabaco (G02) y de transporte (G07).
En este trabajo se describe la experiencia de CaixaBank Research en el análisis de datos masivos de transacciones financieras. Los movimientos de cuentas bancarias, de alta frecuencia y con un nivel de granularidad elevado, permiten obtener información económica de gran calidad y precisión de manera casi instantánea y con un enorme potencial para la investigación económica. Sin embargo, su análisis es complejo, puesto que se trata de un gran volumen de datos creado para finalidades distintas del análisis económico. El trabajo describe el proceso de aprendizaje a partir de los proyectos llevados a cabo, y en particular, la creación de un portal de Economía en Tiempo Real (https://realtimeeconomics.CaixaBankresearch.com/#/home). Este portal monitoriza la evolución de la economía española mediante 12 indicadores construidos con datos internos de CaixaBank, agregados mediante técnicas de big data.
En este capítulo se estudia la eficacia de distintos modelos (paramétricos, semiparamétricos y semiparamétricos con aprendizaje automático) en la predicción de la varianza diaria realizada, utilizando datos intradiarios de Bitcoin, NASDAQ y S&P500 que representan distintos grupos de mercados: criptomonedas, tecnología y el mercado de acciones estadounidense, respectivamente. La disponibilidad de datos a frecuencias muy altas, característica del big data, constituye una gran ventaja, ya que posibilita la estimación de la volatilidad de forma consistente y, por ende, su predicción con mayor precisión.
Se ha llevado a cabo una comparación de los modelos en términos de predicción de varianza realizada, mediante test de habilidad predictiva, tanto incondicionales como condicionales, así como en la predicción del valor en riesgo y se ha observado que el modelo autorregresivo heterogéneo de cuarticidad (o variación cuártica) sobresale en la predicción de la varianza realizada.
En cuanto al valor en riesgo, se han empleado trece contrastes condicionales para evaluar el rendimiento de los diversos modelos. Se obtiene que, en general, no presentan un buen desempeño durante el periodo correspondiente a la pandemia global del coronavirus. Los mejores resultados se observan en Bitcoin y NASDAQ, usando los modelos heterogéneos autorregresivos con cuarticidad realizada, Random Forests y el modelo heterogéneo autorregresivo con parámetros variables en el tiempo.
El objetivo de este trabajo es evaluar la rentabilidad de carteras de inversión construidas con acciones seleccionadas según algunas medidas de rendimiento basadas en los cuatro primeros momentos de la distribución de rentabilidades (media, varianza, asimetría y curtosis). Dichos momentos se estiman a partir de un modelo de volatilidad condicional con innovaciones potencialmente asimétricas. Usando los activos del índice Russell 1000 observados diariamente durante los últimos 22 años, comparamos los rendimientos de las distintas carteras obtenidas a partir de medidas de selección tales como extensiones de la ratio de Sharpe que tienen en cuenta la asimetría y curtosis de las rentabilidades. Además, analizamos la diferencia entre estimar los momentos marginales de la distribución de las rentabilidades asumiendo que éstas siguen un modelo TGARCH con innovaciones posiblemente asimétricas y usar los correspondientes estimadores muestrales.
El mercado eléctrico en España permite a los productores de electricidad ofrecer bloques de energía a diferentes precios, generalmente relacionados con sus costes marginales, en momentos concretos del día. El operador del sistema reúne las ofertas (bloques de energía) y sus correspondientes precios de todos los participantes para formar la curva de oferta con la que se obtendrá el precio marginal de cada hora. En este trabajo se estudian los conjuntos de oferta mediante la distancia de Hausdorff y se realiza la clasificación no supervisada de estos conjuntos. Adicionalmente, se caracterizan los grupos obtenidos mediante variables de producción de energía por las distintas tecnologías y variables temporales como hora, día de la semana y mes.
La predicción de las curvas de oferta en los mercados eléctricos es una herramienta fundamental para el diseño de estrategias de oferta y la planificación de los recursos de generación. Las técnicas de análisis de datos funcionales son idóneas para modelar y predecir estas curvas. Estos métodos incluyen modelos de series temporales funcionales que integran enfoques de reducción de dimensión, junto con métodos no paramétricos y paramétricos. Los modelos resultantes capturan eficazmente las dinámicas complejas y estacionales de las curvas de oferta, haciendo posible la optimización de las estrategias de oferta de los agentes del mercado con un enfoque probabilístico.