Análisis econométrico y big data

Análisis econométrico y big data

Fecha: junio 2021
Daniel Peña, Pilar Poncela y Esther Ruiz (editores)

Sumario

Presentación

Este libro está dedicado a analizar cómo la presencia de datos masivos, denominados con frecuencia por su nombre en inglés, big data, ofrece nuevas oportunidades de aprendizaje en muchas áreas del Análisis Econométrico. Complementa, por tanto, el trabajo de los mismos editores publicado recientemente por Funcas sobre nuevos métodos de predicción económica con datos masivos. En esta ocasión, se revisan distintas técnicas de Aprendizaje Automático (Machine Learning, ML por sus siglas en inglés) que se aplican a grandes conjuntos de datos para resolver distintas cuestiones en análisis econométrico. El volumen consta de nueve capítulos escritos por expertos en “big data” y aprendizaje automático y/o análisis económico, que se organizan de la siguiente manera.

En el capítulo 1, García Montalvo nos presenta una revisión crítica sobre la aplicación de distintas técnicas de aprendizaje automático a conjuntos de datos masivos para resolver problemas tales como la calificación crediticia, el seguimiento de la economía a muy alta frecuencia y la construcción de indicadores de crecimiento y desigualdad usando imágenes de satélites. El trabajo incluye también aplicaciones predictivas para el precio de la vivienda o, incluso, la predicción electoral. El autor alerta sobre los peligros de la utilización discriminada de este tipo de técnicas y, en particular, nos llama la atención sobre el peligro de la pérdida de privacidad, la replicación de situaciones de discriminación, la confianza en métodos que se comprenden mal y funcionan como una “caja negra” o la necesidad de actualizar los procedimientos cuando varían las condiciones en las que se recogen los datos. Cuerpo y Morales presentan otra aplicación interesante en el capítulo 2, dedicada a comprender la evolución del consumo público utilizando datos de la plataforma de contratación del sector público. Su trabajo utiliza una herramienta nueva en econometría y que se usa cada vez con más frecuencia en el análisis económico, los bosques aleatorios, o random forest, que son conjuntos de árboles de decisión muy útiles para relacionar variables de forma no lineal. En el capítulo 3, Dolado nos ofrece una panorámica sobre los métodos de regularización, que se utilizan cuando el número de parámetros es elevado, como ocurre con problemas de análisis económico cuantitativo con muchas variables. Estos métodos establecen restricciones en la función de estimación de los parámetros para reducir su número y tamaño, permitiendo una estimación más eficiente. Aquí se aplican a problemas de economía laboral, donde el objetivo es evaluar el efecto de determinadas políticas sobre variables del mercado de trabajo. En el capítulo 4, Guerrero, Corona y Mendoza ilustran cómo los nuevos datos pueden mejorar la estimación del producto interior bruto (PIB) de México. Proponen un método que utiliza de datos de luminosidad nocturna, recogidos por satélite, como indicador de la actividad eco[1]nómica y los combina con mediciones tradicionales de contabilidad nacional para mejorar las estimaciones de PIB. Su trabajo ilustra de forma efectiva y convincente las oportunidades que ofrecen los nuevos datos en problemas clásicos. Finalmente, cierra este primer bloque de aplicaciones el capítulo 5, donde Poncela y Senra analizan cuestiones de integración financiera, nowcasting (o predicción de la actividad económica en tiempo real) y de construcción de nuevos indicadores utilizando datos masivos, señalando algunas oportunidades que big data proporciona y apuntando algunos retos que quedan por resolver.

Un rasgo importante de muchas series económicas es la estacionalidad y en los capítulos 6 y 7 se presentan nuevas herramientas para su estudio. En el primero de ellos, Nieto, Peña y Bolívar introducen el modelo factorial estacional para series no estacionarias. El modelo factorial es una de las principales herramientas con las que se cuenta hoy en día para análisis macroeconómico y la práctica habitual es desestacionalizar las series antes de introducirlas en el modelo. La generalización que presentan Nieto, Peña y Bolívar permite aplicar esta técnica sin necesidad de preprocesar los datos. Los autores ilustran el funcionamiento de su modelo en análisis económico estudiando el efectivo en circulación, como un agregado monetario, en una muestra de 15 países de América Latina. En el capítulo 7, Quilis examina la relación entre la estacionalidad y el ciclo. Para ello, utiliza el análisis de conglomerados y el modelo factorial para identificar pautas comunes en los componentes estacional y cíclico que han sido extraídos previamente. La metodología propuesta es aplicada a una base de datos territorial de la economía española cuya cobertura es muy amplia, tanto temporal (1974-2019) como espacial (nivel provincial).

Finalmente, los dos últimos capítulos revisan otras técnicas para datos masivos. En el capítulo 8, Galeano presenta un nuevo enfoque para series temporales con pautas estables suaves de variación, el análisis de series temporales funcionales, y aplica esta metodología para analizar las curvas de rendimientos de los precios horarios de la electricidad en el mercado ibérico. En el capítulo 9, Comas y Alonso presentan una modificación del algoritmo de k-vecinos más cercanos en problemas de clasificación cuando se aplica a datos masivos y el coste computacional de calcular todas las distancias es tan alto que no lo hace factible. Aplican este método a varios problemas, entre ellos, el análisis de series temporales de oferta de electricidad horaria en el mercado secundario en España en el período 2014 a 2019.

Estos trabajos fueron presentados en una Jornada organizada por los editores de este libro y celebrada en Funcas el 24 de noviembre de 2020 bajo la denominación de Análisis Económico y Big Data. Hemos sustituido en el título de este volumen económico por econométrico para ser más precisos en las aportaciones que contiene. El lector interesado puede encontrar en la web (YouTube) la grabación de las presentaciones que se hicieron en las Jornadas.

Los editores queremos agradecer a Funcas su apoyo en la realización de este libro que esperamos contribuya a difundir la aplicación de técnicas de datos masivos en problemas económicos abordados desde un enfoque econométrico.

Capítulo I. Data Science y sus aplicaciones económicas: una perspectiva personal

En este trabajo se realiza un recorrido por diversas aplicaciones económicas basadas en Big Data y la aplicación de técnicas de Machine Learning. Las aplicaciones incluyen la ingeniería reversa de procedimientos de calificación crediticia, el seguimiento de la economía a muy alta frecuencia durante la pandemia de la COVID-19, la predicción del precio de la vivienda a nivel de código postal, la construcción de indicadores de crecimiento y desigualdad usando imágenes de satélites y la predicción electoral. El objetivo es destacar, utilizando estas aplicaciones, los aspectos que aportan más posibilidades en la utilización de dichas técnicas en el campo de la economía, así como matizar las excesivas expectativas que estos procedimientos puedan haber generado.

Leer más

Capítulo II. Adelantando el consumo de las administraciones públicas: big data a través del BOE

Los avances en las técnicas de análisis de big data, junto con la creciente disponibilidad de grandes repositorios de datos, están permitiendo novedosas aplicaciones en el campo de la macroeconomía, en especial en la previsión de los principales agregados macroeconómicos. Este artículo presenta una posible Aplicación, a través de la previsión del consumo público para España utilizando la plataforma de contratación del sector público. El análisis recoge la práctica totalidad de la actividad contractual del sector público, cubriendo más de 1.185.337 licitaciones, realizadas desde 2018 por más de 15.000 órganos de contratación distintos.

Leer má s

Capítulo III. Economía laboral y big data: panorámica sobre técnicas de regularización en la evaluación de efectos causales

En este trabajo se ofrece una panorámica sobre las técnicas de regularización existentes en la literatura de machine learning para modelos lineales y no lineales, con controles exógenos y tratamientos endógenos, destinados a evaluar los efectos de determinadas políticas sobre variables del mercado de trabajo. Una aplicación empírica de dichas técnicas al conocido estudio de Angrist y Krueger (1991) acerca de los efectos de la educación sobre los salarios sirve para ilustrar su uso creciente en economía laboral.

Leer más

Capítulo IV. Enfoque de big data para generar y analizar datos de actividad económica en México

El objetivo de este artículo es presentar dos trabajos realizados con un enfoque basado en el uso eficiente, desde un punto de vista estadístico, de los datos más relevantes disponibles para solucionar problemas que enfrentan en la actualidad las agencias de estadística oficial, especialmente en México. Los casos que se presentan son: 1) estimación del producto interior bruto (PIB) desde el espacio exterior, que considera la combinación de datos oficiales provenientes de las Cuentas Nacionales, con datos de luminosidad nocturna producidos por mediciones de satélites; 2) retropolación de series de las Cuentas Nacionales, es decir, extrapolación hacia atrás, con apoyo en fuentes diversas y heterogéneas. El lazo unificador de estos trabajos se encuentra en el hecho de que en los dos casos se enfrenta una o más de las 5 Vs que caracterizan a los problemas relacionados con big data o sea, la presencia de un gran volumen de datos, con alta velocidad de aparición de nuevos datos, amplia variedad de fuentes de información, que aportan diferente valor y con distintos grados de veracidad. En los casos estudiados se buscó obtener información útil, a partir de los datos disponibles y se hizo uso de metodología estadística validada por los datos mismos, para asignar optimalidad a los resultados obtenidos.

Leer más

Capítulo V. Éxitos y retos de big data en análisis económico: un recorrido a través de ejemplos

La ingente cantidad de información disponible presenta soluciones y retos a problemas existentes en análisis económico. Cada vez son más las aplicaciones de éxito, bien basadas en actualización de la metodología estadística disponible, bien en la utilización de nuevas bases de datos. El reto pendiente es pasar de aplicaciones puntuales de éxito del uso de big data a su utilización generalizada por parte de los responsables del análisis económico. Presentamos diversos ejemplos (integración financiera,nowcasting y generación de nuevos indicadores de innovación y movilidad), señalando algunas oportunidades que big data proporciona y apuntando algunas retos que quedan por resolver.

Leer más

Capítulo VI. Análisis de factores comunes estacionales en datos masivos

Las variables que se estudian en economía y finanzas tienen con frecuencia un comportamiento estacional. Al analizar este tipo de variables para hacer inferencia sobre su dinámica no conviene desestacionalizarlas, ya que esto supone aplicar filtros de corrección estándar de la estacionalidad que pueden no ser adecuados para las variables estudiadas. En la actualidad podemos analizar conjuntos muy grandes de variables, dada la presencia cada vez más frecuente de datos masivos, y los métodos tradicionales para tratar la estacionalidad son difíciles de aplicar en estos casos. Una manera efectiva de hacerlo es mediante el análisis factorial, que resume todas las relaciones de dependencia comunes, incluyendo la estacional, en un conjunto pequeño de factores, permitiendo además una dinámica específica de cada serie. En este capítulo presentamos la metodología para construir un modelo factorial estacional e ilustramos su aplicación en un conjunto de variables macroeconómicas estacionales que corresponden al dinero en efectivo en circulación en algunos países latinoamericanos.

Leer más

Capítulo VII. Explorando pautas en series estacionales múltiples mediante técnicas multivariantes

Se utilizan técnicas multivariantes (modelos factoriales, análisis de conglomerados) para identificar pautas comunes y específicas en un vector de series temporales de elevada dimensión cuya sección cruzada es de naturaleza espacial. Estas técnicas se aplican en un contexto de series temporales de alta frecuencia caracterizadas por la presencia de diversos componentes (tendencia, ciclo, estacionalidad, efectos de calendario) que implica un notable aumento de la dimensión efectiva del conjunto de datos. La metodología propuesta es aplicada a una base de datos territorial de la economía española cuya cobertura es muy amplia, tanto temporal (1974-2019) como espacial (nivel provincial).

Leer más

Capítulo VIII. Una aplicación del análisis de series temporales funcionales a los precios horarios de la electricidad en el mercado MIBEL

Actualmente, muchas medidas se registran de manera prácticamente continua a lo largo del tiempo dando lugar a conjuntos de observaciones que tienen forma de funciones (curvas) relativamente suaves y que son observadas con alta frecuencia. El estudio de datos con tales características se puede realizar mediante técnicas para el análisis de series temporales funcionales, un área de la estadística que ha recibido gran atención en las dos últimas décadas. En este capítulo se realiza una aplicación del análisis de series temporales funcionales a las curvas de rendimientos intradía acumulados de los precios horarios de la electricidad de España en el Mercado Ibérico de la Electricidad (MIBEL).

Leer más

Capítulo IX. Predicción y clasificación basada en distancias parcialmente observadas

El procedimiento de vecinos más cercanos, k-NN en inglés, se utiliza para la clasificación de nuevas observaciones empleando la matriz de distancias entre las observaciones a clasificar y las observaciones en la muestra de entrenamiento. En este trabajo, desarrollamos un procedimiento k-NN para situaciones donde no es posible calcular todas las distancias entre las nuevas observaciones y las observaciones en la muestra de entrenamiento. Por otra parte, k-NN depende de la distancia utilizada y proponemos un procedimiento para el aprendizaje de la distancia a partir de las distancias en la muestra de entrenamiento. El procedimiento propuesto se ilustra utilizando conjuntos de datos reales.

Leer más