The prompt availability of information on the current state of the economy in real-time is required for prediction purposes and crucial for timely policy adjustment and economic decision-making. While important macroeconomic indicators are reported only quarterly and also published with substantial delay, other related data are available more frequently, that is monthly, weekly, daily or even more often. In this regard, the goal of nowcasting methods is to make use of such more frequently collected variables to update predictions of less often reported variables such as e.g. GDP growth. In this paper, we propose a mixed-frequency model to investigate the potential of using text data in form of newspaper articles for nowcasting German GDP growth. Newspaper text data appears to be very helpful in this regard as it directly explains economic and social progress influencing GDP growth and as it is updated frequently without any substantial delay. We compare several setups based on commonly used macro variables with and without additionally included information from text data (extracted in an unsupervised manner) as well as a setup only based on such text data. To deal with the high dimensionality of the considered data, we make use of principal component regression, penalization techniques and random forest. Comparing our results leads to the conclusion that there are certain benefits achievable when text data are included for nowcasting, but the unsupervised extraction of information from text data tends to still contain too much irrelevant noise hampering the performance of the resulting nowcasting approach. Die unmittelbare Verfügbarkeit von Informationen über die aktuelle Wirtschaftslage in Echtzeit ist für Prognosen und für die rechtzeitige Anpassung politischer Maßnahmen und wirtschaftlicher Entscheidungen von entscheidender Bedeutung. Während wichtige makroökonomische Indikatoren nur vierteljährlich - und zudem häufig mit erheblicher Verzögerung - veröffentlicht werden, sind andere verwandte Daten in kürzeren Abständen verfügbar, d.h. monatlich, wöchentlich, täglich oder sogar noch häufiger. Ziel des Nowcasting ist es, diese in kürzeren Intervallen erhobenen Variablen zu nutzen, um die Vorhersagen für weniger häufig gemeldete Variablen wie z.B. das Wachstum des BIP zu optimieren. In diesem Beitrag schlagen wir ein Mixed-Frequency-Modell vor, um das Potenzial der Verwendung von Textdaten in Form von Zeitungsartikeln für das Nowcasting des deutschen BIP-Wachstums zu untersuchen. Zeitungsdaten sind daür geeignet, da sie direkt den wirtschaftlichen und sozialen Fortschritt erklären, der das BIP-Wachstum beeinflusst. Zudem sind sie häufig ohne große Verzögerung verfügbar. Wir vergleichen verschiedene Setups, die auf etablierten Makrovariablen basieren, mit und ohne zusätzlich enthaltene Informationen aus (vollständig unüberwacht modellierten) Textdaten sowie ein Setup, das ausschließlich auf diesen Textdaten basiert. Zur Bewältigung der hohen Dimensionalität der betrachteten Daten setzen wir eine Hauptkomponentenregression, Penalisierungsverfahren und Random Forest ein. Die Ergebnisse legen nahe, dass die Einbeziehung von Textdaten in das Nowcasting gewisse Vorteile mit sich bringt, dass aber die Vollautomatisierung der Extraktion von Informationen aus Textdaten tendenziell immer noch zu viel irrelevantes Rauschen enthält, das die Performance des resultierenden Nowcasting-Ansatzes einschränkt.
|