ger: Die vorliegende Masterarbeit ist vor dem Hintergrund der zunehmenden Verfügbarkeit umfangreicher Textsammlungen im digitalen Format (wie Digitalisierungsprojekte, soziale Netzwerke und Online-Enzyklopädien) entstanden. Diese Texte beinhalten häufig räumliche Informationen, weshalb LAMPOLTSHAMMER UND HEISTRACHER (2012) das Web in diesem Zusammenhang als die größte räumliche Datenbank bezeichnen. Die Arbeit befasst sich mit den Herausforderungen der Verarbeitung von räumlichen Informationen in Texten. Dabei liegt der Fokus auf dem Abgleich von Ortsbezeichnungen (Toponym Matching) in historischen Texten mit den entsprechenden Einträgen eines Ortslexikons (Gazetteer). Das Toponym Matching in historischen Texten ist besonders herausfordernd, da diese eine Vielfalt von Toponym-Varianten, in Form von historischen Ortsbezeichnungen oder abweichenden Schreibweisen, aufweisen können.Im ersten Teil der Arbeit werden die theoretischen Grundlagen zur Verarbeitung geografischer Informationen in Texten behandelt. Hierbei wird erörtert, in welcher Form räumliche Informationen in Texten auftreten und wie diese Informationen im Text erkannt bzw. einer Wissensdatenbank oder geografischen Koordinaten zugeordnet werden können. Besonderes Augenmerk liegt dabei auf der Zuordnung von Ortsbezeichnungen, die, aufgrund der zuvor erwähnten Toponym-Varianten, keine exakte Übereinstimmung in einem Gazetteer aufweisen.Aufbauend darauf wird im zweiten Teil der praktische Umgang mit diesen Herausforderungen anhand eines historischen Beispieltextes demonstriert. Dazu wird eine Methodik zur automatisierten Erstellung eines auf georeferenzierten Wikipedia-Artikeln basierendem Gazetteers erarbeitet. Anschließend werden verschiedene Methoden zur Zuordnung der im historischen Text enthaltenen Ortsbezeichnungen auf den korrekten Eintrag im Gazetteer iterativ angewendet und verglichen.Es konnte demonstriert werden, dass ein simples Look-up-Verfahren für das Toponym Matching historischer Texte nicht unbedingt ausreichend ist. Erst durch den Einsatz von String-Ähnlichkeits-Algorithmen und einem maschinellen Lernverfahren konnten brauchbare Ergebnisse erzielt werden. Durch den Einsatz eines Wikipedia basiertem Gazetteers konnten auch kleinräumige Ortsbezeichnungen erfolgreich zugeordnet und verortet werden. eng: This master's thesis was written in light of the increasing availability of extensive text collections in digital format (such as digitization projects, social networks, and online encyclopedias). These texts often contain spatial information, which is why LAMPOLTSHAMMER UND HEISTRACHER (2012) refer to the web in this context as the largest spatial database. The thesis addresses the challenge of processing spatial information in texts, with a focus on the linking of place names (toponym matching) in historical texts with the corresponding entries in a geographical dictionary (gazetteer). Toponym matching in historical texts is particularly challenging because they can include a variety of toponym variants in the form of historical place names or different spellings.In the first part of the thesis, the theoretical foundations for processing geographic information in texts are addressed. It discusses the forms in which spatial information appears in texts and how this information can be recognized and associated with a knowledge database or geographic coordinates. Special attention is given to the matching of place names, which, due to the aforementioned toponym variants, have no exact match in a gazetteer.Building on this, the second part demonstrates the practical approach to these challenges using a historical example text. For this purpose, a methodology for the automated creation of a gazetteer based on georeferenced Wikipedia articles is developed. Subsequently, various methods for linking the place names contained in the historical text to the correct entry in the gazetteer are iteratively applied and compared.It could be demonstrated that a simple look-up procedure is not necessarily sufficient for the toponym matching of historical texts. Only through the use of string similarity algorithms and a machine learning approach could useful results be achieved. The utilization of a gazetteer based on Wikipedia also enabled the successful matching and localization of small-scale place names.
|