19.04.2018

Schlagzeilen von anno dazumals wandern ins Web

Das Wien(n)erische Diarium gilt als eine der ältesten Zeitungen der Welt. Nun wird dieser Datenschatz digital erschlossen. Dadurch ist es in Zukunft für Forschung und Öffentlichkeit möglich, in der historischen Quelle online und im Volltext zu recherchieren, erklärt ÖAW-Wissenschaftlerin Claudia Resch.

Das Wien(n)erische Diarium, bis heute als „Wiener Zeitung“ erhältlich, war im 18. Jahrhundert das bedeutendste Medium der Monarchie. Dass sich all seine Ausgaben erhalten haben, macht es zu einer historischen Quelle von ganz besonderem Wert. Der „Datenschatz“ mit den Schlagzeilen von anno dazumals wird nun von Forscher/innen der Österreichischen Akademie der Wissenschaften (ÖAW) und weiterer Einrichtungen digital aufbereitet und erschlossen.

Ein repräsentativer Querschnitt von mehreren hundert Ausgaben aus der Anfangszeit des Mediums soll für Forschung und Öffentlichkeit zugänglich werden. Über eine Web-App mit dem Namen „Digitarium“ können dann, so das Ziel der Forscher/innen, Meldungen ganz einfach online und im Volltext nach Stichworten, Phrasen, Namen oder Orten durchsucht werden.

Welche Herausforderungen sich bei der Volltextdigitalisierung einer der ältesten Zeitungen der Welt stellen und welche Rechercheoptionen berücksichtigt werden müssen, diskutiert nun die Konferenz „Vom Diarium zum Digitarium“, die von den beiden ÖAW-Instituten Austrian Centre for Digital Humanities und Institut für kunst- und musikhistorische Forschungen organisiert wird.

Projektleiterin Claudia Resch erzählt im Interview, was die Zeitung bis heute so interessant macht und wie man Meldungen vom 18. ins 21. Jahrhundert holt.

Was macht das Wien(n)erische Diarium für die Forschung so interessant?

Claudia Resch: Das Wien(n)erische Diarium, das seit 1780 „Wiener Zeitung“ heißt, existiert seit 1703 als Zeitung bis heute und liegt uns als Quellenbestand geschlossen vor. Die Zeitung dokumentiert daher nicht nur zahllose historische Ereignisse über die Jahrhunderte hinweg, sondern zeigt auch die Entwicklung des Journalismus und die Veränderungen von Sprache und Schrift. Daher ist das Diarium für Forscher/innen aus unterschiedlichen Fachrichtungen äußerst spannend.

Die Zeitung dokumentiert nicht nur zahllose historische Ereignisse über die Jahrhunderte hinweg, sondern zeigt auch die Entwicklung des modernen Journalismus und die Veränderungen von Sprache und Schrift.

Interessant sind dabei nicht nur Blattlinie, Layout und Korrespondentennetz der Zeitung, das sich im 18. Jahrhundert verdichtet und räumlich ausgedehnt hat, sondern beispielsweise auch, wie alt die Nachrichten sind, über die berichtet wurde und wie diese strukturiert waren. Für Forschende bedeutsam sind auch Ereignisse wie Geburten und Taufen wichtiger Persönlichkeiten, Krönungen und Feste, Naturkatastrophen, Begräbnisse, Hinrichtungen, die Berichterstattung über die Erklärung der Menschenrechte oder den Beginn der Luftfahrt.

Wie gut ist die Zeitung derzeit einsehbar?

Resch: Die Österreichische Nationalbibliothek hat die Ausgaben als Bilder digitalisiert. Zwar kann man diese in digitalen Text übersetzen, aber die Resultate sind recht fehlerhaft, weil die Frakturschrift für OCR, also für Computerprogramme die mit „optical character recognition“ arbeiten, eine große Herausforderung darstellt: So sieht das „f“ in Frakturschrift ähnlich aus wie ein „s“, das „t“ wie ein „k“, was bei der automatischen Texterkennung häufig Fehler verursacht.

Für Wissenschaftler/innen ist es allerdings wichtig, verlässliche Textausgaben zu haben, um gezielt nach Informationen suchen zu können. Daher möchten wir mit unserem Projekt einen Querschnitt aus den Ausgaben des 18. Jahrhunderts der Forschung im Volltext zur Verfügung stellen. In der Projektlaufzeit werden wir dafür mehrere hundert Ausgaben bearbeiten und analysieren.

Nach welchen Kriterien wurden die Zeitungsexemplare ausgewählt?

Resch: Hier haben wir von Beginn an stark mit anderen Wissenschaftler/innen kooperiert und gefragt, welche Nummern sie empfehlen können, die für ihr Fach relevant sind. Bei diesem so genannten „call for nominations“ haben sich  Expert/inn/en aus der Geschichte, Kunstgeschichte, Literaturwissenschaft, Medienwissenschaft, Musik- und Sprachwissenschaft gemeldet, um Ausgaben vorzuschlagen. Das Projektteam hat dann eine für das 18. Jahrhundert repräsentative Auswahl zusammengestellt.

Das Wien(n)erische Diarium hat sich im 18. Jahrhundert erfolgreich gegen andere Zeitungen durchsetzen können, die parallel herausgebracht wurden.

Weswegen konzentrieren Sie sich auf das 18. Jahrhundert?

Resch: Der Zeitraum ist grundsätzlich erweiterbar, sobald der Workflow entwickelt und eine Infrastruktur für die digitale Verarbeitung vorhanden ist. Wir wollten allerdings mit dem Gründungsjahrhundert des Wien(n)erischen Diariums beginnen. Es hat sich im 18. Jahrhundert erfolgreich gegen andere Zeitungen durchsetzen können, die parallel herausgebracht wurden. Einerseits herrschten damals strenge Zensurbedingungen, andererseits gab es Aufklärungsströmungen und zudem sind dort die Anfänge des modernen Journalismus zu finden.

Wie gehen Sie beim Projekt genau vor?

Resch: Wir kombinieren beim Einlesen der gescannten Bilder mehrere Ansätze zur automatischen Texterkennung und trainieren für das Diarium eigene Modelle, die beim Einlesen weiterer Ausgaben angewandt werden und die Text- und Layouterkennung bereits deutlich verbessern. Ein Transkriptionsprogramm ordnet dann Textregionen zu, erkennt, welche Abschnitte zusammengehören und schlägt eine Leserichtung für das Transkribieren vor: Was ist die Überschrift, wo fängt ein Text an, wo sind Datumsangaben zu finden? Das Programm trennt die Ornamente von der Schrift. Dabei passieren durch viele Besonderheiten im Layout wie ausgeschmückte Initialen, Spaltensatz und Tabellen, häufig Fehler im Text, die wir dann manuell korrigieren.

Theaterwissenschaftler/innen sind auf der Suche nach Stücken, die im Diarium angekündigt werden, Umweltforscher/innen können zum Beispiel zu historischen Hochwasserkatastrophen recherchieren.

Parallel dazu betreiben wir Nutzungsforschung, indem wir von Forschenden erfragen, wonach sie suchen, um ihre Forschungsfragen beantworten zu können, welche Art der Ergebnisanzeige für sie hilfreich wäre – zum Beispiel gefiltert nach Erscheinungsjahr, nach Häufigkeit oder nach Relevanz – und wie sie diese Ergebnisse weiterverarbeiten möchten.

Wonach wird man denn in Zukunft suchen können? Haben Sie ein paar Beispiele?

Das kommt natürlich ganz darauf an, wofür sich die künftigen Nutzer/innen des „Digitariums“ interessieren: Musikwissenschaftler/innen werden zum Beispiel nach Textstellen suchen, in denen Musik eine Rolle spielt; Sprachwissenschaftler/innen interessieren sich für den Wortschatz dieser Zeit; Historiker/innen suchen etwa nach der Erwähnung bestimmter Personen, Orte oder Ereignisse; Theaterwissenschaftler/innen sind auf der Suche nach Stücken, die im Diarium angekündigt werden; Umweltforscher/innen können zu historischen Hochwasserkatastrophen recherchieren; Medizinhistoriker/innen interessieren sich für medizinische Mitteilungen; Medienwissenschaftler/innen wiederum untersuchen die Entwicklung bestimmter Textsorten; Computerlinguist/innen können die Texte mit Tools weiterverarbeiten und  Wortprofile erstellen.

Es gibt also unglaublich viele Möglichkeiten, diese historischen Zeitungsbestände auszuwerten und weiter zu nutzen – daher ist es so wichtig, diese lange Zeit unterschätzten Quellen für die Forschung zu erschließen. Der verlässliche Volltext, den wir derzeit erstellen, ist dafür eine zentrale Voraussetzung.