The second ACDH-CH Research Day is dedicated to the AI-based text recognition platform "Transkribus", which is used at the ACDH-CH and other institutes of the OeAW for automated recognition of handwritten and printed documents. In each presentation, a currently running research project sucessfully using the technology will be presented and various aspects of the digitization, layout and text recognizion as well as the transcription and subsequent processing of historical documents will be discussed. At the same time participants can connect within the OeAW concerning Transkribus-related matters and get informed about recent developments of the platform.
09.00-09.15 | Begrüßung | |
09.15-09.30 | Einführung | |
09.30-10.00 | Transkribus auf der Seidenstraße | Hannes A. Fellner, Bernhard Koller und Martin Braun |
10.00-10.30 | Using Transkribus on Carolingian manuscripts | |
10.30-11.00 | „Von geprochen zal“. Zur Transkription von Zahlen und Brüchen in spätmittelalterlichen arithmetischen Traktaten mit Transkribus
| |
11.00-11.30 | Kaffeepause |
|
11.30-12.00 | Verwendung der Texterkennungsplattform Transkribus für die automatisierte Transkription handgeschriebener tibetischer Texte im Projekt TibSchol | |
12.00-12.30 | Erfassung von Chorbüchern und Klosterrechnungen mit Transkribus als Herausforderung für die musikhistorische Forschung | |
12.30-13:00 | Die Kaiserin schreibt, die Welt liest. Ein Zwischenbericht zum Projekt „Dynastische Handlungsspielräume in der Korrespondenz von Kaiserin Eleonora Magdalena von Pfalz-Neuburg (1655-1720)“ | |
13:00-14.00 | Mittagspause |
|
14.00-14.45 | Transkribus „next generation“ (Read-Coop SCE, Zoom) | |
14.45-15.15 | Zum Zusammenwirken von Mensch und Maschine – die Digitalisierung frühneuzeitlicher Ankunftslisten im Projekt „Visiting Vienna“ | |
15.15-15.30 | Kaffeepause |
|
15.30-16.00 | Mit Transkribus zur digitalen Briefedition | |
16.00-16.30 | DWA Österreich – Wie spezifisch sind dialektale Texterkennungsmodelle? | |
16.30-17.00 | Projekt zur Erschließung der Arbeits- und Taschenkalender des Architekten Clemens Holzmeister | Christian Preining |
Hannes A. Fellner, Bernhard Koller, Martin Braun
Das Projekt Tarim Brahmi ist der Erforschung der zentralasiatischen Variante der indischen Brahmi Schrift gewidmet. Diese wurde im ersten Jahrtausend unserer Zeitrechnung für die indogermanischen Sprachgruppen Sanskrit, Tocharisch und Sakisch an der östlichen Seidenstraße im Tarimbecken im heutigen Uigurischen Autonomen Gebiet Xinjiang der Volksrepublik China verwendet. Das Ziel des Projektes ist es, alle belegten Varianten des Schriftsystems zu katalogisieren und zu klassifizieren, um dadurch tiefere Einblicke in seine Entwicklung und Ausbreitung zu gewinnen.
Im Zentrum des Tarim Brahmi-Projektes steht eine XML-Datenbank (eXist-db) mit dem Textkorpus, sowie Wörterbüchern zu den bezeugten Sprachen. Innerhalb des Textkorpus sind die Transkriptionen individueller Brahmi-Schriftzeichen (Akṣaras) mit dem korrespondierenden Segment eines Manuskriptfotos assoziiert. Mithilfe einer Web-Applikation ist es dann möglich, automatisch Listen von character tokens zu generieren, um dadurch z.B. die Identifikation von unterschiedlichen Varianten desselben Schriftzeichens zu erleichtern. Zur dafür notwendigen Aufbereitung der Daten verwenden wir ein Python-Skript, um die Manuskriptfotos in einzelne Schriftzeichen zu segmentieren. Ein XSLT-Stylesheet erzeugt danach ein Transkribus-Dokument, in dem die Koordinaten der einzelnen Schriftzeichen mit den korrespondierenden Transkriptionen assoziiert sind. Transkribus kommt im Rahmen unseres Projektes momentan also primär in seiner Funktion als IIIF-Server zur Anwendung, sowie zur Korrektur/Modifikation von bestehenden Transkriptionen und um individuelle Schriftzeichen mit paläographischen Merkmalen zu taggen. Aufgrund der höchst fragmentarischen Natur des Textkorpus ist es auch notwendig, detaillierte Beschreibungen von Beschädigungen am Material in die Transkriptionen zu integrieren. Des Weiteren planen wir, die bisher aufbereiteten Daten als training corpus zu verwenden, um mithilfe der automatischen Handschriftenerkennung Manuskripte zu bearbeiten, für die noch keine digitalisierten Transkriptionen vorhanden sind.
Jan Odstrcilík, Institut für Mittelalterforschung
In the presentation, I will provide a brief overview of two ways we use Transkribus at the Institute of Medieval Research: Carolingian Latin and Late Medieval Latin.
Carolingian Latin is the more advanced of the two. Gregory of Tours'work Decem libri historiarum is preserved in multiple versions that differ in their composition, additions, removals and other aspects. We are focusing on the manuscripts from the Carolingian period which were historically not in the focus of the research. Helmut Reimitz, Leon Pürstinger and I started using Transkribus to manually correct older transcriptions prepared at our institute and for creation of new transcriptions. When doing this, we also began to experiment with training models in Transkribus. Finally, last year, we started a very fruitful collaboration with Tim Geelhaar of Bielefeld University, who trained extensive Carolingian models. This collaboration includes work on common transcription rules, sharing of transcriptions as well as organization of a HTR Winter School last year in Vienna.
The use of Transkribus for Late Medieval Latin at our institute is currently mainly my own for specific small-scale projects, e.g. on selected manuscripts containing sermons written mainly in Latin but featuring also Czech words and passages. These multilingual sermons are a very interesting case for Transkribus. We also had a team working on Late Medieval Latin at our HTR Winter School last year, and we were able to gain a great deal of additional experience.
Despite both groups of material being written in the Middle ages, we encountered interesting different challenges and problems that will be a part of the discussion in my presentation.
Michaela Wiesinger
Der ERC Starting-Grant ARITHMETIC widmet sich der Erforschung spätmittelalterlicher deutschsprachiger arithmetischer Handschriften. Eines der Projektziele ist die Edition der Traktate aus den 142 Handschriften des Korpus, die in den Jahren 1400-1550 verfasst wurden. Aufgrund der großen Textmenge und der Komplexität der Traktate ist die Unterstützung des Transkriptionsprozesses durch eine Software, die Handschriftenerkennung unterstützt, unerlässlich. Transkribus funktioniert hierfür gut, hat aber ein Problem bei der Erkennung von indisch-arabischen Zahlen, vor allem von Brüchen. Wir konzentrieren uns derzeit auf Texte des 15. Jahrhunderts, für das es kein existierendes HTR-Modell in Transkribus gibt. In diesem Vortrag möchte ich unseren (noch nicht abgeschlossenen) Prozess darlegen, der zu einem guten Texterkennungsmodell für mathematische Handschriften des 15. Jahrhunderts führen soll.
Unsere Hauptprobleme, die wir berücksichtigen mussten, sind:
All das führte zur Anwendung eines iterativen Verfahrens, das auf Basis von Trial und Error mit kleinsten Überarbeitungsschritten Verbesserungen vergleichbar und „Verschlimmbesserungen“ erkennbar macht. Es kann jetzt bereits gezeigt werden, dass durch diese Annäherung die Erkennung von Brüchen viel besser wenngleich nicht perfekt funktioniert. Wir versuchen derzeit in einem nächsten Schritt Trainingsdaten für andere Schrifttypen zum Modell hinzuzufügen, um die Erkennung zu erweitern.
Pascale Hugon, Rachael Griffiths
Der Einsatz fortschrittlicher Computermethoden für die Analyse digitalisierter Texte gewinnt in den Geistes- und Sozialwissenschaften immer mehr an Bedeutung. Dies ist auch der Fall in den tibetischen und buddhistischen Studien. Im Rahmen des ERC-finanzierten Projekts “The Dawn of Tibetan Buddhist Scholasticism (11th-13th c.)” (TibSchol, 101001002), das am Institut für Kultur- und Geistesgeschichte durchgeführt wird, wird Transkribus auf die Erkennung tibetischer Schreibschrift trainiert, um diese Texterkennungsplattform bei der Auswertung eines großen Korpus von unedierten Manuskripten philosophischer Texte aus dem 10. bis 15. Jh. einzusetzen (Data-Mining). In diesem Vortrag werden wir die ersten Ergebnisse des Handschriftenerkennungsmodells vorstellen, das im letzten Jahr für die ‘bru tsha Kursivschrift entwickelt wurde und zu dieser Zeit eine Fehlerrate (CER) von <5% erreicht hat. Auch unsere Einschätzung, inwieweit verschiedene Arten von Kursivschriften jeweils ein eigenes Erkennungsmodell erfordern, werden wir darlegen. Insbesondere wird auch darauf eingegangen werden, welche Herausforderung die tibetischen Manuskripte bezüglich der Layouterkennung darstellen. Tatsächlich wurde die Erstellung eines angepassten Basislinienmodells nötig, da das Standard-Layout-Analyse-Tool von Transkribus den besonderen Anforderungen nicht gewachsen war. Weiters werden wir unsere Strategien für den Umgang mit den (oft umfangreichen und kniffligen) Kürzeln der tibetischen Schrift vorstellen.
Robert Klugseder
Transkribus bietet für verschiedene Quellengattungen des Mittelalters hervorragende Möglichkeiten der automatisierten Transkription. Das trifft auch auf offensichtlich für die mediävistische Musikwissenschaft relevante liturgische bzw. musik-liturgische Handschriften zu. Zu diesen Codices gehören „reine“ Texthandschriften wie Missalien und Breviere genauso wie Musikhandschriften wie Gradualien und Antiphonare. Transkribus ist grundsätzlich in der Lage, sowohl die Liedtexte als auch die musikalische Notation der Gesänge zu erkennen und zu transkribieren. Beim Vortrag soll gezeigt werden, welche technischen Herausforderungen hier zu bewältigen sind. Neben diesen „musikalischen“ Quellen können auch Sekundärquellen von größerer Bedeutung für die Musikgeschichtsforschung sein. Wie man solche Codices erschließen und durchsuchbar machen kann, wird am Beispiel von Klosterrechnungen, Amtsbüchern und Chroniken gezeigt. Diese Quellen stellen vor allem für die dem eigentlichen Transkriptionsvorgang vorausgehenden Layoutanalysen eine größere Herausforderung dar. Im Rahmen des Vortrags soll gezeigt werden, welche Tools Transkribus für das Training von komplexeren Layouts zur Verfügung stellt.
Anna Spitzbart
Basis des FWF-Projektes „Familiensache. Dynastische Handlungsspielräume in der Korrespondenz von Kaiserin Eleonora Magdalena von Pfalz-Neuburg (1655-1720)“ ist ein Quellenbestand, der nicht nur deutlich umfangreicher ist als die meisten bislang bekannten Überlieferungen zu Frauen des Hauses Habsburg, sondern der auch durch seine spezifische Prägung gerade die Untersuchung dynastischen Agierens ermöglicht: die eigenhändige Korrespondenz zwischen Kaiserin Eleonora Magdalena von Pfalz-Neuburg und ihrem Vater Philipp Wilhelm (seit 1685 Kurfürst von der Pfalz) und ihrem ältesten Bruder Johann Wilhelm von Pfalz-Neuburg (Kurfürst von 1690 bis zu seinem Tod 1716). Die Korrespondenz erstreckt sich über die Jahre 1677 bis 1716 und umfasst 5.300 Seiten.
Ein Ziel des Projektes ist es, alle eigenhändigen Briefe der Kaiserin in Bild und Transkription digital verfügbar zu machen. Dieser (ca. 1170 Seiten umfassende) Teil des Bestandes wurde 2022 mit Transkribus bearbeitet; mehrere HTR-Modelle wurden auf Basis der Handschrift der Kaiserin trainiert. In diesem Jahr gab es einige Herausforderungen zu meistern, sei es verblasste Schrift, der sich verändernde Schreibstil der Kaiserin über die Jahre oder die zunehmenden Abkürzungen. Gepunktet hat Transkribus zunehmend bei repetitiven Floskeln. Das Endergebnis war jedoch immer abhängig von der Qualität der Quelle. Wir möchten unseren Workflow im ersten Jahr gerne kurz vorstellen und auf Probleme eingehen, denen wir begegnet sind.
Nina C. Rastinger
Das Stadt-Wien-Projekt „Visiting Vienna“ (2022–2023, PI: Nina C. Rastinger) beschäftigt sich mit den zwischen 1703 und 1725 im Wien[n]erischen Diarium publizierten Ankunftslisten und setzt digitale, (semi-)automatische Methoden ein, um die hierin benannten Entitäten (z.B. Personen, An- und Unterkunftsorte) zu extrahieren, zu geokodieren und auf historischen Stadtplänen Wiens zu visualisieren. Einen zentralen Schritt hierfür bildet die Erstellung verlässlicher Volltexte als Ausgangsbasis, weshalb von herkömmlichen Optical Character Recognition (OCR)-Verfahren, die sich für in Fraktur gedruckte Texte vielfach als fehleranfällig erwiesen haben, abgesehen und stattdessen auf Handwritten Text Recognition (HTR) über Transkribus gesetzt wird. Konkret wird das öffentlich verfügbare Modell „German Fraktur 18th Century – WrDiarium_M9“ (https://digitarium.acdh.oeaw.ac.at/fraktur-modell) nachgenutzt, welches im Rahmen des go!digital-Projekts „Das Wien[n]erische Diarium: Digitaler Datenschatz für die geisteswissenschaftlichen Disziplinen“ (2017–2020, PI: Claudia Resch) eigens für die historische Wiener Zeitung trainiert wurde. Der Vortrag stellt den Workflow dieses Nachnutzungsszenarios, bestehend aus (1) Faksimile-Vorbearbeitung, (2) Layouterkennung, (3) Texterkennung und (4) Evaluation, vor und veranschaulicht anhand von konkreten Beispielen, wie manuelle und maschinelle Schritte bei der Digitalisierung frühneuzeitlicher Zeitungstexte erfolgreich zusammenwirken können
Martin Anton Müller, Laura Untner
Im Rahmen des FWF-Projekts Arthur Schnitzler – Briefwechsel mit Autorinnen und Autoren wird mit Transkribus die Grundlage für die digitale Editionsarbeit geschaffen. Das Projektteam transkribiert und kodiert die zu edierenden Dokumente in Transkribus und entwickelte zahlreiche XSL-Transformationen sowie eine GitHub-Action für die Überführung der PAGEs in projektspezifische und bereits mit Metadaten angereicherte XML/TEI-Dokumente. Zudem wurde ein Kurrent-Handschriftenmodell trainiert, das die notwendige Transkriptionsarbeit maßgeblich minimiert. So oft die Wege von Transkribus zu XML/TEI als steinig beschrieben werden, gibt es sie doch. Eine Möglichkeit der Harmonisierung von Transkribus und TEI haben wir in unserem Projekt gefunden.
Markus Kunzmann
Seit Herbst 2022 führt die Abteilung Sprachwissenschaft des ACDH-CH die Pilotstudie „DWA Österreich“ in Zusammenarbeit mit dem „Forschungszentrum Deutscher Sprachatlas“ der Universität Marburg durch. Die Erhebungen zum Deutschen Wortatlas (DWA) (Mitzka, Walther & Ludwig Erich Schmitt. 1951 – 1980. Deutscher Wortatlas. Gießen: Schmitz) gehören zu den umfangreichsten Sammlungen zur Lexik im deutschsprachigen Raum für die erste Hälfte des 20. Jahrhunderts, zumindest im Hinblick auf die Dichte des Ortsnetzes. Die Grundlage für die Sammlung bilden indirekte Befragungen in Form von Fragebögen, die in den Jahren von 1939 bis 1942 an insgesamt rund 50.000 Schulorten des gesamten deutschsprachigen Raums durchgeführt wurden. 188 Einzelwörter und 11 Sätze sollten von Schülerinnen und Schülern bzw. Lehrerinnen und Lehrern in die ortsübliche Mundart übersetzt werden. Das Wortatlasprojekt war als Ergänzung zu den früher erhobenen Wenker-Bögen des Deutschen Sprachatlas (DSA) (Wenker, Georg, Ferdinand Wrede & Walther Mitzka. 1926 – 1956. Deutscher Sprachatlas: auf Grund des Sprachatlas des Deutschen Reichs. Marburg (Lahn): Elwert.) gedacht, bei dem ca. 3.700 Orte auf das Gebiet der heutigen Republik Österreich fallen.
Auf der Grundlage eines Datensamples von rund 100 Bögen und bereits vorhandenen Texterkennungs‑Modellen soll ein neues Modell generiert werden, dass speziell auf die DWA-Bögen zugeschnitten ist. Dem Vorhaben zu Gute kommen dabei das weitgehend einheitliche Layout der Aussendungen sowie die eingeschränkte lexikalische Variation. Demgegenüber steht eine Heterogenität der Schriftsysteme, da der Erhebungszeitraum in die Phase der Umstellung von Deutscher Kurrentschrift auf die Deutsche Normalschrift fällt.
Der Vortrag präsentiert die Fortschritte des Projekts, die seit den konkreten Arbeiten an den Trainingsdaten seit Dezember 2022 erfolgt sind. Dabei wird auch der Umgang mit Problemen im Zusammenhang mit der Kodierung der teils vielfältigen Transkriptionssysteme erläutert. Soweit möglich, sollen auch die ersten Ergebnisse der Anwendung des aufgebauten Modells auf weitere Bögen aus dem restlichen bairischsprachigen Gebieten Österreichs als auch, kontrastiv dazu, dessen Einsatz auf Material aus dem niederdeutschen Sprachraum gezeigt werden.
Christian Preining
Im Rahmen dieses Projekts wird einerseits der Inhalt von 66 Arbeits- und Taschenkalendern Clemens Holzmeisters digital verfügbar gemacht, und andererseits aus den handschriftlichen Einträgen ein Texterkennungsmodell für die Handschrift Clemens Holzmeisters erarbeitet. Dieses soll auch bei der Erschließung der bereits erfassten und noch zu erfassenden handschriftlichen Briefe Holzmeisters in der Berufskorrespondenz von Clemens Holzmeister zum Einsatz kommen.
Die teilweise auch tagebuchartig geführten Kalender enthalten forschungsrelevante geschäftliche und persönliche Aufzeichnungen Holzmeisters, die Auskunft geben über Aufenthalte, Aktivitäten, Kontakte, sowie persönliche Gedanken und Überlegungen zu bestimmten Anlässen und Arbeiten. Diese auf unterschiedliche Kalendertypen verteilten Informationen sollen mittels Aufbereitung der Daten für ein Suchsystem und Einrichtung dieses Systems für einen effizienten Zugriff verarbeitet und dauerhaft in das digitale Archiv eingebunden werden.
Die Suchanwendung soll unter anderem eine Zeitleiste enthalten, die eine zeitliche Filterung der Suche und unmittelbare Visualisierung von Aufenthaltsorten und Korrespondenzpartnern von Treffern ermöglicht. Dazu werden neben der üblichen Annotationen von Wörtern (Werken, Personennamen, Orten, Ereignissen, etc.) auch die Links für einen Abgleich mit Normdaten verzeichnet.
Mit den Ergebnissen aus diesem Projekt werden neben einer umfangreichen Fotosammlung, einer Berufskorrespondenz, einem Pressespiegel sowie dem grafischen Werk von Clemens Holzmeister über ein ebenfalls noch in Arbeit befindliches, digitales Werkverzeichnis von Clemens Holzmeister auch die traditionell schwer erschließbaren Arbeits- und Taschenkalender des Architekten Clemens Holzmeister für die wissenschaftlichen Forschung erschlossen werde.
18 April 2023, 09.00-17.00
Austrian Academy of Sciences
Sonnenfelsgasse 19
Theatersaal
1010 Vienna
German