Transkribus "Unlocking our written past"

The second ACDH-CH Research Day is dedicated to the AI-based text recognition platform "Transkribus", which is used at the ACDH-CH and other institutes of the OeAW for automated recognition of handwritten and printed documents. In each presentation, a currently running research project sucessfully using the technology will be presented and various aspects of the digitization, layout and text recognizion as well as the transcription and subsequent processing of historical documents will be discussed. At the same time participants can connect within the OeAW concerning Transkribus-related matters and get informed about recent developments of the platform.

 

Schedule

09.00-09.15

Begrüßung

Alexandra N. Lenz

09.15-09.30

Einführung

Claudia Resch & Robert Klugseder

09.30-10.00

Transkribus auf der Seidenstraße

Hannes A. Fellner, Bernhard Koller und Martin Braun

10.00-10.30

Using Transkribus on Carolingian manuscripts

Jan Odstrcilik

10.30-11.00

„Von geprochen zal“. Zur Transkription von Zahlen und Brüchen in spätmittelalterlichen arithmetischen Traktaten mit Transkribus

 

Michaela Wiesinger

11.00-11.30

Kaffeepause

 

11.30-12.00

Verwendung der Texterkennungsplattform Transkribus für die automatisierte Transkription handgeschriebener tibetischer Texte im Projekt TibSchol

Pascale Hugon & Rachael Griffiths

12.00-12.30

Erfassung von Chorbüchern und Klosterrechnungen mit Transkribus als Herausforderung für die musikhistorische Forschung

Robert Klugseder

12.30-13:00

Die Kaiserin schreibt, die Welt liest. Ein Zwischenbericht zum Projekt „Dynastische Handlungsspielräume in der Korrespondenz von Kaiserin Eleonora Magdalena von Pfalz-Neuburg (1655-1720)“

Anna Spitzbart

13:00-14.00

Mittagspause

 

14.00-14.45

Transkribus „next generation“ (Read-Coop SCE, Zoom)

Andy Stauder

14.45-15.15

Zum Zusammenwirken von Mensch und Maschine – die Digitalisierung frühneuzeitlicher Ankunftslisten im Projekt „Visiting Vienna“

Nina C. Rastinger

15.15-15.30

Kaffeepause

 

15.30-16.00

Mit Transkribus zur digitalen Briefedition

Laura Untner, Peter AndorferMartin Anton Müller

16.00-16.30

DWA Österreich – Wie spezifisch sind dialektale Texterkennungsmodelle?

Markus Kunzmann

16.30-17.00

Projekt zur Erschließung der Arbeits- und Taschenkalender des Architekten Clemens Holzmeister

Christian Preining

 


Abstracts

Transkribus auf der Seidenstraße

Hannes A. Fellner, Bernhard Koller, Martin Braun

Das Projekt Tarim Brahmi ist der Erforschung der zentralasiatischen Variante der indischen Brahmi Schrift gewidmet. Diese wurde im ersten Jahrtausend unserer Zeitrechnung für die indogermanischen Sprachgruppen Sanskrit, Tocharisch und Sakisch an der östlichen Seidenstraße im Tarimbecken im heutigen Uigurischen Autonomen Gebiet Xinjiang der Volksrepublik China verwendet. Das Ziel des Projektes ist es, alle belegten Varianten des Schriftsystems zu katalogisieren und zu klassifizieren, um dadurch tiefere Einblicke in seine Entwicklung und Ausbreitung zu gewinnen.

Im Zentrum des Tarim Brahmi-Projektes steht eine XML-Datenbank (eXist-db) mit dem Textkorpus, sowie Wörterbüchern zu den bezeugten Sprachen. Innerhalb des Textkorpus sind die Transkriptionen individueller Brahmi-Schriftzeichen (Akṣaras) mit dem korrespondierenden Segment eines Manuskriptfotos assoziiert. Mithilfe einer Web-Applikation ist es dann möglich, automatisch Listen von character tokens zu generieren, um dadurch z.B. die Identifikation von unterschiedlichen Varianten desselben Schriftzeichens zu erleichtern. Zur dafür notwendigen Aufbereitung der Daten verwenden wir ein Python-Skript, um die Manuskriptfotos in einzelne Schriftzeichen zu segmentieren. Ein XSLT-Stylesheet erzeugt danach ein Transkribus-Dokument, in dem die Koordinaten der einzelnen Schriftzeichen mit den korrespondierenden Transkriptionen assoziiert sind. Transkribus kommt im Rahmen unseres Projektes momentan also primär in seiner Funktion als IIIF-Server zur Anwendung, sowie zur Korrektur/Modifikation von bestehenden Transkriptionen und um individuelle Schriftzeichen mit paläographischen Merkmalen zu taggen. Aufgrund der höchst fragmentarischen Natur des Textkorpus ist es auch notwendig, detaillierte Beschreibungen von Beschädigungen am Material in die Transkriptionen zu integrieren. Des Weiteren planen wir, die bisher aufbereiteten Daten als training corpus zu verwenden, um mithilfe der automatischen Handschriftenerkennung Manuskripte zu bearbeiten, für die noch keine digitalisierten Transkriptionen vorhanden sind.

 

Carolingian minuscule and Late Medieval Latin at the Institute for Medieval Research

Jan Odstrcilík, Institut für Mittelalterforschung

In the presentation, I will provide a brief overview of two ways we use Transkribus at the Institute of Medieval Research: Carolingian Latin and Late Medieval Latin.

Carolingian Latin is the more advanced of the two. Gregory of Tours'work Decem libri historiarum is preserved in multiple versions that differ in their composition, additions, removals and other aspects. We are focusing on the manuscripts from the Carolingian period which were historically not in the focus of the research. Helmut Reimitz, Leon Pürstinger and I started using Transkribus to manually correct older transcriptions prepared at our institute and for creation of new transcriptions. When doing this, we also began to experiment with training models in Transkribus. Finally, last year, we started a very fruitful collaboration with Tim Geelhaar of Bielefeld University, who trained extensive Carolingian models. This collaboration includes work on common transcription rules, sharing of transcriptions as well as organization of a HTR Winter School last year in Vienna.

The use of Transkribus for Late Medieval Latin at our institute is currently mainly my own for specific small-scale projects, e.g. on selected manuscripts containing sermons written mainly in Latin but featuring also Czech words and passages. These multilingual sermons are a very interesting case for Transkribus. We also had a team working on Late Medieval Latin at our HTR Winter School last year, and we were able to gain a great deal of additional experience.

Despite both groups of material being written in the Middle ages, we encountered interesting different challenges and problems that will be a part of the discussion in my presentation.

 

„Von geprochen zal“
Zur Transkription von Zahlen und Brüchen in spätmittelalterlichen arithmetischen Traktaten mit Transkribus.

Michaela Wiesinger

Der ERC Starting-Grant ARITHMETIC widmet sich der Erforschung spätmittelalterlicher deutschsprachiger arithmetischer Handschriften. Eines der Projektziele ist die Edition der Traktate aus den 142 Handschriften des Korpus, die in den Jahren 1400-1550 verfasst wurden. Aufgrund der großen Textmenge und der Komplexität der Traktate ist die Unterstützung des Transkriptionsprozesses durch eine Software, die Handschriftenerkennung unterstützt, unerlässlich. Transkribus funktioniert hierfür gut, hat aber ein Problem bei der Erkennung von indisch-arabischen Zahlen, vor allem von Brüchen. Wir konzentrieren uns derzeit auf Texte des 15. Jahrhunderts, für das es kein existierendes HTR-Modell in Transkribus gibt. In diesem Vortrag möchte ich unseren (noch nicht abgeschlossenen) Prozess darlegen, der zu einem guten Texterkennungsmodell für mathematische Handschriften des 15. Jahrhunderts führen soll.

Unsere Hauptprobleme, die wir berücksichtigen mussten, sind:

  • sehr viele aber sehr kurze Traktate (wenige Trainingsdaten)
  • Layoutprobleme (Glossen, Notizen quer zum Text, uneindeutige Zeilen etc.)
  • Einbettung von Rechnungen und Diagrammen
  • Schriftart (verschiedenen Händen, unlesbare Schrift, schlampig, „zerlesen“)
  • Alte Abkürzungen (Währungen, Gewichte, Maße, Einheiten)
  • Heterogene Textsorten mit unterschiedlichem Zahlengebrauch

All das führte zur Anwendung eines iterativen Verfahrens, das auf Basis von Trial und Error mit kleinsten Überarbeitungsschritten Verbesserungen vergleichbar und „Verschlimmbesserungen“ erkennbar macht. Es kann jetzt bereits gezeigt werden, dass durch diese Annäherung die Erkennung von Brüchen viel besser wenngleich nicht perfekt funktioniert. Wir versuchen derzeit in einem nächsten Schritt Trainingsdaten für andere Schrifttypen zum Modell hinzuzufügen, um die Erkennung zu erweitern.

 

Verwendung der Texterkennungsplattform Transkribus für die automatisierte Transkription handgeschriebener tibetischer Texte im Projekt TibSchol

Pascale Hugon, Rachael Griffiths

Der Einsatz fortschrittlicher Computermethoden für die Analyse digitalisierter Texte gewinnt in den Geistes- und Sozialwissenschaften immer mehr an Bedeutung. Dies ist auch der Fall in den tibetischen und buddhistischen Studien. Im Rahmen des ERC-finanzierten Projekts “The Dawn of Tibetan Buddhist Scholasticism (11th-13th c.)” (TibSchol, 101001002), das am Institut für Kultur- und Geistesgeschichte durchgeführt wird, wird Transkribus auf die Erkennung tibetischer Schreibschrift trainiert, um diese Texterkennungsplattform bei der Auswertung eines großen Korpus von unedierten Manuskripten philosophischer Texte aus dem 10. bis 15. Jh. einzusetzen (Data-Mining). In diesem Vortrag werden wir die ersten Ergebnisse des Handschriftenerkennungsmodells vorstellen, das im letzten Jahr für die ‘bru tsha Kursivschrift entwickelt wurde und zu dieser Zeit eine Fehlerrate (CER) von <5% erreicht hat. Auch unsere Einschätzung, inwieweit verschiedene Arten von Kursivschriften jeweils ein eigenes Erkennungsmodell erfordern, werden wir darlegen. Insbesondere wird auch darauf eingegangen werden, welche Herausforderung die tibetischen Manuskripte bezüglich der Layouterkennung darstellen. Tatsächlich wurde die Erstellung eines angepassten Basislinienmodells nötig, da das Standard-Layout-Analyse-Tool von Transkribus den besonderen Anforderungen nicht gewachsen war. Weiters werden wir unsere Strategien für den Umgang mit den (oft umfangreichen und kniffligen) Kürzeln der tibetischen Schrift vorstellen.

 

Erfassung von Chorbüchern und Klosterrechnungen mit Transkribus als Herausforderung für die musikhistorische Forschung

Robert Klugseder

Transkribus bietet für verschiedene Quellengattungen des Mittelalters hervorragende Möglichkeiten der automatisierten Transkription. Das trifft auch auf offensichtlich für die mediävistische Musikwissenschaft relevante liturgische bzw. musik-liturgische Handschriften zu. Zu diesen Codices gehören „reine“ Texthandschriften wie Missalien und Breviere genauso wie Musikhandschriften wie Gradualien und Antiphonare. Transkribus ist grundsätzlich in der Lage, sowohl die Liedtexte als auch die musikalische Notation der Gesänge zu erkennen und zu transkribieren. Beim Vortrag soll gezeigt werden, welche technischen Herausforderungen hier zu bewältigen sind. Neben diesen „musikalischen“ Quellen können auch Sekundärquellen von größerer Bedeutung für die Musikgeschichtsforschung sein. Wie man solche Codices erschließen und durchsuchbar machen kann, wird am Beispiel von Klosterrechnungen, Amtsbüchern und Chroniken gezeigt. Diese Quellen stellen vor allem für die dem eigentlichen Transkriptionsvorgang vorausgehenden Layoutanalysen eine größere Herausforderung dar. Im Rahmen des Vortrags soll gezeigt werden, welche Tools Transkribus für das Training von komplexeren Layouts zur Verfügung stellt.

 

Die Kaiserin schreibt, die Welt liest. Ein Zwischenbericht zum Projekt „Dynastische Handlungsspielräume in der Korrespondenz von Kaiserin Eleonora Magdalena von Pfalz-Neuburg (1655-1720)“

Anna Spitzbart

Basis des FWF-Projektes „Familiensache. Dynastische Handlungsspielräume in der Korrespondenz von Kaiserin Eleonora Magdalena von Pfalz-Neuburg (1655-1720)“ ist ein Quellenbestand, der nicht nur deutlich umfangreicher ist als die meisten bislang bekannten Überlieferungen zu Frauen des Hauses Habsburg, sondern der auch durch seine spezifische Prägung gerade die Untersuchung dynastischen Agierens ermöglicht: die eigenhändige Korrespondenz zwischen Kaiserin Eleonora Magdalena von Pfalz-Neuburg und ihrem Vater Philipp Wilhelm (seit 1685 Kurfürst von der Pfalz) und ihrem ältesten Bruder Johann Wilhelm von Pfalz-Neuburg (Kurfürst von 1690 bis zu seinem Tod 1716). Die Korrespondenz erstreckt sich über die Jahre 1677 bis 1716 und umfasst 5.300 Seiten.

Ein Ziel des Projektes ist es, alle eigenhändigen Briefe der Kaiserin in Bild und Transkription digital verfügbar zu machen. Dieser (ca. 1170 Seiten umfassende) Teil des Bestandes wurde 2022 mit Transkribus bearbeitet; mehrere HTR-Modelle wurden auf Basis der Handschrift der Kaiserin trainiert. In diesem Jahr gab es einige Herausforderungen zu meistern, sei es verblasste Schrift, der sich verändernde Schreibstil der Kaiserin über die Jahre oder die zunehmenden Abkürzungen. Gepunktet hat Transkribus zunehmend bei repetitiven Floskeln. Das Endergebnis war jedoch immer abhängig von der Qualität der Quelle. Wir möchten unseren Workflow im ersten Jahr gerne kurz vorstellen und auf Probleme eingehen, denen wir begegnet sind.

 

Zum Zusammenwirken von Mensch und Maschine – die Digitalisierung frühneuzeitlicher Ankunftslisten im Projekt „Visiting Vienna“

Nina C. Rastinger

Das Stadt-Wien-Projekt „Visiting Vienna“ (2022–2023, PI: Nina C. Rastinger) beschäftigt sich mit den zwischen 1703 und 1725 im Wien[n]erischen Diarium publizierten Ankunftslisten und setzt digitale, (semi-)automatische Methoden ein, um die hierin benannten Entitäten (z.B. Personen, An- und Unterkunftsorte) zu extrahieren, zu geokodieren und auf historischen Stadtplänen Wiens zu visualisieren. Einen zentralen Schritt hierfür bildet die Erstellung verlässlicher Volltexte als Ausgangsbasis, weshalb von herkömmlichen Optical Character Recognition (OCR)-Verfahren, die sich für in Fraktur gedruckte Texte vielfach als fehleranfällig erwiesen haben, abgesehen und stattdessen auf Handwritten Text Recognition (HTR) über Transkribus gesetzt wird. Konkret wird das öffentlich verfügbare Modell „German Fraktur 18th Century – WrDiarium_M9“ (https://digitarium.acdh.oeaw.ac.at/fraktur-modell) nachgenutzt, welches im Rahmen des go!digital-Projekts „Das Wien[n]erische Diarium: Digitaler Datenschatz für die geisteswissenschaftlichen Disziplinen“ (2017–2020, PI: Claudia Resch) eigens für die historische Wiener Zeitung trainiert wurde. Der Vortrag stellt den Workflow dieses Nachnutzungsszenarios, bestehend aus (1) Faksimile-Vorbearbeitung, (2) Layouterkennung, (3) Texterkennung und (4) Evaluation, vor und veranschaulicht anhand von konkreten Beispielen, wie manuelle und maschinelle Schritte bei der Digitalisierung frühneuzeitlicher Zeitungstexte erfolgreich zusammenwirken können

 

Mit Transkribus zur digitalen Briefedition

Martin Anton Müller, Laura Untner

Im Rahmen des FWF-Projekts Arthur Schnitzler – Briefwechsel mit Autorinnen und Autoren wird mit Transkribus die Grundlage für die digitale Editionsarbeit geschaffen. Das Projektteam transkribiert und kodiert die zu edierenden Dokumente in Transkribus und entwickelte zahlreiche XSL-Transformationen sowie eine GitHub-Action für die Überführung der PAGEs in projektspezifische und bereits mit Metadaten angereicherte XML/TEI-Dokumente. Zudem wurde ein Kurrent-Handschriftenmodell trainiert, das die notwendige Transkriptionsarbeit maßgeblich minimiert. So oft die Wege von Transkribus zu XML/TEI als steinig beschrieben werden, gibt es sie doch. Eine Möglichkeit der Harmonisierung von Transkribus und TEI haben wir in unserem Projekt gefunden.

 

DWA Österreich – Wie spezifisch sind dialektale Texterkennungsmodelle?

Markus Kunzmann

Seit Herbst 2022 führt die Abteilung Sprachwissenschaft des ACDH-CH die Pilotstudie „DWA Österreich“ in Zusammenarbeit mit dem „Forschungszentrum Deutscher Sprachatlas“ der Universität Marburg durch. Die Erhebungen zum Deutschen Wortatlas (DWA) (Mitzka, Walther & Ludwig Erich Schmitt. 1951 – 1980. Deutscher Wortatlas. Gießen: Schmitz) gehören zu den umfangreichsten Sammlungen zur Lexik im deutschsprachigen Raum für die erste Hälfte des 20. Jahrhunderts, zumindest im Hinblick auf die Dichte des Ortsnetzes. Die Grundlage für die Sammlung bilden indirekte Befragungen in Form von Fragebögen, die in den Jahren von 1939 bis 1942 an insgesamt rund 50.000 Schulorten des gesamten deutschsprachigen Raums durchgeführt wurden. 188 Einzelwörter und 11 Sätze sollten von Schülerinnen und Schülern bzw. Lehrerinnen und Lehrern in die ortsübliche Mundart übersetzt werden. Das Wortatlasprojekt war als Ergänzung zu den früher erhobenen Wenker-Bögen des Deutschen Sprachatlas (DSA) (Wenker, Georg, Ferdinand Wrede & Walther Mitzka. 1926 – 1956. Deutscher Sprachatlas: auf Grund des Sprachatlas des Deutschen Reichs. Marburg (Lahn): Elwert.) gedacht, bei dem ca. 3.700 Orte auf das Gebiet der heutigen Republik Österreich fallen.

Auf der Grundlage eines Datensamples von rund 100 Bögen und bereits vorhandenen Texterkennungs‑Modellen soll ein neues Modell generiert werden, dass speziell auf die DWA-Bögen zugeschnitten ist. Dem Vorhaben zu Gute kommen dabei das weitgehend einheitliche Layout der Aussendungen sowie die eingeschränkte lexikalische Variation. Demgegenüber steht eine Heterogenität der Schriftsysteme, da der Erhebungszeitraum in die Phase der Umstellung von Deutscher Kurrentschrift auf die Deutsche Normalschrift fällt.

Der Vortrag präsentiert die Fortschritte des Projekts, die seit den konkreten Arbeiten an den Trainingsdaten seit Dezember 2022 erfolgt sind. Dabei wird auch der Umgang mit Problemen im Zusammenhang mit der Kodierung der teils vielfältigen Transkriptionssysteme erläutert. Soweit möglich, sollen auch die ersten Ergebnisse der Anwendung des aufgebauten Modells auf weitere Bögen aus dem restlichen bairischsprachigen Gebieten Österreichs als auch, kontrastiv dazu, dessen Einsatz auf Material aus dem niederdeutschen Sprachraum gezeigt werden.

 

Projekt zur Erschließung der Arbeits- und Taschenkalender des Architekten Clemens Holzmeister

Christian Preining

Im Rahmen dieses Projekts wird einerseits der Inhalt von 66 Arbeits- und Taschenkalendern Clemens Holzmeisters digital verfügbar gemacht, und andererseits aus den handschriftlichen Einträgen ein Texterkennungsmodell für die Handschrift Clemens Holzmeisters erarbeitet. Dieses soll auch bei der Erschließung der bereits erfassten und noch zu erfassenden handschriftlichen Briefe Holzmeisters in der Berufskorrespondenz von Clemens Holzmeister zum Einsatz kommen.

Die teilweise auch tagebuchartig geführten Kalender enthalten forschungsrelevante geschäftliche und persönliche Aufzeichnungen Holzmeisters, die Auskunft geben über Aufenthalte, Aktivitäten, Kontakte, sowie persönliche Gedanken und Überlegungen zu bestimmten Anlässen und Arbeiten. Diese auf unterschiedliche Kalendertypen verteilten Informationen sollen mittels Aufbereitung der Daten für ein Suchsystem und Einrichtung dieses Systems für einen effizienten Zugriff verarbeitet und dauerhaft in das digitale Archiv eingebunden werden.

Die Suchanwendung soll unter anderem eine Zeitleiste enthalten, die eine zeitliche Filterung der Suche und unmittelbare Visualisierung von Aufenthaltsorten und Korrespondenzpartnern von Treffern ermöglicht. Dazu werden neben der üblichen Annotationen von Wörtern (Werken, Personennamen, Orten, Ereignissen, etc.) auch die Links für einen Abgleich mit Normdaten verzeichnet.

Mit den Ergebnissen aus diesem Projekt werden neben einer umfangreichen Fotosammlung, einer Berufskorrespondenz, einem Pressespiegel sowie dem grafischen Werk von Clemens Holzmeister über ein ebenfalls noch in Arbeit befindliches, digitales Werkverzeichnis von Clemens Holzmeister auch die traditionell schwer erschließbaren Arbeits- und Taschenkalender des Architekten Clemens Holzmeister für die wissenschaftlichen Forschung erschlossen werde.


Date

18 April 2023, 09.00-17.00


Place

Austrian Academy of Sciences
Sonnenfelsgasse 19
Theatersaal
1010 Vienna


Language

German