Wien, 13. Oktober 2015

ACDH Tool Gallery 1.2

Basic Text Enrichment – TreeTagger for DH-Applications.


Voraussetzungen

Die Veranstaltung richtet sich an Geisteswissenschaftlerinnen (HistorikerInnen, LiteraturwissenschaftlerInnen, TheologInnen, JuristInnen, …), die textbasiert arbeiten und ihre Quellen mit linguistischen Methoden analysieren möchten. Aufgrund der beschränkten Sitzplätze im Clubraum ist die TeilnehmerInnenzahl begrenzt - Anmeldungen werden in der Reihenfolge ihres Eintreffens berücksichtigt.

Bitte bringen Sie zum Workshop Ihren eigenen Laptop mit!


ACDH Tool Galleries sind kostenlos und offen für alle. Registrierung geschlossen.


Programm

10.00-12.30 Teil I - Präsentationen

Begrüßung und Einleitung
Karlheinz Mörth, Austrian Centre for Digital Humanities

Wortartannotation für die digitalen Geisteswissenschaften
Ulrich Heid, Universität Hildesheim

In der Korpuslinguistik ist es üblich, Wörter von Texten mit Etiketten für die Wortart zu versehen (Wortart-Annotation, part-of-speech-Tagging) und flektierte Wortformen (kamkommtgekommen) mit Angaben zum Lemma, d.h. zur Grundform (hier: kommen) auszuzeichnen. Der Vortrag zielt darauf ab, den Stand solcher Verfahren und deren Grenzen, vor allem aber auch ihre Relevanz für textbasiertes Arbeiten in den digitalen Geisteswissenschaften zu beleuchten.
Präsentation

Lemmatisierung und Wortartannotation für historische Texte: Annotationspraxis im Austrian Baroque Corpus 
Claudia Resch, Austrian Centre for Digital Humanities

Für Texte historischer Sprachstadien, in denen Graphien stärkere Varianz aufweisen als heute, ist die Lemmatisierung von besonderem Wert, weil dadurch nicht nur flektierte Formen abgefragt werden können, sondern alle vorkommenden Schreibvarianten: Das Lemma “kommen” etwa kann auf unterschiedliche Varianten des Imperativs “Kommt!” verweisen (kombtkompt oder kommet). Der Beitrag gibt Einblick in die Annotationspraxis, die bei der Erstellung des Austrian Baroque Corpus angewandt wurde, um anschließend beispielhaft zu erläutern, welche kultur- und literaturwissenschaftlichen Forschungsfragen an die mit Lemmata und Wortarten versehenen Texte herangetragen werden können.

Was macht der TreeTagger im Blätterwald? Evaluation linguistischer Annotationswerkzeuge anhand eines Zeitungskorpus
Hannes Pirker, Austrian Centre for Digital Humanities

TreeTagger und RFTagger zählen zu den Standardwerkzeugen, wenn es um die automatische Erzeugung linguistischer Basis-Annotationen geht. Ihre Aufgabe ist es, für jedes Wort eines Textes die Wortart, gegebenenfalls feinere morphologische Kategorien und wenn möglich die Grundform (Lemma) zu ermitteln. In diesem Vortrag wird über die "Performance" dieser Werkzeuge auf einem umfangreichen Korpus österreichischer Printmedien berichtet, das mit beiden Taggern annotiert wurde. Dabei werden Abweichungen zwischen den Annotationen der beiden Tools quantitativ ausgewertet, aber insbesondere der Grad der lexikalischen Abdeckung der Texte beleuchtet. Das Ziel ist es, anhand konkreter Erfahrungen eine praxisrelevante Evaluation der Tools für die Textsorte Zeitungstext zu präsentieren.

12.30-13.30 Mittagessen in der Aula der ÖAW

13.30-16.00 Teil II: Workshop - Hands on

Linguistische Annotationstools als Web-Applikation: das Beispiel WebLicht
Marie Hinrichs & Claus Zinn, Universität Tübingen

WebLicht ist eine Web-Applikation (Forschungsumgebung) für die Analyse und Annotation von Texten. Weblicht steht im Rahmen von CLARIN allen Forschenden zur Verfügung und integriert eine Vielzahl an linguistischen Tools (Tokenizer, Tagger, Parser) für verschiedene Sprachen. Bei dieser Session werden die Grundlagen der Arbeit mit dieser Applikation vorgestellt und an Beispieltexten erprobt.

Webbasierte manuelle Nachbearbeitung von Annotationen
Barbara Krautgartner, Austrian Centre for Digital Humanities

Für die manuelle Nachbearbeitung linguistisch annotierter Daten werden die unterschiedlichsten Tools verwendet – seien es beispielsweise Office-Programme wie Excel oder Word, Xml-Editoren wie Oxygen oder ähnliche Werkzeuge. In unserer PoS-Session wollen wir gemeinsam eine am ACDH entwickelte Webapp erproben, die es ermöglicht, die Daten in tabellarischer Form schnell und unkompliziert im Browser zu korrigieren. Anhand eines Beispiels zeigen wir die Nutzungsmöglichkeiten dieser Applikation auf und laden Sie herzlich dazu ein, auch ihre eigenen Texte mitzubringen. Ihre Daten können, aber müssen nicht linguistisch annotiert sein. Ein Feature unserer App besteht in der automatischen Annotation mittels TreeTagger.