Suche      Home      Kontakt      Sitemap      English

Linguistik

Interview mit Gerhard Budin


Die Corpuslinguistik vernetzt die Sprachwissenschaft mit der Informatik und ermöglicht die gezielte Untersuchung großer Textmengen. Damit lassen sich Fragen wie nach der Veränderung von Sprache im Laufe der Zeit beantworten, sagt Gerhard Budin, Direktor des Instituts für Corpuslinguistik und Texttechnologie (ICLTT) der ÖAW im Gespräch mit Martina Gröschl.

Das Institut für Corpuslinguistik und Texttechnologie (ICLTT) erforscht Sprache auf empirischer Basis anhand unterschiedlicher Corpora. Was kann man sich unter einem Corpus vorstellen?

Budin: Ein Corpus ist eine - heute meist digitale - Textsammlung. Wobei unter "Text" nicht nur schriftsprachlicher Text zu verstehen ist, sondern auch multimedialer. Corpora werden für vielfältige Zwecke erstellt: Am ICLTT erforschen wir unter anderem die Entwicklung von Sprache, aber es gibt auch andere Corpora wie Lernercorpora, die für das Erlernen einer Fremdsprache eingesetzt werden.

Und was kann man mit Hilfe digitaler Textsammlungen über Sprache erfahren?

Budin: Digitale Textsammlungen erlauben es, große Textmengen in kurzer Zeit gezielt auf bestimmte Fragestellungen hin zu untersuchen. So ist die Frage, wie sich eine Sprache im Laufe der Zeit verändert hat sehr gut über die Corpuslinguistik zu beantworten, da man dafür zahlreiche Texte aus unterschiedlichen Zeiten analysieren kann. Eines unserer Forschungsprojekte am ICLTT befasst sich beispielsweise mit der Entwicklung der österreichischen Rechts- und Verwaltungssprache, die in ihren wesentlichen Zügen in der Habsburger-Monarchie entstanden ist. Hier greifen wir auf die umfangreiche Sammlung des AAC - Austrian Academy Corpus mit Texten aus dem 19. und 20. Jahrhundert zurück, die an der ÖAW seit mehreren Jahren aufgebaut wird.

Der Aufbau eines Corpus ist sehr ressourcenintensiv. Stehen solche Corpora auch über die eigenen Projekte hinaus einer breiteren Forschungscommunity für ihre Arbeit zur Verfügung?

Budin: Derzeit wird intensiv an webbasierten Plattformen gearbeitet, über die bereits existierende Corpora virtuell zusammengeschlossen und über gemeinsame Schnittstellen zugänglich gemacht werden sollen. Auf EU-Ebene sollen über Forschungsinfrastruktur-Projekte wie CLARIN ("Common Language Resources and Technology Infrastructure") oder DARIAH ("Digital Research Infrastructure for the Arts and Humanities") Sprachressourcen vernetzt und für die Forschung auf breiter Basis nutzbar gemacht werden, insbesondere auch für die interdisziplinäre Forschung, die uns ein besonderes Anliegen ist.

Bei der webbasierten Vernetzung von Sprachressourcen ist "Interoperabilität" das magische Zauberwort. Die Herausforderung ist, über gemeinsame Standards zwischen den verschiedenen Systemen Kompatibilität herzustellen. An solche Standards wird schon seit etwa zwei Jahrzehnten gearbeitet. Ich selbst habe an der Entwicklung einer ISO-Norm für die Repräsentation und Strukturierung terminologischer Daten mitgearbeitet, um damit den Austausch solcher Datenbestände zwischen verschiedenen Terminologie-Datenbanken, die bei Fachübersetzungen eingesetzt werden, zu ermöglichen. Das ICLTT ist aktuell in die Entwicklung weiterer Normen auf internationaler Ebene stark eingebunden.

Sie sprachen die interdisziplinäre Forschung an: Welche anderen Forschungsdisziplinen als die Linguistik können von einer breiteren Nutzbarmachung von Sprachressourcen profitieren?

Budin: Die Sozialwissenschaften arbeiten zum Beispiel häufig mit Interviews. Hier können sprachtechnologische Infrastrukturen für die Auswertung großer Interviewsammlungen genutzt werden, oder bereits für andere Zwecke aufgebaute Corpora auf sozialwissenschaftliche Fragestellungen hin analysiert werden. Auch in den historischen Wissenschaften kommen corpuslinguistische Methoden zum Einsatz.

Eines der vielen möglichen mit Hilfe der Corpuslinguistik bearbeitbaren Themen ist Rassismus: Das ICLTT ist in diesem Zusammenhang am Sparkling-Science-Projekt "migration.macht.schule" beteiligt, bei dem Schülerinnen und Schüler zu uns ins Sprachlabor kommen und mit den Methoden der Corpuslinguistik Blogs und E-Mail-Foren auf rassistische Aussagen hin untersuchen.

Die Anwendungsbereiche der Corpuslinguistik sind also auch über die Sprachwissenschaft hinaus vielfältig. Wie positioniert sich die Corpuslinguistik als Wissenschaft innerhalb der Linguistik?

Budin: In jedem Fall ist die Corpuslinguistik mehr als ein Werkzeug. Man darf sie auf keinen Fall als Hilfswissenschaft missverstehen, wie ja übrigens auch die Informatik lange Zeit als Hilfswissenschaft missverstanden wurde. Die Corpuslinguistik ist eine interdisziplinäre, methodologische Grundlage für die computergestützte Forschung. Sie vernetzt im Kontext der Computerlinguistik die Sprachwissenschaft mit der Informatik und ermöglicht das Arbeiten auf einer breiten empirischen Basis.

Mit diesem empirischen Zugang nähern sich die Geisteswissenschaften eigentlich der Arbeitsweise der Naturwissenschaften an. Gibt es auch Kritik an diesem Forschungsansatz?

Budin: Es gibt tatsächlich Vorbehalte. Diesen begegnet man jedoch am besten mit dem Hinweis darauf, dass computergestützte Methoden die traditionellen, hermeneutischen Methoden des Verstehens nicht zum Verschwinden bringen, sondern ergänzen wollen. Die Überprüfbarkeit von Hypothesen wird durch sie erweitert, neue Forschungsfragen werden eröffnet.

Wir wollen die Kreativität und die Arbeit der Forschenden inspirieren, unterstützen und stärken. Der Computer soll den Menschen nicht ersetzen, sondern möglich machen, was in der Forschung bisher unmöglich war. Die Corpuslinguistik stärkt die Qualität der Forschung durch Erstellung und Anwendung von Texttechnologien, mit denen wir auch formale Modelle der Strukturen von Sprache und ihrer täglichen Verwendung erstellen können.

Zur Person:
Gerhard Budin ist Professor für Translatorische Terminologiewissenschaft und Übersetzungstechnologien am Zentrum für Translationswissenschaft der Universität Wien und leitet das Institut für Corpuslinguistik und Texttechnologie an der ÖAW. Themenschwerpunkte in Forschung und Lehre sind kognitive und linguistische Strukturen von Fachterminologien, Sprachtechnologien als Arbeitsinstrumente der internationalen Sprachindustrie und als Forschungsmethoden der digitalen Geisteswissenschaften, sowie die Entwicklung der mehrsprachigen Fachkommunikation.






Kontakt:
Prof. Dr. Gerhard Budin
Institut für Corpuslinguistik und Texttechnologie (ICLTT)
Zentrum Sprachwissenschaften, Bild- und Tondokumentation
Österreichische Akademie der Wissenschaften (ÖAW)
Sonnenfelsgasse 19/8, 1010 Wien
T +43 1 51581-2333
gerhard.budin@oeaw.ac.at
www.oeaw.ac.at/icltt


Juni 2011