CMLC 4 - Challenges in the Management of Large Corpora

  • Der Workshop "Challenges in the Management of Large Corpora" wird jedes Jahr (abwechselnd auf LREC und Corpus Linguistics Konferenzen) von bedeutenden Corpusholdern im deutschsprachigen Raum organisiert, d. i.  Academiae Corpora  (vormals ICLTT - Institut für Corpuslinguistik und Texttechnologie) der ÖAW, dem IDS - Institut für Deutsche Sprache, und der Computerlinguistik der Universität Zürich. Der Workshop bietet die Möglichkeit, Fragen um Aufbau, Infrastruktur, Indizierung und Verbreitung von Daten unter Corpus-Fachleuten zu besprechen, und ist in dieser Hinsicht einzigartig in einer Forschungslandschaft, wo Linguisten Corpora tendenziell als ein Gegebenes betrachten, obwohl im Erhalt allein organisatorische Probleme (Rechteinhaber, internationale Kooperationen, Aufbau) zu lösen sind. Im diesjährigen Workshop wurden u.a. Details zu einem Corpus von parallelisierten UN-Dokumenten (je nach Sprachpaar) zu Tage gelegt, sowie eine internationale Kooperation zwischen dem IDS und der rumänischen Akademie der Wissenschaften. Außerdem wurde die Auswahl von Übersetzungsmöglichkeiten in großen Corpora angegangen (Zürich), sowie die Handhabung von Metadaten in Referenzkorpora (Bulgarische Akademie der Wissenschaften). Der Aufbau des "Academiae Corpora - Twitter-Corpus" wurde anlässlich dieses Workshops zum ersten Mal in einer Publikation geschildert, was es nun wissenschaftlich zitierbar macht. Im Rahmen dieses ersten Experiments wurden Tweets nach bestimmten Regeln gesammelt, die die hohe Nützlichkeit Wissenschaftlichkeit des Corpus ausmachen. Österreichische Nutzer stehen im Fokus, nämlich Nutzer, die sich subjektiv mit Österreich identifizieren (Profildaten) oder mehrheitlich aus Österreich twittern (Geolokalisierung).

    Weitere Information