24.03.2017

Datenfang im Web

Wie man aus Big Data Wissen generiert, erläuterte der Informatiker Georg Gottlob bei den Viktor Kaplan Lectures an der ÖAW. Wie man mit Logik Firmen gründet, war dabei auch ein Thema.

„Eigentumswohnung in Wien, energieeffiziente Bauweise, mit Aufzug und gelegen in einem Bezirk, der viele italienische Restaurants aufweist.“ Wer diese Anfrage bei Google eingibt wird vermutlich keine befriedigende Auskunft erhalten, sondern eine wilde Mischung an Hinweisen auf Restaurants in Wien, Aufzugsfirmen, öko-zertifizierte Bauunternehmen und Eigentumswohnungen in Italien. Denn Suchmaschinen reagieren nur auf Schüsselworte, komplexe Anfragen können sie nicht bearbeiten. Warum das so ist? Weil das World Wide Web nicht das ist, was wir uns darunter vorstellen: „Das World Wide Web ist keine Datenbank“, erläuterte Georg Gottlob bei seinem Vortrag „Big Data from the Web“ am 22. März 2017 im Rahmen der Viktor Kaplan Lectures an der Österreichischen Akademie der Wissenschaften (ÖAW).

Das World Wide Web ist keine Datenbank.

Das Netz, sagte Gottlob, sei vielmehr eine unstrukturierte Ansammlung von Daten. Jede Website sieht anders aus und ist auf je eigene Weise gebaut. Um hier spezifische Anfragen an eine große Menge von Internetseiten stellen zu können, müssten die Informationen der einzelnen Seiten strukturiert herausgefiltert und in eine Datenbank eingegeben werden. Wie eine solche „Datenextraktion“ funktioniert und was man damit machen kann, war das Thema im Festsaal der Akademie, wobei Gottlob jeweils den gesamten Zyklus von der Theorie über die technologische Umsetzung bis zur Kommerzialisierung beschrieb. Denn am Ende von Gottlobs Forschungen standen zwei erfolgreiche Firmengründungen.

Das Herz des Logikers

Websites sind hierarchisch aufgebaut, in Programmiersprache abgebildet sehen sie aus wie auf dem Kopf stehende Bäume. Von einfachen Einheiten aus verzweigen sich die logischen Programmierschritte nach unten hin immer weiter. Um nun aus diesen „Bäumen“ bestimmte Daten extrahieren zu können, benutzte Gottlob eine spezielle Programmiersprache, genannt MSO, die Teilobjekten einer Website Prädikate zuschreiben und Relationen der einzelnen Knotenpunkte definieren kann: Dies ist eine Postleitzahl, dies ist ein Name, dies eine zwei- oder dreigliedrige Verzweigung.

MSO steht dabei für „monadic second order logic“, also „monadische Logik der 2. Stufe“, die sich in recht kryptischen Formeln ausdrückt. „Solch eine Sprache lässt das Herz des Logikers höher schlagen, für Programmierer/innen aber oder für Anwender/innen ist sie bei weitem zu umständlich“, sagte Gottlob, weshalb er mit seinem Team weitere Sprachebenen darüber setzte. Das Endprodukt schließlich war ein ausgereiftes Datenextraktionsprogramm, mit dessen Hilfe etwa Unternehmer/innen die Produktpreise der Konkurrenz abfragen und mit den eigenen Angeboten vergleichen kann. Selber ein guter Geschäftsmann, machte Gottlob aus dem Programm eine Firma, „liXto“, die er schließlich an die Unternehmensberatung McKinsey verkaufte.

Automatische Systeme

Doch nun ging es weiter: Wie könnte das ganze Verfahren vollautomatisch laufen, so dass sich etwa 15.000 Real Estate-Websites ohne weitere Eingabe durchforsten ließen? Er habe sich genau angesehen, wie sein 9-jähriger Sohn händisch Website-Adressen in den Computer eingab. Was der Junge kann, langsam und bedächtig, müsste eine Maschine doch auch können, fand Gottlob.

 

 

Der Trick bestehe darin, festgelegte Regeln und selbstlernende Prozesse, sozusagen „rechte und linke Gehirnhälfte“, zu verbinden. In dem mit einem über einen ERC-Grant und private Sponsoren finanzierten Projekt DIADEM gelang es dann, eine Software zu entwickeln, die eigenständig Daten aus großen Mengen an Websites etwa für Gebrauchtwagen, Restaurants, Jobangebote oder Nachrichten herausfiltern kann. Unter dem Namen „Wrapidity“ kam dieses Programm zur Marktreife, in Anlehnung an das Wort „wrapper“ für Datenextraktionsprogramm.

Gute und böse Dinge

Mit Datenextraktion ließen sich gute aber auch „böse“ Dinge anrichten, meinte Gottlob und ging auf die Schattenseiten des Verfahrens ein. Denn natürlich könnten Firmen etwa über personalisierte Smartphone-Apps Lokalisierungsdaten ihrer Kund/innen erfassen und sie mit Informationen über Geschäftsadressen kombinieren. So also ließe sich nicht nur herausfinden, wo jemand sich aufhält, sondern auch, welche Läden sich in der Nähe befinden und so auf das Einkaufsverhalten und Konsumvorlieben schließen.

Mit Datenextrakion lassen sich auch „böse“ Dinge anrichten.

„Diese Informationen stehen zwar unter Datenschutz, aber ich würde nicht darauf vertrauen, dass die Firmen sich daran halten“, kritisierte Gottlob. Als weiteres Beispiel für zweifelhafte Big Data-Nutzung nannte er sogenannte „Crime Heatmaps“, die anhand von Kriminaldaten soziale Brennpunkte markieren, zum Teil bis in einzelne Häuser hinein. Solche Verfahren könnten auf unethische Weise diskriminierend und stigmatisierend wirken.

Böses und Gutes liegen also nah beieinander. „Wrapidity“ jedenfalls, bislang konkurrenzlos auf dem Markt, hat Gottlob schon wieder verkauft: an ein Unternehmen für Medienbeobachtung. Denn Herz und Hirn des Logikers wollen weiter. Datenextraktion ist extrem zeitaufwendig und kostet viel Strom. Eine Idee habe er schon, erwähnte Gottlob in der Diskussion, wie man die Sache um 40 Prozent schneller machen kann. Das wird dann wohl die nächste Firma.