Aus den sogenannten Personal Digital Assistants (PDAs) der 1990er-Jahre haben sich virtuelle Agenten entwickelt, die uns im Alltag zur Seite stehen sollen. Sie „wohnen“ auf unseren Computern und Mobiltelefonen und seit 2014 auch in Lautsprechern in unseren Wohnungen.
Für ihr Funktionieren werden verschiedene Technologien kombiniert. Zum einen sollen Anweisungen von Menschen über Spracheingabe verstanden werden, phonetisch und semantisch, sie müssen auf anderen Geräten automatisiert inhaltlich bearbeitet werden, und die Rückmeldung des Geräts soll wieder für Menschen verständlich sein.
Die Aufgaben digitaler Assistenzsysteme reichen von Unterhaltung, wie Witze erzählen oder Musik abspielen, bis hin zur Termin- und Reiseplanung, oder der Abwicklung des (Online-)Einkaufs. Über Schnittstellen können die Funktionen durch Drittanbieter erweitert werden, sodass auch die Steuerung des Lichts oder anderer Bereiche eines Smart Homes möglich werden.
Wie funktionieren diese Systeme technisch, und wie werden sie zum Teil des täglichen Umfelds von KonsumentInnen? Welche Daten werden verarbeitet und von wem? Ändert sich das Kommunikationsverhalten von Menschen durch die häufige Interaktion mit Maschinen? Diese und verwandte Fragen sollen in der Kurzstudie in Kooperation mit der Bundesarbeitskammer erörtert werden. Nach einer zusammenfassenden Analyse des aktuellen Wissensstandes werden Empfehlungen für die Politik dargestellt.
In den letzten Jahren ist ein Boom in der Verbreitung von Sprachassistenten zu bemerken. Sie sollen ein breites Anwendungsspektrum, vom Musik Abspielen bis zum persönlichen Assistenten, der Termine verwaltet und daran erinnert, abdecken. Die derzeitige Generation ist jedoch noch nicht so weit entwickelt, dass komplexe Interaktionen möglich sind, weshalb die Geräte derzeit vor allem für einfache Aufgaben eingesetzt werden. Die bevorzugten Anwendungen sind derzeit das Streamen von Musik, die Frage nach dem aktuellen Wetter und der Einsatz in Teilbereichen der Heimautomation, in so genannten Smart Home Anwendungen. Dennoch ist abzusehen, dass die digitalen Sprachassistenten nur ein erster Schritt zu Realisierung einer Vision umfassender, ubiquitärer digitaler Assistenten sind, auf die man von möglichst überall über die verschiedensten Medien und Kanäle zugreifen können soll. Die Spracheingabe wird damit als neue Schnittstelle zur Interaktion mit digitalen Systemen einem breiten Publikum nahegebracht und dürfte in vielen Bereichen die Eingabe über berührungssensitive Bildschirme oder die Tastatur ablösen. Dies wird als Vereinfachung der Interaktion und Steigerung der Bequemlichkeit angesehen. Weiters wird dadurch für bestimmte Personengruppen, wie Blinde oder Personen mit eingeschränkter Feinmotorik, ein barrierefreier Zugang zur digitalen Welt, und so eine bessere Teilhabe an einer zunehmend digitalen Gesellschaft ermöglicht. Die Assistenten tragen derzeit Namen wie Alexa, Cortana oder Siri, die zur persönlichen Identifikation mit den Systemen einladen. Nur Google tanzt mit der schlichten Bezeichnung Google Assistant etwas aus der Reihe. Viele dieser digitalen Sprachassistenten sind für bestimmte Endgeräte zugeschnitten und darauf optimiert. Wesentlich für die Nützlichkeit sind insbesondere die hinter den verschiedenen digitalen Assistenten stehenden Plattformen und deren Schwerpunkte. Aus der Perspektive von KonsumentInnen stellt sich neben der konkreten Nützlichkeit vor allem die Frage nach der Datensicherheit und dem Datenschutz. Da für die Beurteilung des Inhalts der Spracheingaben die digitalisierte Sprache alleine oft nicht ausreicht, werden neben der aktuellen Spracheingabe eine Vielzahl weiterer Informationen wie z. B. frühere Anfragen, Käufe, Zeitpunkt oder Standorte für das Sprachverständnis verwendet. Damit entstehen umfassende Persönlichkeitsprofile, die sehr eng mit dem konkreten Verhalten von KonsumentInnen verbunden sind. Heute führen die Sprachassistenten die Spracherkennung grundsätzlich auf den Servern der Anbieter durch. Dazu werden Sprachaufnahmen an die Server geschickt und meist auch dort gespeichert. Diese Spracherkennung in der Cloud verschafft den Anbietern sehr umfassend Daten. Eine datenschutzfreundlichere Spracherkennung direkt auf dem Gerät wird aktuell bei keinem Anbieter unterstützt. Sprachassistenten in smarten Lautsprechern können mittlerweile nicht nur die menschliche Stimme, sondern auch Geräusche erkennen. Ihre latente Aufnahmebereitschaft macht sie deshalb auch attraktiv für Anwendungen wie Alarmanlagen, die eine permanente Überwachung ihrer Umgebung durchführen. Durch die Plattform-Ökonomie könnte es zu Datenmonopolen und neuen Gatekeepern zwischen Verkäufern und KonsumentInnen kommen. Die Attraktivität von Plattformen steigt meist mit ihrer Verbreitung. Größere Plattformen sind wirtschaftlich attraktiver, wodurch sich die Marktkonzentration auf wenige Anbieter mit Quasi-Monopolen beschränken könnte. Dies erhöht die Wahrscheinlichkeit für Missbrauch der mächtigen Position als Gatekeeper zur Online-Welt. Welche Waren werden angeboten? Welche Informationsdienste bevorzugt? Wer entscheidet, welches Bild der Welt vermittelt wird? Diese Fragen sind sowohl individuell konsumentenpolitisch als auch für die Gesellschaft, die Demokratie von großer Bedeutung. Weitgehend unklar sind derzeit noch die langfristigen kulturellen und sozialen Auswirkungen der zunehmenden direkten Kommunikation mit Systemen, den immer verfügbaren Assistenten. Die digitalen Sprachassistenten sind ein sichtbarer Ausdruck des fortschreitenden Einsatzes Künstlicher Intelligenz. In diesem Zusammenhang wird verstärkt zu diskutieren sein, welche Grenzen wir fortgeschrittener KI setzen wollen. Was wollen wir an Maschinen delegieren, und was wollen wir nie von Maschinen entschieden haben? Grundlegende Aspekte einer Ethik für KI betonen vor allem die Würde des Menschen als zentralen Wert und daraus abgeleitet Anforderungen wie menschliche Entscheidungshoheit, Transparenz, technische Robustheit/Sicherheit, Datenschutz, Vielfalt und verantwortungsvolle Systemgestaltung.
08/2018 - 06/2019