AktivierungswortEin Aktivierungswort (englisch hotword oder wake word), gelegentlich auch Aufwachwort, Aufwachbefehl oder Triggerwort genannt, ist ein Wort, das – wenn es vom Benutzer ausgesprochen wird – dazu dient, einen Sprachassistenten zu aktivieren, um dann mit ihm – meist verbal und akustisch in (annähernd) natürlicher Sprache – zu interagieren.[1][2] Ein Aktivierungswort ist also ein spezieller Sprachbefehl im Zusammenhang mit Sprachsteuerung, der einen Sprachassistenten zwecks weiterer Konversation aktiviert. Anstelle eines einzelnen Worts kann auch eine Phrase (z. B. häufig in Form einer Anrede) als Aktivierungswort dienen. Das Aktivierungswort kann – je nach Sprachassistenzsystem – entweder
Manche Systeme können nicht nur mit einem einzigen Aktivierungswort, sondern mit mehreren verschiedenen Aktivierungswörtern aktiviert werden. Dies können zum Beispiel Geräte sein, die nicht nur einen, sondern mehrere verschiedene Sprachassistenten integriert haben.[9] FunktionsablaufAllgemeinesDas Aktivierungswort wird vom Benutzer so ausgesprochen, dass es von den Mikrofonen des Endgeräts des Sprachassistenzsystems empfangen wird. Erkennt das System das Aktivierungswort, gibt es dem Benutzer üblicherweise eine entsprechende Rückmeldung, dass es nun aktiv (also interaktionsbereit) ist. Der Benutzer kann dann seine eigentliche Konversation mit dem Assistenten beginnen und ihm beispielsweise eine Frage stellen oder einen Befehl erteilen.[1][10] Die zum Erkennen des Aktivierungsworts nötige Rechenleistung wird offline, also lokal vom Endgerät erbracht. Erst die eigentliche Interaktion läuft bei vielen Sprachassistenten online, also per Internetverbindung über Server des jeweiligen Assistenten-Anbieters. Diese Server leisten dann die Spracherkennung für das Erkennen des Benutzerwunschs und die Sprachsynthese für die sprachliche Antwort des Systems an den Benutzer.[1][10] Es gibt auch Systeme, die rein offline arbeiten und somit keine Internetverbindung benötigen.[8][11][1] Je nach Sprachassistenzsystem oder dessen Konfiguration horchen die Mikrofone des Endgeräts entweder permanent auf das Aktivierungswort, oder es werden die Mikrofone erst nach einer manuellen Aktivierung, z. B. per Tastendruck, aktiviert. Im letztgenannten Fall entfällt das Aktivierungswort, da es hier durch die manuelle Aktivierung ersetzt wird.[7][3][5] TheorieJene Funktionseinheit des Sprachassistenzsystems, die auf Basis eines empfangenen Audiosignals, das als mögliches Aktivierungswort interpretiert werden könnte, entscheidet, ob das Sprachassistenzsystem aktiviert oder nicht aktiviert wird, arbeitet als binärer Klassifikator. Diese Klassifizierung der Audiosignale funktioniert in der Praxis nicht perfekt, es passieren Fehler (was auch auf den Einsatz von Künstlicher Intelligenz zurückzuführen ist).[12] Es können somit die folgenden vier Fälle auftreten:
Um Fehlklassifikationen (hier also die beiden Fälle 2 und 3) möglichst zu vermeiden, ist es nötig, dass der Klassifikator geeignet parametriert ist. Bei manchen Sprachassistenzsystemen kann der Benutzer hierzu bestimmte Einstellungen selbst vornehmen. So soll es etwa Google Assistant erlauben, die Empfindlichkeit des Ansprechens auf dessen Aktivierungswort an die jeweiligen Vorlieben des Benutzers anzupassen.[13] Herausforderungen und ProblembereicheIdeales SprachassistenzsystemEin ideales Sprachassistenzsystem erkennt einerseits sein Aktivierungswort stets einwandfrei. Andererseits aktiviert es sich (abgesehen von der manuellen Aktivierung) nie ohne sein Aktivierungswort. Nichtaktivierung: Nichterkennung des AktivierungswortsIm praktischen Einsatz kann es – je nach Aussprache des Benutzers oder Geräuschkulisse rund um die Mikrofone – vorkommen, dass das Sprachassistenzsystem das Aktivierungswort nicht als solches erkennt. Der Benutzer ist dann gefordert, einen neuerlichen Versuch zu unternehmen. Das Aktivierungswort deutlicher oder lauter auszusprechen, zielgerichteter in Richtung der Mikrofone zu sprechen und für eine ruhigere Umgebung mit weniger Störgeräuschen zu sorgen, erhöhen die Chancen auf eine korrekte Erkennung. Alternativ kann der Benutzer, sofern es das System unterstützt, auf dessen manuelle Aktivierung ausweichen. Fehlaktivierung: Aktivierung trotz nicht gesprochenen AktivierungswortsAuch der umgekehrte Fall kann in der Praxis auftreten, nämlich, dass das Sprachassistenzsystem nicht nur (korrekterweise) auf das Aktivierungswort, sondern auch fälschlicherweise auf ähnlich klingende Wörter oder (andere) Geräusche reagiert und sich aktiviert. Dies kann z. B. durch Musik oder sich untereinander unterhaltende Personen ausgelöst werden. Eine solche Fehlaktivierung kann bei Online-Systemen Probleme beispielsweise hinsichtlich Privatsphäre oder Datenschutz nach sich ziehen, weil dann Gesprochenes oder Umgebungsgeräusche unvermutet und unabsichtlich auf den Servern des Anbieters landen. Um Fehlaktivierungen zu vermeiden, ist es – sofern es das Sprachassistenzsystem zulässt – im Rahmen eines systematischen Vorgehens ratsam, das Aktivierungswort so zu wählen, dass dieses Aktivierungswort sowie auch ähnlich klingende Wörter in der Alltagssprache des Benutzers möglichst nicht vorkommen. Unterscheidung verschiedener BenutzerBenutzerunabhängigkeitJe nach Anwendungsfall kann es gewünscht sein, dass sich das Sprachassistenzsystem von verschiedenen Benutzern gleichermaßen aktivieren lässt. Dann muss es das Aktivierungswort trotz unterschiedlicher Dialekte, Stimmlagen, Sprechtempi oder Wortbetonungen erkennen. Unterscheidung von Benutzer-RollenIm Gegensatz dazu kann es in anderen Szenarien gewünscht sein, dass sich das Sprachassistenzsystem nur von bestimmten Benutzern aktivieren lässt und von allen anderen nicht. Beispielsweise kann es sinnvoll sein, die Aktivierung nur dem Fahrer eines Fahrzeugs zu erlauben, den Mitfahrenden jedoch nicht. Eine Sprecherauthentifizierung, also die Erkennung des Individuums, ist dazu unter Umständen nicht nötig; es kann ausreichend sein, wenn das System die Rolle des Sprechers, beispielsweise anhand seiner Sitzposition, ermittelt und dadurch den Aktivierungsberechtigten, im Beispiel also den Fahrer, als solchen erkennt. Ein Sprachassistenzsystem, das Sprecher zwar nicht identifizieren, jedoch deren Rollen unterscheiden kann, kann den Benutzern unterschiedliche Dienste anbieten, die an deren Rollen geknüpft sind. Zum Beispiel können Fahrer und Beifahrer anhand ihrer Sitzposition unterschieden werden, ohne sie hierfür identifizieren zu müssen, indem der Assistent auswertet, von welcher Seite das Aktivierungswort bzw. der Schall primär kommt; und der Beifahrer darf nur einen eingeschränkten Funktionsumfang des Assistenten nutzen.[14] Unterscheidung von Benutzer-IndividuenWie bei einem klassischen Mehrbenutzersystem kann es gewünscht sein, dass das Sprachassistenzsystem verschiedene Benutzer (als Individuum) unterscheiden kann, um ihnen personalisierte Dienste anzubieten. Dann muss es den Benutzer identifizieren können, z. B. anhand seiner Stimme, des Aktivierungsworts oder anderer Parameter. Beispiel: Wenn Benutzer A den Assistenten anweist, einen Termin zu notieren, dann soll dieser Termin im persönlichen Kalender dieses Benutzers A eingetragen werden und nicht im Kalender eines anderen Benutzers B landen. AngriffsszenarienAudio InjectionSprachassistenzsysteme können durch Audio Injection angegriffen und missbraucht werden. Laser-Based Audio InjectionDurch direktes Bestrahlen des Mikrofons mit einem Laserstrahl kann es Angreifern gelingen, Sprachassistenzsysteme zu befehligen – ihnen also „Lichtbefehle“ zu erteilen. Dazu wird der Laserstrahl derart in seiner Lichtintensität moduliert, dass er im Mikrofon sehr ähnliche elektrische Signale induziert, wie sie sich normalerweise durch die echten Sprachbefehle ergeben würden. So können das Aktivierungswort und zudem auszuführende Befehle unhörbar und auch aus zig Metern Entfernung an das Sprachassistenzsystem übermittelt werden. Insbesondere anfällig für diese Art von Attacke sind Systeme mit MEMS-Mikrofonen, da sie die Eigenschaft haben, nicht nur Schall, sondern auch Licht, das direkt auf sie gerichtet ist, in elektrische Signale umzuwandeln.[15][16] Gesellschaftliche AuswirkungenAktivierungswörter, die gleichlautend wie menschliche Namen sind, können gesellschaftliche Auswirkungen nach sich ziehen:[17] So hat sich wegen Amazons Aktivierungswort „Alexa“ gezeigt, dass in den USA kurz nach der Vorstellung des Sprachassistenten etwas mehr Kinder auf den Vornamen Alexa getauft wurden, in den Jahren danach aber ein starker Rückgang zu verzeichnen war. Auch in anderen Staaten wie Deutschland, England und Kanada waren ähnliche Effekte zu beobachten. Kinder und Mädchen namens Alexa sind mitunter Hänseleien oder sogar Mobbing ausgesetzt. Ihnen werden beispielsweise Befehle erteilt – so, als wären sie Dienerinnen oder Sklavinnen. BeispieleBeispiele für Sprachassistenten und deren Aktivierungswörter sowie für Geräte, die diese Assistenten nutzen können, sind:
Siehe auchEinzelnachweise
|