zurück zum blog

Von der grafischen Benutzeroberfläche zur stimmlichen Benutzerschnittstelle


Last updated: 06.04.20
Eine konversationsfähige UI oder VUI ist die unsichtbare Schnittstelle für die Kommunikation zwischen Mensch und Maschine.

Die Stimme ist das natürliche Kommunikationsmittel zwischen Menschen. Dank der künstlichen Intelligenz haben Sprachassistenten das Dialog Design hervorgebracht, ein neues Fachgebiet für UX-Designer.

 

Ich hatte daran gedacht, diesen Artikel GUI vs. VUI zu betiteln, aber dann wurde mir klar, dass bei der Verwendung dieser Begriffe viele Leute außen vorgelassen werden, die ihre Bedeutung nicht kennen und sich vielleicht nicht einmal die Mühe machen würden, den Artikel zu lesen.

 

Unterschied zwischen der grafischen und der dialogorientierten Schnittstelle

Lass mich zunächst jedes Konzept erläutern. GUI ist die Abkürzung für Graphical User Interface, während VUI ("Voice User Interface") eine Konversationsschnittstelle ist, d.h. eine Kommunikation zwischen einem Menschen und einer Maschine, bei der das Medium der Interaktion nicht ein Bildschirm, sondern die Stimme ist.

Die Anfänge der graphischen Schnittstelle reichen bis in die späten 70er Jahre zurück. Vergleicht man diese mit der Konversationsschnittstelle, so könnte man sagen, dass letztere noch in den Kinderschuhen steckt.

Um dieses Konzept zu verdeutlichen, besteht das Ziel der Verwendung einer Sprach-Benutzerschnittstelle darin, dem Benutzer die Möglichkeit zu geben, mit dem System oder der Maschine zu interagieren, indem er (der Benutzer, alle Identitäten eingeschlossen) einfach seine Stimme benutzt. Anstatt auf einem Bildschirm zu scrollen oder eine Tastatur zu berühren, gibt der Benutzer Sprachbefehle, so dass er überhaupt nicht seine Hände benutzen muss.

Während der Forschungsphase ist der Entwurf einer Sprach-Benutzeroberfläche ähnlich wie das Design einer grafischen Benutzeroberfläche (GUI), da man sich überlegen muss, wer die Oberfläche benutzt, wofür und auf welchem Gerät. Das Ziel bleibt dasselbe: dem Benutzer die notwendigen Informationen auf möglichst effektive Weise zu vermitteln.

In der dialogorientierten Schnittstelle navigiert der Benutzer nicht durch die verschiedenen Ebenen, um die gesuchte Option zu finden, sondern fragt nach etwas Bestimmtem und stellt alle notwendigen Informationen auf einmal zur Verfügung.

Dies ist ein großer Unterschied zur grafischen Oberfläche, da wir hier nicht mehrere Klicks oder Interaktionen haben, bevor wir unser Ziel erreichen, sondern wir verkürzen den Navigationsprozess mit einem einfachen Sprachbefehl, der darauf abzielt, spezifische Informationen zu erhalten, die vom Assistenten zurückgegeben werden.


Die Genauigkeit der Spracherkennung hat sich dank Sprachassistenten wie Google Home oder Alexa verbessert.

Google Home sitting on table” von NDB Photos ist lizenziert unter CC BY-SA 4.0.

 

Ich nenne Dir ein Beispiel, bei dem eine Benutzerin ihren Google Home-Assistenten fragt: "Okay, Google, wann geht mein Flug? Jeder Assistent aktiviert sein Zuhören mit einem bestimmten Sprachbefehl, in diesem Fall mit dem Sprechen: "Okay, Google". Das Gerät antwortet dann: "Der nächste Flug, der 4402 von Wizz Air von Madrid nach Sofia, geht heute um 21.55 Uhr".

Die einzige Lernkurve besteht darin, dass Du als Benutzer wissen musst, welchen Sprachbefehl Du für jede Aktion, die Dein Assistent ausführen soll, zu sagen hast.

 

Künstliche Intelligenz im Laufe der Geschichte

Jeder Sprachassistent verfügt über künstliche Intelligenz. Wenn die Worte, die Du verwendest, nicht die sind, in die die künstliche Intelligenz sozusagen eingebaut ist, dann wird sie Dir sagen, dass sie Dir nicht helfen kann und dass Du einen anderen Sprachbefehl ausprobieren solltest. Er kann Dir sogar Empfehlungen geben.

Weißt Du, was künstliche Intelligenz oder KI ist und woher sie kommt? Hier ist ein wenig Hintergrundgeschichte.

Obwohl die Forschung im Bereich der künstlichen Intelligenz seit den 1950er Jahren betrieben wird, ist sie erst 2007 so weit fortgeschritten, dass sie zu dem wurde, was wir heute als Sprachassistenten kennen.

1936 entwarf Alan Turing ein Gerät, das in der Lage war, jede formal definierte Berechnung zu implementieren, der wesentliche Eckpfeiler für ein Gerät, das in der Lage ist, verschiedene Szenarien und "Schlussfolgerungen" zu berücksichtigen. Sagt Dir der Turing-Test etwas? Es handelt sich um einen Test, der bestimmt, ob eine Maschine intelligent ist oder nicht, und der die Möglichkeit verteidigt, menschliches Denken durch Berechnung nachzuahmen.

Wir sagen, dass eine KI den Test bestanden hat, wenn die beteiligten Benutzer glauben, dass auf der anderen Seite eine Person statt einer Maschine steht.

Die 1970er Jahre wichen dem, was als der Winter der künstlichen Intelligenz bekannt wurde. Dies geschah, nachdem der Mathematiker James Lighthill einen Bericht vorlegte, in dem er seine Ansicht darlegte, dass Maschinen nur zu einem "erfahrenen Amateur"-Schachniveau in der Lage wären und dass gesunder Menschenverstand und vermeintlich einfache Aufgaben wie die Gesichtserkennung immer über ihre Fähigkeiten hinausgehen würden.

Dieser Bericht zusammen mit den wenigen Fortschritten im Bereich der KI führte dazu, dass die Mittel für die Industrie drastisch reduziert wurden. Aber in den 1980er Jahren beschlossen die Forscher, dass es besser sei, "Expertensysteme" zu schaffen, die sich auf viel begrenztere Aufgaben konzentrieren, anstatt zu versuchen, künstliche Intelligenz durch die Simulation der menschlichen zu schaffen.

Das bedeutete, dass sie nur mit den Regeln eines ganz bestimmten Problems programmiert werden mussten. Und voilà, da begannen die ersten Schritte in der Weiterentwicklung der künstlichen Intelligenz, und deshalb ist es heute möglich, mit Deinem Smartphone, Deinem Auto oder einem Alexa- oder Google Home-Gerät zu sprechen.

Und obwohl die Spracherkennung einfach zu sein schien, da sie eines der Hauptziele der künstlichen Intelligenz war, war es nach jahrzehntelangen Investitionen nie gelungen, den Genauigkeitsgrad beim Verstehen von Spracherkennung auf über 80 % zu erhöhen.

Im Jahr 1997 schlug der von IBM entwickelte Deep Blue-Supercomputer den Schachweltmeister Garri Kasparow. Damit endet die Schlussfolgerung des Lighthill-Berichts aus den 1970er Jahren, dass dies nie geschehen konnte. Es sei darauf hingewiesen, dass er zum zweiten Mal gegen Kasparow spielte, da Deep Blue beim ersten Mal verlor und aufgerüstet werden musste.

 

Künstliche Intelligenz ist die Grundlage kognitiver Systeme zur Verarbeitung natürlicher Sprache und zur Spracherkennung.

Garry Kasparov à Linares en 2005” von Owen Williams, The Kasparov Agency, ist lizenziert unter CC BY-SA 3.0.

 

Ein weiterer Meilenstein für IBM geschah im Jahr 2011, als das Unternehmen seine künstliche Intelligenz namens "Watson" einsetzte, um einen Fernsehwettbewerb gegen zwei seiner erfahrensten Spieler zu gewinnen. Der Wettbewerb beinhaltete Fragen zu Kultur und Allgemeinwissen. Tatsache ist, dass Watson nicht nur die Fragen und Antworten, die während der Show gestellt wurden, verstanden hatte, sondern auch in der Lage war, bei der Abwägung der Wahl der Kategorien intelligente Schritte zu unternehmen.

Seitdem ist IBM Watson zum Standard für kognitive Systeme, die Verarbeitung natürlicher Sprache sowie automatisches Denken und Lernen geworden. Diese Technologie wird derzeit zur Unterstützung von Krebsbehandlungen, E-Commerce, dem Kampf gegen Internetkriminalität und dem internationalen Bankwesen eingesetzt.

Ich muss hinzufügen, dass ich diese künstliche Intelligenz besonders mag, weil ich mit ihr während meines Projekts bei WatsomApp arbeiten konnte, bei dem wir diese KI dazu verwendet haben, einen Roboter zur Erkennung von Mobbing in Schulen zu entwickeln. Ich habe dieses Projekt auch während einer Veranstaltung von Women in Voice auf dem Google-Campus in Madrid vorgestellt.

Google begann auch mit der Erforschung der künstlichen Intelligenz und endete als Pionier eines neuen Ansatzes: Es verband tausende von leistungsstarken Computern, die parallele neuronale Netzwerke betrieben und lernten, Muster in den großen Datenmengen zu erkennen, die von den vielen Nutzern von Google übertragen wurden. Zuerst war es ziemlich ungenau, aber nach Jahren des Lernens und der Verbesserung behauptet Google heute, dass seine Spracherkennung zu 92 % genau ist.

Aber erst im Mai 2016 wurde Google Assistant als Teil der Messaging-Anwendung Google Allo und im Google Home-Assistenten gestartet. Der Siri-Sprachassistent wurde einige Jahre zuvor als iOS-Anwendung im Jahr 2010 veröffentlicht und später ab der Einführung im Oktober 2011 in das iPhone 4S integriert.

Ein weiterer bekannter Sprachassistent ist Amazon Alexa, der im Sommer 2018 in Spanien ankam, obwohl er bereits seit einigen Jahren in den Vereinigten Staaten eingesetzt wurde. Es gibt viele andere wie Cortana von Microsoft oder Aura von Telefónica.

 

Konversationsdesigner als neue Berufsbezeichnung

Wie passt diese neue Technologie in die Welt des User Experience Designs? Für das Design von Sprachschnittstellen fragen Unternehmen nach UX-Designexperten, die auf Gesprächsdesign spezialisiert sind. Dieses neue Profil namens "Gesprächsdesigner" ist gerade erst auf dem spanischen Arbeitsmarkt angekommen, und wir sehen bereits einige Stellenangebote, wenn auch noch sehr wenige.

Dieses Profil erfordert nicht nur Kenntnisse über UX-Design, sondern auch darüber, wie man den Dialog zwischen Mensch und Maschine unter Berücksichtigung aller möglichen Sprachinteraktionen zwischen dem Assistenten und dem Benutzer gestalten kann. Die Logik, die bei einer grafischen Schnittstelle funktioniert, wird bei einer Konversationsschnittstelle so gut wie nie funktionieren, daher müssen Designer diese neue Art der Interaktion mit einem Sprachassistenten erlernen.

Siehst Du Dich selbst in Zukunft als Designer(in) von Sprachschnittstellen? Ich fühle mich heute noch wie eine Studentin des Themas, und finde es faszinierend. Wenn Du in Seattle, Madrid, London oder Mexiko-Stadt lebst und mehr über das Thema erfahren möchtest, empfehle ich Dir, zu den Vorträgen über das Design von Gesprächsschnittstellen von Women in Voice zu gehen.

Bei ihrer Veranstaltung im Dezember 2019 in Madrid habe ich meine Erfahrungen mit dem Entwurf einer Konversationsschnittstelle mit der künstlichen Intelligenz von IBM im Rahmen des WatsomApp-Projekts erläutert. Ein sehr angenehmes und notwendiges Projekt, das Schulen dabei helfen soll, Mobbing zu erkennen, indem ein Roboter eingesetzt wird, der mit den Schülern kommuniziert.

Ich möchte diesen Artikel mit der Feststellung beenden, dass die bestmögliche Schnittstelle in der Mensch-Maschine-Kommunikation die Stimme ist, da sie unser natürliches Kommunikationsmittel ist. Dies ist einer der Gründe, warum die Sprachschnittstelle auch als unsichtbare Schnittstelle bezeichnet wird. Und welche Schnittstelle ist besser als die, die es uns erlaubt, auf die natürlichste Art und Weise zu kommunizieren?

Kannst du Dir eine Zukunft vorstellen, in der die gesamte Interaktion mit Deinen digitalen Geräten über die Stimme erfolgt? Ich habe keinen Zweifel daran, dass diese Technologie immer weiter voranschreiten wird, und innerhalb von ein oder zwei Jahrzehnten wird es sehr üblich sein, mit Maschinen zu sprechen, anstatt mit ihnen über eine grafische Benutzeroberfläche zu interagieren.

Was hältst Du von der Zukunft des Gesprächsdesigns und der VUIs? Wenn Du irgendwelche Anmerkungen hast, hinterlasse einfach einen Kommentar unten.


 

Ursprünglich in Spanisch in "Píldoras UX" veröffentlicht.


Please enable JavaScript to view the comments powered by Disqus.