Is spraak de interface van de toekomst?

Posted on: 04/10/2018 by: Bert Vanhalst

Vandaag interageren we doorgaans met toepassingen via toetsenbord, muis en touchscreens. We selecteren knoppen en links, navigeren in menu's en typen tekst in invoervelden. Spraak is een meer natuurlijke interactievorm en misschien wel dé ultieme interface om te interageren met computersystemen. Toch is het gebruik van spraak als computerinterface vandaag de dag nog beperkt. In deze blog bekijken we enkele mogelijke hinderpalen voor een breder gebruik van spraak.

Speech-to-text en text-to-speech

Eerst nog even schetsen waar het over gaat. Bij een spraakinterface wordt de spraak (audio) eerst omgezet naar tekst. In het jargon spreekt men van speech-to-text (STT). Die tekst wordt vervolgens als input gegeven aan een (slim) systeem dat een antwoord formuleert of een actie uitvoert. Het tekstuele antwoord wordt dan uiteindelijk terug voorgelezen. Hier spreekt men van text-to-speech (TTS).

Spraakinterfaces kennen we misschien vooral van de spraakassistenten als Siri, Google Assistant, Microsoft Cortana en Amazon Alexa die ondertussen naast het Engels ook het Frans en deels ook al het Nederlands ondersteunen. Via deze virtuele assistenten kan je zoekopdrachten uitvoeren via spraak, maar ook de lichten bedienen, muziek afspelen, enzovoort. Ze bieden daarnaast ook de mogelijkheid om die functionaliteit uit te breiden met extra toepassingen, een beetje vergelijkbaar met het ontwikkelen van apps voor de Android en iOS platformen. Zo voerden we zelf een experiment uit om een Dimona-aangifte te doen via spraak, geïntegreerd met Google Assistant.

Spraakherkenning is de laatste jaren sterk geëvolueerd. Microsoft bereikte een jaar geleden de milestone dat software in staat is om woorden even nauwkeurig te herkennen als de mens. We kunnen ons dan ook de vraag stellen waarom spraak niet méér gebruikt wordt om te interageren met systemen.

Hinderpalen

Allereerst zijn er de sociale normen: niet elke omgeving of situatie is geschikt voor spraakinteractie. Denken we maar aan een overvolle trein of metro waar je niet wil dat je buurman meeluistert. Spraak lijkt het meest geschikt in ruimtes waar we wat privacy hebben of waar we de mensen die in de nabijheid zijn het meest vertrouwen. Geen toeval waarschijnlijk dat de grote spelers sterk focussen op de thuis-omgeving. Denken we maar aan de sterke opkomst van smart home speakers zoals Google Home of Amazon Echo (althans reeds in de VS). In luidruchtige omgevingen moet de technologie dan weer in staat zijn om de spraakcommando's correct op te pikken. Uit onze eigen ervaringen lijkt dat tot op zekere hoogte goed te werken, maar er zijn natuurlijk grenzen.

Bij het gebruik van spraakassistenten verloopt de volledige conversatie via het cloud-platform van de leveranciers van de spraakassistenten die zo hun datamonsters verder voeden en de gedetailleerde profielen kunnen gebruiken voor gerichte reclame. Bovendien moet je vandaag je spraakassistent nog zelf activeren door een druk op de knop, maar morgen luistert die misschien constant mee naar wat er gezegd wordt om vragen "naadloos" te kunnen afhandelen. Niet iedereen voelt zich daar even comfortabel bij. Ook vertrouwen in de leveranciers speelt dus een belangrijke rol bij de adoptie van spraakinterfaces.

In vergelijking met tekstgebaseerde interfaces hebben conversaties via spraak specifieke uitdagingen. Ze verlopen soms met aarzelingen en onderbrekingen, er worden bepaalde nuances en klemtonen gelegd via intonatie, en de aanwijzingen voor bevestigingen zijn niet altijd even expliciet (zoals "mhm").

Tot slot is er nog de taalondersteuning. veelal wordt Engels goed ondersteund, gevolgd door Frans. Nederlands hinkt in dat opzicht wat achterop. Zo is het Nederlands pas recent beschikbaar bij Google Assistant. De stem klinkt nog robot-achtig, zeker in vergelijking met de Engelse stem. Een Vlaamse stem is nog niet beschikbaar, enkel een Hollandse.

Conclusie

Spraak zal wellicht nooit de énige interface worden, maar wint wel aan belang. Nu al betekent spraak een serieuze meerwaarde voor blinden, slechtzienden en mensen die om de één of andere reden niet overweg kunnen met muis, toetsenbord of touchscreen. De meerwaarde van een spraakinterface moet geval per geval bekeken worden en lijkt in eerste instantie nuttig bij handsfree & eyes-free situaties zoals in de wagen. Maar wie weet worden we spraak wel met z'n allen wat meer gewoon - onder meer door de opkomst van de spraakassistenten - en is het niet meer ongewoon om te praten tegen je smartphone, computer of speaker.