Spraakherkenning

Kan een robot de emoties in jouw stem herkennen - Universiteit van Nederland

Spraakherkenning is een deelgebied van de informatica en computationele taalkunde waarbinnen methoden worden onderzocht en ontwikkeld die het mogelijk maken om automaten, in het bijzonder computers, het gesproken woord te laten herkennen en verwerken. Spraakherkenning moet onderscheiden worden van stemherkenning, een biometrische techniek om een bepaalde persoon aan de hand van zijn stem te kunnen identificeren. De methoden om beide te realiseren zijn echter wel nauw verwant.

Soorten

Ingesproken commando's

Bij de eenvoudigste vorm van spraakherkenning wordt de gesproken invoer vergeleken met een beperkt aantal tijdens een trainingsperiode ingesproken commando's, men spreekt dan van template matching. De beperkingen van deze techniek brengen met zich mee dat tijdens het dicteren de woorden los van elkaar uitgesproken moeten worden. Dit zijn de zogenaamde discrete spraaksystemen. Door de commando's individueel te trainen, ontstaat er wel een zeer hoge herkenningsgraad, mits de training wordt uitgevoerd binnen de omgeving waar de herkenning ook ingezet zal worden (bijvoorbeeld in een magazijn). Veelal wordt er naast de training ook een omgevingsmeting verricht waarbij geluiden op de achtergrond geregistreerd worden. Dit wordt afgezet tegen het volume waarmee gesproken wordt. Op deze wijze is storend omgevingsgeluid door de herkenningssoftware te negeren. Spraakherkenning die werkt op basis van template matching heeft geen beperkingen ten aanzien van spreektaal en accenten binnen de gesproken taal. De meeste spraakherkenningprogramma's vereisen voor een goede herkenning dat het programma eerst een profiel van de gebruiker opmaakt door deze een voorbeeldtekst te laten voorlezen.

Spraakherkenningsengines

Moderne spraakherkenning werkt met statistische modellen van spraak en taal en hoewel training doorgaans nog aan te raden is om het model aan te passen, zijn ze steeds meer sprekeronafhankelijk. Bij deze vorm van spraakherkenning wordt slechts een beperkt aantal talen ondersteund en kan iemand met een zwaar accent moeilijk herkend worden, ook al wordt er vooraf nog een aparte training uitgevoerd. Het maken van de zogenaamde akoestische modellen gaat aan de hand van een spraakcorpus bestaande uit vele uren getranscribeerde spraak. Het maken van zo'n corpus is zeer arbeidsintensief en de licentiekosten zijn daarom meestal hoog. Mede hierdoor is er slechts een beperkt aantal producenten actief in deze markt. Het VoxForge-project tracht hier verandering in te brengen door de aanleg van spraakverzameling dat onder een opensourcelicentie beschikbaar zal zijn.

Voorbeelden van leveranciers van Nederlandse spraakherkenningsengines zijn:

  • Nuance
  • Loquendo

Voorbeelden van partijen die spraakherkenningsengines in applicaties kunnen integreren zijn:

  • Cedere
  • VoiceIntelligence
  • Telecats

Transcriptiesoftware

Vanaf 2010 werden deep learning audiomodellen ontwikkeld, die gesproken conversaties automatisch omzetten in schriftelijke verslagen, soms met gebruik van kunstmatige intelligentie. Het gevaar op interpretatiefouten is daarbij niet denkbeeldig.[1]

Geschiedenis

Commerciële spraakherkenningprogramma's bestaan al vanaf 1990. IBM bracht in 1996 zelfs een besturingssysteem op de markt met ingebouwde spraakherkenning: OS/2 Warp. Philips had tot omstreeks 2000 het programma FreeSpeech, waarvan FreeSpeech 2000 de laatste versie was voor de consumentenmarkt. Sindsdien maakte Philips alleen nog spraakherkenning voor professionele (medische en juridische) toepassingen. Het Belgische bedrijf Lernout & Hauspie was een van de koplopers op het gebied van spraakherkenning, maar ging ten onder door boekhoudschandalen en te hoge verwachtingen. Zowel de spraakherkenningspoot van Philips als de technologie van Lernout & Hauspie werden overgenomen door het Amerikaanse Nuance Communications. In juli 2010 kondigde Nuance Communications de elfde versie aan van zijn spraakherkenningsoftware Dragon NaturallySpeaking.

De beperkte rekencapaciteit van de toenmalige computers vormde nog een belangrijke beperkende factor in die jaren.

Spraakherkenning kan ook gebruikt worden door mensen met RSI-klachten. Zij spreken in een headset en hoeven dus de armen, handen en vingers niet te gebruiken.

De Amerikaanse fabrikant Vocollect levert al sinds 1989 complete spraakherkenningsoplossingen bestaande uit zowel hardware als software. Daarbij ligt de nadruk op toepassingen in magazijnen en industriële omgevingen. Binnen deze markt is Vocollect wereldwijd marktleider. Andere bekende fabrikanten zijn Voxware en MCL Technologies.

Zie ook