Talsyntes
Talsyntes (ofta även text-till-tal eller TTS, efter det engelska text-to-speech) är namnet för tekniker för att skapa artificiellt tal för att efterlikna människans röst skapat med datorer. Talsyntes kan implementeras både i programvara och maskinvara. Man kan dela in talsyntes i två huvudtyper:
Typ 1: Hopklippt talDen första kategorin finns exempelvis i telefonväxlar, till exempel: "Anknytning fjorton femtiotre sextioåtta är på tjänsteresa och återkommer den tjugosjunde februari klockan nollåtta och trettio." I detta fall kan alla ord uttalas med neutralt tonfall. Tydlighet är viktigare än att "låta mänsklig". Det systemet gör är bara att byta ut enstaka ord som datum, klockslag och anledning till att personen inte svarar. Alla ord som systemet ska använda finns redan förinspelade och datorn kan, så att säga, bara slå upp rätt ord i sitt "lexikon". Typ 2: Syntetiserat talSyntetiskt tal av den andra typen är det som man oftast avser då man talar om talsyntes. Detta är betydligt mer komplicerat. Eftersom alla tänkbara ord omöjligt kan finnas inspelade måste man istället konstruera åtminstone de ovanligare orden med hjälp av antingen helt syntetiserade språkljud, fonem, eller genom att klippa ihop stavelser ifrån förlagrade inspelade fonem. I det senare fallet är det i praktiken nödvändigt att använda bifoner, det vill säga förlagrade tvåfonemssekvenser eller hela stavelser, eftersom varje fonem i naturligt tal redan föregriper nästa språkljud och i praktiken inte förekommer i ren och neutral form. På detta sätt går det idag att generera ord med rimligt människolik uttalskvalitet. Större kvarstående utmaningar är till exempel lånord och kodväxling, där ordens uttal inte följer språkets standarduttalsmönster. Syntetiserat tal upplevs ofta som monotont, även om uttalet av de enstaka orden skulle vara helt korrekta. Efter fonemgenerering måste talsignalen hantera språkets prosodi, det vill säga tempo, betoning och satsmelodi. Vissa av dessa skillnader finns att hämta redan i vanlig skriven text, till exempel i skiljetecken som kan hjälpa skilja mellan frågor, utrop och påståenden. Även då kvarstår en hel del problem, vilket kan åskådliggöras med följande enkla fråga som kan uttalas på minst fem sätt beroende på sammanhanget.
Modernare talsyntesenheter har därför stöd för programmerbar satsmelodi och betoningar som måste föras in som "taggar" i texten. Att få fram mer naturtroget tal är ännu en forskningsfråga och tekniker från artificiell intelligens och maskininlärning används för att förbättra dagens talsyntesprogramvara. Se ävenExterna länkar
|