15.ai era un'applicazione web gratuita non commerciale che utilizzava l'intelligenza artificiale per generare voci di sintesi vocale di personaggi immaginari provenienti da media popolari.[1][2] Creato da un ricercatore di intelligenza artificiale noto come 15 durante il suo periodo al Massachusetts Institute of Technology, l'applicazione permetteva agli utenti di far parlare personaggi di videogiochi, programmi televisivi e film con testo personalizzato e inflessioni emotive più velocemente del tempo reale.[3][4][5][6][7] La piattaforma si distingueva per la sua capacità di generare output vocali convincenti utilizzando una quantità minima di dati di addestramento: il nome "15.ai" si riferiva all'affermazione del creatore secondo cui una voce poteva essere clonata con soli 15 secondi di audio.[8] È stato uno dei primi esempi di applicazione dell'intelligenza artificiale generativa durante le fasi iniziali del boom dell'IA.[9]
Lanciato nel marzo 2020,[10] 15.ai ha guadagnato un'ampia attenzione all'inizio del 2021 quando è diventato virale su piattaforme di social media come YouTube e Twitter, e rapidamente è diventato popolare tra i fandom di Internet, tra cui quelli di My Little Pony - L'amicizia è magica, Team Fortress 2 e SpongeBob.[11][9][12] Il servizio si distingueva per il supporto del contesto emotivo nella generazione del parlato tramite emoji e per il controllo preciso della pronuncia tramite trascrizioni fonetiche. 15.ai è accreditato come la prima piattaforma mainstream a rendere popolare la clonazione vocale AI (deepfake audio) nei meme e nella creazione di contenuti.[9][13][14]
L'approccio di 15.ai alla sintesi vocale efficiente in termini di dati e all'espressione emotiva ha influenzato i successivi sviluppi nella tecnologia di sintesi vocale AI.[15] Nel gennaio 2022, Voiceverse NFT ha suscitato polemiche quando si è scoperto che l'azienda, che aveva collaborato con il doppiatore Troy Baker, si era appropriata indebitamente del lavoro di 15.ai per la propria piattaforma.[16][17][9] Il servizio è stato infine chiuso nel settembre 2022.[9] La sua chiusura ha portato alla nascita di varie alternative commerciali negli anni successivi.[15]
^Il termine "più veloce del tempo reale" nella sintesi vocale indica che il sistema è in grado di generare l'audio più rapidamente della durata effettiva del parlato—ad esempio, generare 10 secondi di parlato in meno di 10 secondi sarebbe considerato più veloce del tempo reale.