15.ai15.ai fue una aplicación web de inteligencia artificial gratuita y no comercial que generó voces de texto a voz naturales y emotivas de alta fidelidad a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. Desarrollado por un investigador seudónimo del MIT bajo el nombre 15, el proyecto utilizó una combinación de algoritmos de síntesis de audio, redes neuronales profundas de síntesis de voz y modelos de análisis de sentimientos para generar y servir voces de personajes emotivas más rápido que en tiempo real, particularmente aquellos con un tamaño muy pequeño. cantidad de datos entrenables. Lanzado a principios de 2020, 15.ai comenzó como una prueba de concepto de democratización de la actuación de voz y el doblaje mediante la tecnología. Los usuarios han elogiado su naturaleza gratuita y no comercial (con la única condición de que el proyecto se acredite adecuadamente cuando se utilice), su facilidad de uso, la ausencia de requisitos de registro de cuenta de usuario y las mejoras sustanciales en las implementaciones actuales de texto a voz; sin embargo, algunos críticos y actores de voz han cuestionado la legalidad y ética de dejar dicha tecnología disponible públicamente y fácilmente accesible. CaracterísticasLos personajes disponibles incluyen GLaDOS y Wheatley de Portal, personajes de Team Fortress 2, Twilight Sparkle y varios personajes principales, secundarios y secundarios de My Little Pony: La Magia de la Amistad, Bob Esponja de Bob Esponja, Daria Morgendorffer y Jane Lane de Daria . el Décimo Doctor de Doctor Who, HAL 9000 de 2001: Odisea en el Espacio, el Narrador de The Stanley Parable, el Super Smash Bros. de Wii U/3DS / Switch. Locutor (anteriormente), Carl Brutananadilewski de Aqua Teen Hunger Force, Steven Universe de Steven Universe, Dan de Dan Vs. y Sans de Undertale . El modelo de aprendizaje profundo utilizado por la aplicación no es determinista: cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma y que sirve como guía para el modelo durante la inferencia. Los contextualizadores emocionales son representaciones del contenido emocional de una oración deducida mediante incrustaciones de emoji aprendidas mediante transferencia utilizando DeepMoji, un algoritmo de análisis de sentimiento de red neuronal profunda desarrollado por el MIT Media Lab en 2017. DeepMoji se entrenó en 1.200 millones de apariciones de emoji en datos de Twitter de 2013 a 2017, y se descubrió que supera a los seres humanos en la identificación correcta del sarcasmo en tweets y otros modos de comunicación en línea. 15.ai utiliza un modelo de múltiples hablantes: se entrenan cientos de voces simultáneamente en lugar de secuencialmente, lo que reduce el tiempo de entrenamiento requerido y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces sin exposición a dicho contexto emocional. En consecuencia, toda la gama de personajes de la aplicación funciona con un único modelo entrenado, a diferencia de varios modelos de un solo hablante entrenados en diferentes conjuntos de datos. El léxico utilizado por 15.ai ha sido extraído de una variedad de fuentes de Internet, incluidos los Diccionarios de Oxford, Wiktionary, el Diccionario de pronunciación CMU, 4chan, Reddit y Twitter . Las pronunciaciones de palabras desconocidas se deducen automáticamente utilizando reglas fonológicas aprendidas mediante el modelo de aprendizaje profundo. La aplicación admite una versión simplificada de un conjunto de transcripciones fonéticas en inglés conocidas como ARPABET para corregir errores de pronunciación o dar cuenta de heterónimos : palabras que se escriben igual pero se pronuncian de manera diferente (como la palabra leído, que se puede pronunciar como /ˈrɛd/ o /ˈriːd/ dependiendo de su tiempo verbal ). Mientras que los códigos ARPABET originales desarrollados en la década de 1970 por la Agencia de Proyectos de Investigación Avanzada admiten 50 símbolos únicos para designar y diferenciar entre fonemas en inglés,[2] la convención ARPABET del Diccionario de pronunciación CMU (el conjunto de códigos de transcripción seguido de 15.ai ) reduce el conjunto de símbolos a 39 fonemas combinando realizaciones fonéticas alofónicas en un único estándar (p. ej.
Véase también
Referencias
|