es Synthesizer V

Synthesizer V Studio
Información general
Tipo de programa	Sintetizador de voz
Desarrollador	Dreamtonics Co., Ltd.
Modelo de desarrollo	Software propietario
Lanzamiento inicial	Synthesizer V Studio Pro: ; 10 de julio de 2020 (4 años, 7 meses y 4 días) - Quadimension ; 15 de julio de 2020 (4 años, 6 meses y 30 días) - ANICUTE ; 30 de julio de 2020 (4 años, 6 meses y 15 días) - AH-Software ; Synthesizer V Studio Basic: ; 31 de julio de 2020 (4 años, 6 meses y 14 días) - Dreamtonics Co., Ltd.
Licencia	Propietaria
Estado actual	Synthesizer V: Discontinuado Synthesizer V Studio: Activo y con soporte.
	Interfaz: Inglés, Alemán, Español, Francés, Japonés, Coreano, Portugués, Ruso, Vietnamita, Chino simplificado, Chino tradicional Síntesis de Voz: Inglés, Chino mandarín, Japonés, Español, Chino cantonés.
Enlaces
	Sitio web oficial
	[editar datos en Wikidata]

Synthesizer V Studio (conocido tambien con SynthV) es la segunda generación y más conocida del motor de síntesis vocal Synthesizer V, desarrollado por Dreamtonics Co., Ltd. El software fue presentado el 25 de junio de 2020 en un comunicado de prensa junto con las bases de voz llamadas Kotonoha Akane & Aoi y Saki.^[1]

El soporte de IA para Synthesizer V AI se lanzó como una actualización para Synthesizer V Studio el 25 de diciembre, junto con una actualización de Saki conocida como Saki AI. Las bases de voz que no se grabaron con el método de IA se conocen como "bases de voz estándar" y, por lo general, se graban en el estudio de Dreamtonics en Tokio.^[2]^[3]

Se anunciaron dos versiones: Synthesizer V Studio Pro y Synthesizer V Studio Basic. Synthesizer V Studio Pro se lanzó oficialmente el 10 de julio de 2020 en Taobao, a través de la empresa Beijing Photek S&T Development Co., Ltd., para los usuarios en China^[4]. Los usuarios internacionales pudieron comprarlo a partir del 15 de julio en ANiCUTE^[5], mientras que AH-Software Co. Ltd. lo lanzó el 30 de julio para los usuarios en Japón. Synthesizer V Studio Basic se lanzó el 31 de julio en el sitio web de Dreamtonics como una descarga gratuita ^[6].

Según el comunicado de prensa, Synthesizer V Studio combina la síntesis vocal tradicional basada en muestras con inteligencia artificial y aprendizaje automático para crear un motor híbrido.

Historia

En agosto de 2019, Kanru Hua (CEO de Dreamtonics) anunció en Twitter el desarrollo de la segunda generación de Synthesizer V, conocida tentativamente como Synthesizer V Release 2. El 9 de abril de 2020, Ddickky (fundador de Beijing Photek y miembro del círculo Quadimension) anunció que la segunda generación de Synthesizer V se lanzaría pronto y mencionó que una demostración de la voz Chiyu utilizando el nuevo motor estaría disponible próximamente^[7]. La demo se publicó el 11 de abril^[8].

El 26 de junio, AH-Software Co. Ltd. anunció oficialmente en un comunicado de prensa Synthesizer V Studio Pro y Synthesizer V Studio Basic, junto con las bases de voz Kotonoha Akane & Aoi y Saki.^[9]

La tienda ANiCUTE de Animen para clientes internacionales abrió el 12 de julio, y Synthesizer V Studio Pro, junto con las bases de voz Genbu y AiKO, estuvo disponible para su compra el 15 de julio^[5]. Se ofrecieron descuentos especiales para miembros VIP y para quienes compraron la primera generación del editor Synthesizer V.

Las preventas de las versiones físicas en DVD de Synthesizer V Studio Pro, con las bases de voz Kotonoha Akane & Aoi y Saki, comenzaron el 15 de julio en la tienda de AH-Software Co. Ltd^[10]. y su lanzamiento completo fue el 30 de julio^[11].

El 2 de agosto, Dreamtonics abrió una aplicación de prueba beta para las versiones VST y Audio Units de Synthesizer V Studio para quienes habían adquirido el software^[12].

Actualizaciones de Synthesizer V Studio:

Versión 1.1.0 (24 de diciembre): Añadió compatibilidad con bases de voz de IA de "primera generación".
Versión 1.2.0 (18 de febrero de 2021): Las voces de IA ahora se clasificaron como "voces de IA de segunda generación"^[13]^[14].
Versión 1.3.0 (18 de junio de 2021): Synthesizer V AI fue actualizado y pasó a llamarse "Gen 3"^[13]^[14].

El 4 de febrero de 2022, AH-Software informó que la serie Synthesizer V había superado las expectativas de ventas en el último año desde que se volvió compatible con IA^[15].

El 28 de febrero de 2023, Dreamtonics anunció que Synthesizer V Studio añadiría el chino cantonés como su cuarto idioma compatible, lo que permitiría al motor admitir tanto bibliotecas de voz dedicadas a este idioma como la Síntesis de Canto Multilingüe (Cross-lingual Singing Synthesis). También se anunció el futuro soporte para voces de rap, mostrando una demostración de un vocalista masculino rapeando en chino mandarín e inglés. Se esperaba que el soporte para rap en japonés llegara más adelante.^[16]^[17]

El 2 de marzo, Dreamtonics respondió a las preocupaciones de los usuarios sobre la implementación del cantonés, indicando que estaban revisando y corrigiendo los problemas detectados en los clips de demostración. También confirmaron que Synthesizer V Studio permitiría ingresar letras en Jyutping cantonés (esquema de romanización de 1993), aunque este no era equivalente al sistema fonético X-SAMPA utilizado sobre las notas en el editor. Además, el esquema fonético X-SAMPA para un carácter chino no era equivalente a su lectura en Pinyin.^[18]

El 15 de marzo, después de recibir sugerencias para mejorar la adaptación del canto al estilo del cantonés, Dreamtonics reemplazó la versión de debut en Bilibili, incorporando correcciones en las demos de la voz masculina y la voz Feng Yi.^[16]^[19]

La función de rap en inglés y chino mandarín, junto con la implementación de la Síntesis de Canto Multilingüe en cantonés, se programó oficialmente para la versión 1.9.0, con una beta publicada el 18 de abril. Dreamtonics explicó que, tras recibir comentarios valiosos, se enfocaron en perfeccionar la pronunciación para mejorar la experiencia del usuario.^[20]

Para el funcionamiento del idioma cantonés, explicaron que al seleccionar cantonés, todas las letras en chino se cantarían con pronunciación cantonesa, si había errores de pronunciación, los usuarios podrían corregirlos ingresando la romanización en Jyutping y aunque el conjunto de fonemas se basaba en su mayoría en chino mandarín, se incorporaron varios fonemas únicos del cantonés.

Desarrollo de Redes Neuronales

Tras la actualización 1.2.0 de Synthesizer V Studio el 19 de febrero de 2021, Kanru Hua publicó en su cuenta personal de Twitter un hilo sobre el funcionamiento optimizado de la inferencia de redes neuronales en las actualizaciones recientes de Synthesizer V^[21]. Al día siguiente, amplió la explicación señalando que Synthesizer V Studio 1.2 utiliza núcleos de multiplicación matriz-vector (MVM) dispersos y cuantizados compilados en tiempo de ejecución (JIT)^[22].

En sus propias palabras mencionó:

"Una red neuronal artificial se reduce a un conjunto de operaciones aritméticas muy simples, por ejemplo: a + b * x1 + c * x2 + .... Pero cuando compones millones de estas operaciones juntas de forma intencional, pueden convertirse en máquinas realmente complejas." ^[23]

Explicó que, para construir una voz, selecciona valores especializados para "a, b y c" que mejor representen la voz, y luego los introduce en millones de ecuaciones. Estos valores son conocidos como parámetros. En lugar de escribir cada ecuación individualmente, se utiliza álgebra lineal para simplificar el proceso mediante matrices y vectores, los cuales permiten realizar cálculos en grandes volúmenes de datos de manera eficiente. Muchos modelos de redes neuronales dependen de la multiplicación matriz-matriz, pero en el caso de Synthesizer V, el mayor cuello de botella se encuentra en la multiplicación matriz-vector, ya que es la base de la red que genera muestras de onda, conocida como neural vocoder^[24].

Uno de los problemas que mencionó es que, además de gestionar una red neuronal de gran tamaño, esta debe ejecutarse decenas de miles de veces por segundo para sintetizar audio en alta calidad en tiempo real^[25]. Debido a esto, es necesario el uso de CPU modernas, que pueden operar a varios gigaciclos por segundo (GHz). Sin embargo, aunque la capacidad de procesamiento de estas CPUs está en el mismo orden de magnitud que la cantidad de operaciones requeridas por segundo, el margen de rendimiento es muy ajustado. Señaló que no todos los ciclos de CPU pueden realizar trabajo útil, lo que plantea desafíos adicionales^[26]. El objetivo principal es lograr que la operación MVM se ejecute lo más rápido posible en los sistemas de CPU modernos^[27].

Al día siguiente, Hua profundizó en el uso de la Multiplicación Matriz-Vector Dispersa (SpMVM) en las redes neuronales de Synthesizer V^[28]. Explicó que, de los millones de parámetros utilizados en el modelo, muchos son redundantes y pueden ser eliminados sin afectar la calidad del sonido, lo que da lugar a lo que se conoce como una "matriz dispersa"^[28]^[29]. Sin embargo, algunos parámetros son esenciales y no pueden descartarse sin una pérdida significativa de calidad. Si se eliminan demasiados parámetros, la voz sintetizada comenzará a sonar como si proviniera de un walkie-talkie, hasta degradarse completamente en ruido^[30].

El objetivo es identificar y eliminar cuidadosamente los parámetros menos relevantes, eliminando la mayor cantidad posible sin afectar la calidad del audio. Si el proceso se realiza correctamente, generalmente se puede descartar más de tres cuartas partes de los parámetros sin impacto negativo en el sonido^[31]. Cuando se ejecuta la red neuronal dispersa, el programa necesita saltar los parámetros eliminados, lo que introduce un cierto sobrecosto computacional. Sin embargo, este método aumenta la velocidad hasta cuatro veces en comparación con la versión inicial^[32].

"Hacer que una red neuronal sea dispersa es una forma efectiva de comprimirla. Si se hace correctamente, también puede acelerar la ejecución varias veces, aunque esto requiere un código altamente optimizado para SpMVM." ^[33]

En los siguientes tres días, Hua publicó tres hilos adicionales en los que detalló aún más el proceso de desarrollo de las redes neuronales^[34]^[35]^[36]. Después de convertir las matrices en dispersas, los valores enteros se cuantizan para reducir su escala antes de realizar la multiplicación matriz-vector (MVM). Este paso asegura que los resultados se mantengan dentro de un rango válido. Si la programación de las operaciones de suma o multiplicación excede este rango, los valores pueden "envolverse" al extremo inferior, lo que resultaría en un desbordamiento. Esto podría hacer que la voz sintetizada suene como una radio mal sintonizada o incluso convertirse en ruido ininteligible^[37].

También mencionó que las redes neuronales de Synthesizer V AI varían en tamaño; algunas pueden hacerse dispersas sin afectar su rendimiento, otras no pueden reducirse sin perder calidad.

El software está diseñado para funcionar en cualquier CPU x86 desde el procesador Pentium 4 de 2004, lo que lo hace ampliamente compatible con equipos modernos y antiguos^[38].

Requisitos

Sistema Operativo^[39]:

Windows: 8.1 o posterior (64 bits).
macOS: 10.11 (El Capitan) o posterior.
Linux: Ubuntu 18.04 o posterior (64 bits).

Aunque se menciona Ubuntu, Synthesizer V Studio también funciona en otras distribuciones de Linux, como Fedora o Arch, ya que la descarga se proporciona en un archivo .zip (similar a los tarballs binarios) en lugar de un paquete .deb (utilizado en Debian y derivados).

Inicialmente, Dreamtonics especificaba compatibilidad con Windows 32 y 64 bits, pero el soporte para 32 bits finalizó oficialmente el 10 de noviembre de 2022, con el lanzamiento de la versión 1.8.0b1 de Synthesizer V Studio^[40].

Hubo discrepancias entre las versiones japonesa e inglesa del sitio web de Dreamtonics en cuanto a los requisitos mínimos de Ubuntu para los editores Basic y Pro:

La página en inglés indicaba Ubuntu 16.04+ para Basic y 18.04+ para Pro.
La página en japonés indicaba Ubuntu 18.04+ para Basic y 16.04+ para Pro.

Sin embargo, en la página del producto Pro en la tienda internacional de Dreamtonics, siempre se especificó Ubuntu 18.04+ como el requisito mínimo^[41].

El 10 de noviembre de 2022, con el rediseño del sitio web, Dreamtonics eliminó los detalles específicos de los sistemas operativos y simplemente mencionó "Windows / macOS / Linux" como requisitos^[42]^[43]^[44].

AH-Software, en su listado original, no especificó si los editores Basic y Pro requerían 32 o 64 bits en Windows o Ubuntu, indicando Ubuntu 16.04 como mínimo^[45]^[46]. No fue hasta octubre de 2021 cuando aumentaron el requisito mínimo a Ubuntu 18.04 (solo 64 bits), ya que el soporte estándar de Ubuntu 16.04 finalizó en abril de 2021^[47]^[48].

Cuando se lanzó Windows 11 (también solo 64 bits) en octubre de 2021, AH-Software añadió explícitamente la necesidad de 64 bits para Windows, modificando los requisitos a "Windows 11/10/8.1 o posterior (64 bits)", aunque Dreamtonics continuó soportando Windows 8.1 y 10 en 32 bits hasta el lanzamiento de la versión 1.8.0b1 en noviembre de 2022^[49].

Debido al final del soporte estándar para Ubuntu 18.04 en junio de 2023, AH-Software elevó el requisito mínimo a Ubuntu 20.04+ (64 bits) entre mayo y julio de 2022. Con la retirada del soporte extendido para Windows 8.1 el 10 de enero de 2023, AH-Software eliminó Windows 8.1, macOS 10.11^[50] (El Capitan) y macOS 10.12 (Sierra) de la lista de sistemas compatibles entre enero y febrero de 2023. Los nuevos requisitos quedaron como:

Windows 11/10 o posterior (64 bits).
macOS 10.13 (High Sierra) o posterior (aunque High Sierra ya no es compatible con Apple).

Requisitos de Hardware:

CPU:
- x86-64: Intel Core i5 de 4.ª generación (i5-4xxx) o superior, o AMD equivalente (Athlon X4 845, Ryzen o superior).^[51]
- ARM (AArch64): Apple Silicon M1 o superior.^[51]
- AH-Software originalmente especificaba un Intel Core i3 o superior, pero en octubre de 2021 igualó los requisitos de Dreamtonics^[51].
RAM: 2 GB o más.
Almacenamiento:
- 1 GB mínimo (para una base de voz).
- Se requiere espacio adicional dependiendo de la cantidad de bases de voz instaladas.
Resolución de pantalla: 1280×800 píxeles o superior.
Otros requisitos:
- Unidad DVD-ROM (para la versión física).
- Dispositivo de audio.
- Conexión a Internet (obligatoria para activación y actualizaciones)

Diferencias entre Synthesizer V Studio Basic y Pro

Característica	Basic	Pro
Límite de pistas	Máximo 3 pistas	Ilimitado
Hilos de renderizado simultáneo	Limitado a 2 núcleos	Ilimitado
Funciones adicionales
Ajuste automático de tono	Solo con configuraciones predeterminadas	Configuraciones personalizables
Salida de aspiración (aspiration output)	No disponible	Disponible
Plugins en Lua/JavaScript	No disponible	Disponible
Fonemas alternativos	No disponible	Disponible
Parámetros adicionales para bases de voz IA	No disponible	Disponible
Compatibilidad con VST/AU	No disponible	Disponible

Versiones Lite

Las versiones Lite son ediciones gratuitas de las bases de voz y están disponibles tanto en Synthesizer V Studio Basic como en Pro.

Generalmente, son bases de voz monopitch (con solo una altura tonal).
Se deben acreditar correctamente en los proyectos, incluyendo "Lite" en el título y la descripción de las publicaciones.
No están permitidos los usos comerciales.
Algunas bases de voz pueden tener reglas adicionales, por lo que se recomienda leerlas cuidadosamente.

Nota: No todas las bases de voz cuentan con una versión Lite.

Problemas Conocidos

Synthesizer V Studio 1.1.0

Dreamtonics informó que algunos usuarios confirmaron informes de fallos relacionados con voces de IA. Este error afecta a los procesadores Intel i3/i5/i7 de 2.ª y 3.ª generación y a los procesadores AMD de las series Jaguar a SteamrollerSe recomendó actualizar a Synthesizer V Studio 1.1.1 para solucionar el problema^[52].

Synthesizer V Studio 1.2.0

Algunos usuarios experimentaron fallos al actualizar Saki AI a la versión 104. Dreamtonics recomendó descargar e instalar directamente la voz desde su sitio web^[53].

Synthesizer V Studio Pro 1.7.0

Usuarios reportaron inestabilidad en la calidad de la voz y cambios inesperados al volver a renderizar proyectos creados en versiones anteriores de Synthesizer V Studio Pro. El 22 de julio, Dreamtonics explicó que la función AI Retakes, por defecto, favorece "timbres ricos y expresivos sobre una vocalización estable y fluida", lo que provocó diferencias con respecto a versiones anteriores^[54]. Como solución temporal para estabilizar la salida de voz, Dreamtonics y AH-Software recomendaron los siguientes pasos^[55]^[56]:
1. Vaciar la selección.
2. Abrir el panel de AI Retakes y acceder a la pestaña Timbre.
3. En Takes → Global Settings, reducir el parámetro Expressiveness.
También se reportó que archivos de proyectos guardados en la versión 1.7.0 fallaban al abrirse en la versión 1.6.1^[57].

Ejemplos de Uso

Demostraciones

Las demos de las bases de voz de Kotonoha Akane & Aoi están disponibles en sus páginas promocionales.

Ejemplos de transmisiones en SoundCloud:

Takapi Demo (versión editada) – SoundCloud Broadcast
泡沫のデザイア (Take1) – SoundCloud Broadcast
泡沫のデザイア (Take2) – SoundCloud Broadcast

Referencias

↑ AHS公式@ボイスピ大好評発売中！. «【AHSストア】「Synthesizer V Studio Pro」「Synthesizer V Saki」「Synthesizer V 琴葉茜・葵」のご予約受付を開始致しました。» (en japonés). Consultado el 8 de febrero de 2025.
↑ Eclipsed Sounds (22 de mayo de 2021), Q&A Livestream 1 - Synthesizer V SOLARIS project | Eclipsed Sounds, consultado el 8 de febrero de 2025 .
↑ «x.com». X (formerly Twitter). Archivado desde el original el 24 de enero de 2025. Consultado el 8 de febrero de 2025.
↑ «Sina Visitor System». passport.weibo.com. Consultado el 8 de febrero de 2025.
↑ ^a ^b «x.com». X (formerly Twitter). Archivado desde el original el 24 de enero de 2025. Consultado el 8 de febrero de 2025.
↑ «x.com - Dreamtonics - Rolling out the new official site for #SynthesizerV Studio.» (en ingles).
↑ «Sina Visitor System». passport.weibo.com. Consultado el 8 de febrero de 2025.
↑ 星尘Official. «五维介质【赤羽"精二"】SynthV第二代歌声合成引擎先行试听「404 Not Found」_哔哩哔哩_bilibili». www.bilibili.com (en chino simplificado). Consultado el 8 de febrero de 2025.
↑ «新世代歌声合成ソフトウェアが登場！「Synthesizer Vシリーズ」 2020年7月30日発売｜AHS(AH-Software)». www.ah-soft.com. Consultado el 8 de febrero de 2025.
↑ «x.com». X (formerly Twitter). Archivado desde el original el 24 de enero de 2025. Consultado el 8 de febrero de 2025.
↑ «AHS公式 on Twitter». Twitter (en inglés). Archivado desde el original el 30 de julio de 2020. Consultado el 8 de febrero de 2025.
↑ «https://twitter.com/dreamtonics_en/status/1289851729668747271». X (formerly Twitter) (en inglés). Archivado desde el original el 23 de marzo de 2024. Consultado el 8 de febrero de 2025.
↑ ^a ^b «Dreamtonics on Twitter». Twitter (en alemán). Archivado desde el original el 19 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ ^a ^b Dreamtonics Co., Ltd. (18 de febrero de 2021), Second-gen AI technology for Synthesizer V, consultado el 8 de febrero de 2025 .
↑ «待望の男性歌声データベース2種類がついに登場！『Synthesizer V AI Ryo』『Synthesizer V AI Kevin』本日発売開始｜AHS(AH-Software)». www.ah-soft.com. Consultado el 8 de febrero de 2025.
↑ ^a ^b Dreamtonics. «「歌声技术」Synthesizer V AI 技术预览：粤语与说唱合成 (2023)_哔哩哔哩_bilibili». www.bilibili.com (en chino simplificado). Consultado el 8 de febrero de 2025.
↑ Dreamtonics Co., Ltd. (28 de febrero de 2023), Technical Demo - Cantonese Singing Synthesis (and More!), consultado el 8 de febrero de 2025 .
↑ «动态-哔哩哔哩». t.bilibili.com. Consultado el 8 de febrero de 2025.
↑ «动态-哔哩哔哩». t.bilibili.com. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V Studio 1.9.0b1 Update: Rap, Cantonese and More | Dreamtonics株式会社». Dreamtonics (en japonés). 18 de abril de 2023. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua on Twitter». Twitter (en inglés). Archivado desde el original el 10 de septiembre de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "Thinking about opening a thread to explain to non-experts about how we optimized neural network inference in the recent Synthesizer V update. Basically a detailed version of yesterday's stream. Anyone interested?"». web.archive.org. 19 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua on Twitter: "To sum up what we did in Synthesizer V Studio 1.2 in one phrase, it would be JIT-compiled quantized sparse matrix-vector multiplication kernels. Hold on, I know this is a roller coaster of jargons. In this thread I will explain by breaking this down part by part.… https://t.co/1ARKxoIM6v"». web.archive.org. 10 de septiembre de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "Some neural network models are mainly composed of matrix-matrix multiplication. In our case, the bottleneck is matrix-vector multiplication, mainly used in a network that generates waveform samples (the “neural vocoder”)."». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "The challenge here is not only that we have a large network, but also the fact that this network needs to run tens of thousands of times per second to synthesize high quality audio in real time. That would break down to billions of additions and multiplications per second."». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua auf Twitter: "Modern CPUs run at several giga cycles per second ("Hz"). This is on a similar order of magnitude as the number of operations per second above. However, the margin is very tight. In fact, not all CPU cycles can do useful work (we will visit this point later). Very challenging!"». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "So far is our problem setup. Our goal is to make this MVM operation as fast as possible on a modern CPU. Let's take a break here as our brain needs to rest. I'll be back tomorrow. Feel free to leave questions!"». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ ^a ^b «Kanru Hua Twitterissä: "Day 2 - Sparse Matrix-Vector Multiplication (SpMVM). Today we’re taking the first step towards accelerating our neural network. One lucky fact is that out of the millions of parameters (those a, b, c…) in that big matrix, a lot of them are just redundant.… https://t.co/pJ42mvIgo0"». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "In fact you can throw away a lot of these parameters without hurting sound quality; this results in what we call a sparse matrix (and the opposite is, you guessed it, a dense matrix)."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "Of course there are still parameters that are truly important and can’t be thrown away. If you remove too many of the parameters eventually the quality will drop. The synthesized voice will sound more and more like from a walkie-talkie until it completely degrades into noise."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "So, the art is to remove the less contributing parameters carefully & remove as many as possible without hurting the quality. There are many tricks to do that (which goes beyond the scope of this talk). If done properly, we can often get rid of 3/4 of the parameters!"». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua auf Twitter: "However, reducing the number of parameters by 4x won’t necessarily mean that we get a 4x speed boost for free. When executing the sparse neural network, the program needs to skip the parameters that were removed. This skipping process adds a sometimes expensive overhead."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "To sum up today’s topic. Going sparse is an effective way to compress a neural network. If done right, it can still speed up execution by a few times, although this would require highly optimized code for SpMVM. Tomorrow we will review another way to accelerate MVM: quantization."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua auf Twitter: "Day 3 in a series of explaining accelerating neural network inference to a non-technical audience - Quantized Matrix-Vector Multiplication.… https://t.co/zE2GA4g4YJ"». web.archive.org. 22 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua on Twitter: "Day 4 in a series explaining accelerating neural network inference to a non-technical audience. Yesterday we talked about the awesome speed up thanks to integer representations of parameters (and if you don’t understand, click through to Day 1). We however had a range problem.… https://t.co/I7FB0fjwnG"». web.archive.org. 23 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "Day 5 in a series explaining accelerating neural network inference to a non-technical audience. We have so far reviewed two approaches: (1) making matrices sparse and (2) quantizing them into integers (and if you don’t understand the jargons, click through to Day 1).… https://t.co/VaMxrcQUP1"». web.archive.org. 25 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "When this wrapping/overflow happens, the synthesized voice will be like from a mistuned radio or it’ll just be completely noise. There is one way to prevent this kind of overflow: carefully scale the values down before doing MVM to make sure the result will be in the range."». web.archive.org. 23 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Kanru Hua Twitterissä: "Neural networks used in Synthesizer V AI come in a lot of different sizes. Some can be made sparse, some can not. Our software runs on every x86 CPU since Pentium 4 (2004). There’s an infinite permutation of hardware versus matrix types and sizes."». web.archive.org. 25 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V | Dreamtonics株式会社». web.archive.org. 30 de junio de 2020. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V Studio 1.8.0b1 Update | Dreamtonics株式会社». Dreamtonics (en japonés). 10 de noviembre de 2022. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V Studio Pro – Dreamtonics Store». web.archive.org. 19 de febrero de 2022. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V | Dreamtonics株式会社». web.archive.org. 10 de noviembre de 2022. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V | Dreamtonics株式会社». web.archive.org. 10 de noviembre de 2022. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V | Dreamtonics株式会社». web.archive.org. 27 de noviembre de 2022. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 26 de junio de 2020. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 27 de noviembre de 2020. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 2 de noviembre de 2021. Consultado el 8 de febrero de 2025.
↑ «Releases - Ubuntu Wiki». wiki.ubuntu.com. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 17 de julio de 2022. Consultado el 8 de febrero de 2025.
↑ «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 2 de febrero de 2023. Consultado el 8 de febrero de 2025.
↑ ^a ^b ^c «Synthesizer V Saki｜製品情報｜AHS(AH-Software)». web.archive.org. 13 de mayo de 2021. Consultado el 8 de febrero de 2025.
↑ «X.com - Dreamtonics».
↑ «Dreamtonics on Twitter». Twitter (en finés). Archivado desde el original el 19 de febrero de 2021. Consultado el 8 de febrero de 2025.
↑ «Dreamtonics on Twitter». Twitter (en inglés). Archivado desde el original el 22 de julio de 2022. Consultado el 8 de febrero de 2025.
↑ «Dreamtonics on Twitter». Twitter (en inglés). Archivado desde el original el 22 de julio de 2022. Consultado el 8 de febrero de 2025.
↑ «AHS公式@ボイスピ大好評発売中！ (@ahsoft) on X». X (formerly Twitter) (en inglés). Archivado desde el original el 30 de agosto de 2024. Consultado el 8 de febrero de 2025.
↑ «AHS公式@ボイスピ大好評発売中！ on Twitter». Twitter (en inglés). Archivado desde el original el 22 de julio de 2022. Consultado el 8 de febrero de 2025.

Enlaces externos

Datos: Q102109202

[1] AHS公式@ボイスピ大好評発売中！. «【AHSストア】「Synthesizer V Studio Pro」「Synthesizer V Saki」「Synthesizer V 琴葉茜・葵」のご予約受付を開始致しました。» (en japonés). Consultado el 8 de febrero de 2025.

[2] Eclipsed Sounds (22 de mayo de 2021), Q&A Livestream 1 - Synthesizer V SOLARIS project | Eclipsed Sounds, consultado el 8 de febrero de 2025 .

[3] «x.com». X (formerly Twitter). Archivado desde el original el 24 de enero de 2025. Consultado el 8 de febrero de 2025.

[4] «Sina Visitor System». passport.weibo.com. Consultado el 8 de febrero de 2025.

[dup-0-38-5] «x.com». X (formerly Twitter). Archivado desde el original el 24 de enero de 2025. Consultado el 8 de febrero de 2025.

[6] «x.com - Dreamtonics - Rolling out the new official site for #SynthesizerV Studio.» (en ingles).

[7] «Sina Visitor System». passport.weibo.com. Consultado el 8 de febrero de 2025.

[8] 星尘Official. «五维介质【赤羽"精二"】SynthV第二代歌声合成引擎先行试听「404 Not Found」_哔哩哔哩_bilibili». www.bilibili.com (en chino simplificado). Consultado el 8 de febrero de 2025.

[9] «新世代歌声合成ソフトウェアが登場！「Synthesizer Vシリーズ」 2020年7月30日発売｜AHS(AH-Software)». www.ah-soft.com. Consultado el 8 de febrero de 2025.

[10] «x.com». X (formerly Twitter). Archivado desde el original el 24 de enero de 2025. Consultado el 8 de febrero de 2025.

[11] «AHS公式 on Twitter». Twitter (en inglés). Archivado desde el original el 30 de julio de 2020. Consultado el 8 de febrero de 2025.

[12] «https://twitter.com/dreamtonics_en/status/1289851729668747271». X (formerly Twitter) (en inglés). Archivado desde el original el 23 de marzo de 2024. Consultado el 8 de febrero de 2025.

[dup-1-3-13] «Dreamtonics on Twitter». Twitter (en alemán). Archivado desde el original el 19 de febrero de 2021. Consultado el 8 de febrero de 2025.

[dup-2-15-14] Dreamtonics Co., Ltd. (18 de febrero de 2021), Second-gen AI technology for Synthesizer V, consultado el 8 de febrero de 2025 .

[15] «待望の男性歌声データベース2種類がついに登場！『Synthesizer V AI Ryo』『Synthesizer V AI Kevin』本日発売開始｜AHS(AH-Software)». www.ah-soft.com. Consultado el 8 de febrero de 2025.

[dup-3-75-16] Dreamtonics. «「歌声技术」Synthesizer V AI 技术预览：粤语与说唱合成 (2023)_哔哩哔哩_bilibili». www.bilibili.com (en chino simplificado). Consultado el 8 de febrero de 2025.

[17] Dreamtonics Co., Ltd. (28 de febrero de 2023), Technical Demo - Cantonese Singing Synthesis (and More!), consultado el 8 de febrero de 2025 .

[18] «动态-哔哩哔哩». t.bilibili.com. Consultado el 8 de febrero de 2025.

[19] «动态-哔哩哔哩». t.bilibili.com. Consultado el 8 de febrero de 2025.

[20] «Synthesizer V Studio 1.9.0b1 Update: Rap, Cantonese and More | Dreamtonics株式会社». Dreamtonics (en japonés). 18 de abril de 2023. Consultado el 8 de febrero de 2025.

[21] «Kanru Hua on Twitter». Twitter (en inglés). Archivado desde el original el 10 de septiembre de 2021. Consultado el 8 de febrero de 2025.

[22] «Kanru Hua Twitterissä: "Thinking about opening a thread to explain to non-experts about how we optimized neural network inference in the recent Synthesizer V update. Basically a detailed version of yesterday's stream. Anyone interested?"». web.archive.org. 19 de febrero de 2021. Consultado el 8 de febrero de 2025.

[23] «Kanru Hua on Twitter: "To sum up what we did in Synthesizer V Studio 1.2 in one phrase, it would be JIT-compiled quantized sparse matrix-vector multiplication kernels. Hold on, I know this is a roller coaster of jargons. In this thread I will explain by breaking this down part by part.… https://t.co/1ARKxoIM6v"». web.archive.org. 10 de septiembre de 2021. Consultado el 8 de febrero de 2025.

[24] «Kanru Hua Twitterissä: "Some neural network models are mainly composed of matrix-matrix multiplication. In our case, the bottleneck is matrix-vector multiplication, mainly used in a network that generates waveform samples (the “neural vocoder”)."». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.

[25] «Kanru Hua Twitterissä: "The challenge here is not only that we have a large network, but also the fact that this network needs to run tens of thousands of times per second to synthesize high quality audio in real time. That would break down to billions of additions and multiplications per second."». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.

[26] «Kanru Hua auf Twitter: "Modern CPUs run at several giga cycles per second ("Hz"). This is on a similar order of magnitude as the number of operations per second above. However, the margin is very tight. In fact, not all CPU cycles can do useful work (we will visit this point later). Very challenging!"». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.

[27] «Kanru Hua Twitterissä: "So far is our problem setup. Our goal is to make this MVM operation as fast as possible on a modern CPU. Let's take a break here as our brain needs to rest. I'll be back tomorrow. Feel free to leave questions!"». web.archive.org. 20 de febrero de 2021. Consultado el 8 de febrero de 2025.

[:0-28] «Kanru Hua Twitterissä: "Day 2 - Sparse Matrix-Vector Multiplication (SpMVM). Today we’re taking the first step towards accelerating our neural network. One lucky fact is that out of the millions of parameters (those a, b, c…) in that big matrix, a lot of them are just redundant.… https://t.co/pJ42mvIgo0"». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.

[29] «Kanru Hua Twitterissä: "In fact you can throw away a lot of these parameters without hurting sound quality; this results in what we call a sparse matrix (and the opposite is, you guessed it, a dense matrix)."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.

[30] «Kanru Hua Twitterissä: "Of course there are still parameters that are truly important and can’t be thrown away. If you remove too many of the parameters eventually the quality will drop. The synthesized voice will sound more and more like from a walkie-talkie until it completely degrades into noise."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.

[31] «Kanru Hua Twitterissä: "So, the art is to remove the less contributing parameters carefully & remove as many as possible without hurting the quality. There are many tricks to do that (which goes beyond the scope of this talk). If done properly, we can often get rid of 3/4 of the parameters!"». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.

[32] «Kanru Hua auf Twitter: "However, reducing the number of parameters by 4x won’t necessarily mean that we get a 4x speed boost for free. When executing the sparse neural network, the program needs to skip the parameters that were removed. This skipping process adds a sometimes expensive overhead."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.

[33] «Kanru Hua Twitterissä: "To sum up today’s topic. Going sparse is an effective way to compress a neural network. If done right, it can still speed up execution by a few times, although this would require highly optimized code for SpMVM. Tomorrow we will review another way to accelerate MVM: quantization."». web.archive.org. 21 de febrero de 2021. Consultado el 8 de febrero de 2025.

[34] «Kanru Hua auf Twitter: "Day 3 in a series of explaining accelerating neural network inference to a non-technical audience - Quantized Matrix-Vector Multiplication.… https://t.co/zE2GA4g4YJ"». web.archive.org. 22 de febrero de 2021. Consultado el 8 de febrero de 2025.

[35] «Kanru Hua on Twitter: "Day 4 in a series explaining accelerating neural network inference to a non-technical audience. Yesterday we talked about the awesome speed up thanks to integer representations of parameters (and if you don’t understand, click through to Day 1). We however had a range problem.… https://t.co/I7FB0fjwnG"». web.archive.org. 23 de febrero de 2021. Consultado el 8 de febrero de 2025.

[36] «Kanru Hua Twitterissä: "Day 5 in a series explaining accelerating neural network inference to a non-technical audience. We have so far reviewed two approaches: (1) making matrices sparse and (2) quantizing them into integers (and if you don’t understand the jargons, click through to Day 1).… https://t.co/VaMxrcQUP1"». web.archive.org. 25 de febrero de 2021. Consultado el 8 de febrero de 2025.

[37] «Kanru Hua Twitterissä: "When this wrapping/overflow happens, the synthesized voice will be like from a mistuned radio or it’ll just be completely noise. There is one way to prevent this kind of overflow: carefully scale the values down before doing MVM to make sure the result will be in the range."». web.archive.org. 23 de febrero de 2021. Consultado el 8 de febrero de 2025.

[38] «Kanru Hua Twitterissä: "Neural networks used in Synthesizer V AI come in a lot of different sizes. Some can be made sparse, some can not. Our software runs on every x86 CPU since Pentium 4 (2004). There’s an infinite permutation of hardware versus matrix types and sizes."». web.archive.org. 25 de febrero de 2021. Consultado el 8 de febrero de 2025.

[39] «Synthesizer V | Dreamtonics株式会社». web.archive.org. 30 de junio de 2020. Consultado el 8 de febrero de 2025.

[40] «Synthesizer V Studio 1.8.0b1 Update | Dreamtonics株式会社». Dreamtonics (en japonés). 10 de noviembre de 2022. Consultado el 8 de febrero de 2025.

[41] «Synthesizer V Studio Pro – Dreamtonics Store». web.archive.org. 19 de febrero de 2022. Consultado el 8 de febrero de 2025.

[42] «Synthesizer V | Dreamtonics株式会社». web.archive.org. 10 de noviembre de 2022. Consultado el 8 de febrero de 2025.

[43] «Synthesizer V | Dreamtonics株式会社». web.archive.org. 10 de noviembre de 2022. Consultado el 8 de febrero de 2025.

[44] «Synthesizer V | Dreamtonics株式会社». web.archive.org. 27 de noviembre de 2022. Consultado el 8 de febrero de 2025.

[45] «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 26 de junio de 2020. Consultado el 8 de febrero de 2025.

[46] «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 27 de noviembre de 2020. Consultado el 8 de febrero de 2025.

[47] «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 2 de noviembre de 2021. Consultado el 8 de febrero de 2025.

[48] «Releases - Ubuntu Wiki». wiki.ubuntu.com. Consultado el 8 de febrero de 2025.

[49] «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 17 de julio de 2022. Consultado el 8 de febrero de 2025.

[50] «Synthesizer V｜製品情報｜AHS(AH-Software)». web.archive.org. 2 de febrero de 2023. Consultado el 8 de febrero de 2025.

[dup-4-99-51] «Synthesizer V Saki｜製品情報｜AHS(AH-Software)». web.archive.org. 13 de mayo de 2021. Consultado el 8 de febrero de 2025.

[52] «X.com - Dreamtonics».

[53] «Dreamtonics on Twitter». Twitter (en finés). Archivado desde el original el 19 de febrero de 2021. Consultado el 8 de febrero de 2025.

[54] «Dreamtonics on Twitter». Twitter (en inglés). Archivado desde el original el 22 de julio de 2022. Consultado el 8 de febrero de 2025.

[55] «Dreamtonics on Twitter». Twitter (en inglés). Archivado desde el original el 22 de julio de 2022. Consultado el 8 de febrero de 2025.

[56] «AHS公式@ボイスピ大好評発売中！ (@ahsoft) on X». X (formerly Twitter) (en inglés). Archivado desde el original el 30 de agosto de 2024. Consultado el 8 de febrero de 2025.

[57] «AHS公式@ボイスピ大好評発売中！ on Twitter». Twitter (en inglés). Archivado desde el original el 22 de julio de 2022. Consultado el 8 de febrero de 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

Synthesizer V