PUNTOS IMPORTANTES:
- Voicebox es una nueva IA de Meta que ofrece una generación de texto a voz hasta 20 veces más rápida que los modelos convencionales.
- A diferencia de otros sistemas, Voicebox puede generalizar tareas de TTS para las que no fue específicamente entrenado.
- Meta ha desarrollado una herramienta para identificar si el discurso fue generado por Voicebox, una capacidad importante en un momento de creciente preocupación por la desinformación.
Meta ha lanzado recientemente «Voicebox», una herramienta innovadora de texto a voz (TTS) que afirma puede producir resultados hasta 20 veces más rápidos que los modelos de inteligencia artificial de última generación con un rendimiento comparable. Meta califica a Voicebox como un ‘gran avance’, siendo la primera IA capaz de generalizar tareas de TTS para las que no se entrenó específicamente.
Entre las principales diferencias entre Voicebox y otros modelos TTS similares, como el Prime Voice AI de ElevenLabs, destaca la capacidad de Voicebox de generalizar a través del aprendizaje en contexto.
Siguiendo la estela de ChatGPT y otros modelos de transformadores, Voicebox emplea grandes conjuntos de datos de entrenamiento. Sin embargo, los esfuerzos anteriores por utilizar grandes volúmenes de datos de audio resultaron en salidas de audio severamente degradadas. Por ello, la mayoría de los sistemas TTS utilizan conjuntos de datos pequeños, cuidadosamente seleccionados y etiquetados.
Meta supera esta limitación mediante un esquema de entrenamiento novedoso que prescinde de las etiquetas y la selección en favor de una arquitectura capaz de rellenar información de audio.
Según publicó Meta AI en una entrada de blog del 16 de junio, Voicebox es el «primer modelo que puede generalizar tareas de generación de voz para las que no fue entrenado específicamente, con un rendimiento a la altura de las tecnologías más avanzadas».
Esto permite que Voicebox traduzca texto a voz, elimine ruido no deseado mediante la síntesis de discurso de reemplazo e incluso aplique la voz de un hablante a diferentes salidas de lenguaje.
Según un artículo de investigación adjunto publicado por Meta, su sistema Voicebox preentrenado puede lograr todo esto usando solo el texto de salida deseado y un clip de audio de tres segundos.
La llegada de la robusta generación de voz llega en un momento particularmente sensible, en el que las empresas de redes sociales continúan luchando con la moderación y, en los Estados Unidos, una inminente elección presidencial amenaza con poner a prueba una vez más los límites de la detección de desinformación en línea.
Voicebox no es la primera herramienta de su tipo, pero parece estar entre las más robustas. Por tanto, Meta afirmó haber desarrollado una herramienta que puede determinar «de manera trivial» si Voicebox generó el habla, distinguiendo entre el audio real y el falso. Según la entrada del blog:
«Al igual que con otras poderosas innovaciones de IA nuevas, reconocemos que esta tecnología trae consigo el potencial de mal uso y daño no intencional. En nuestro artículo, detallamos cómo construimos un clasificador altamente efectivo que puede distinguir entre el habla auténtica y el audio generado con Voicebox para mitigar estos posibles riesgos futuros».
La aparición de sistemas robustos de texto a voz como Voicebox, combinados con el trading automatizado, podría ayudar a cerrar la brecha para los futuros traders de criptomonedas que dependen de sistemas TTS que, actualmente, pueden tener dificultades con la jerga criptográfica o el soporte multilingüe.