Meta crea IA capaz de imitar la voz humana y advierte de su peligrosidad
La empresa tecnológica Meta, co-fundada por el magnate Mark Zuckerberg, ha hecho público recientemente el desarrollo de una herramienta de Inteligencia Artificial llamada Voicebox, la cual tiene la capacidad de replicar voces humanas y realizar tareas de generación del lenguaje.
Mediante un comunicado oficial, la compañía asegura que la herramienta generadora de voz es capaz de hablar en seis idiomas diferentes, y que representa un hito en el desarrollo de la IA generativa para el habla, ya que este modelo puede realizar tareas como la edición, creación de muestras y estilización, incluso para tareas no específicamente entrenadas mediante aprendizaje contextualizado.
Pero, ¿qué es lo que hace exactamente Voicebox? En términos sencillos, esta IA puede producir clips de audio de alta calidad a partir de una muestra de solo dos segundos, y editar audio pregrabado para recuperar la voz entrecortada por ruidos ambientales, como el ladrido de un perro. Para su entrenamiento, los investigadores de Meta han empleado más de 50,000 horas de grabaciones de audio y transcripciones procedentes de audiolibros de dominio gratuito en español, portugués, inglés, francés, alemán y polaco.
La empresa ha afirmado que con este nuevo modelo, muchas personas con discapacidad visual podrían recibir mensajes de texto con la ayuda de asistentes que usen las voces de sus amigos, o permitiría a los usuarios escuchar su propia voz pronunciando otros idiomas. Además, la tecnología permitiría a los creadores editar pistas de audio para sus vídeos o crear asistentes virtuales con voces más naturales.
Voicebox representa el primer paso hacia una herramienta que pueda dotar de una voz natural a los asistentes virtuales y a los personajes no jugables del metaverso, pero también se ha planteado como una herramienta para ayudar a las personas con discapacidad auditiva a recibir mensajes de una manera más accesible.
Sin embargo, la multinacional tecnológica ha explicado que no lanzará públicamente este modelo, ya que tiene riesgos potenciales de ser utilizado con fines malintencionados. Los peligros que presenta son evidentes, ya que con solo dos segundos de audio, Voicebox puede generar cualquier diálogo y emular a la perfección el tono de voz.
En resumen, la tecnología detrás de Voicebox representa un gran logro en el desarrollo de la Inteligencia Artificial, pero también nos obliga a reflexionar sobre los riesgos que conlleva. Es fundamental que las empresas tecnológicas actúen con responsabilidad y consideren cuidadosamente las posibles consecuencias de sus innovaciones para garantizar que la tecnología se utilice de manera ética y responsable.