Hace unos días compartí, a través de mis redes sociales, un video que sorprendió a algunos de mis contactos porque era totalmente fuera de lo común: aparecía yo haciendo un comentario, de un minuto de duración, hablando en inglés con una pronunciación y fluidez bastante buenas. Lo raro es que, en la vida real, nunca he sido capaz de hacerlo. Todo era producto de la inteligencia artificial.

Se trataba del mismo software con el que, unos días antes, se había hecho otro video que se viralizó en la web, en el que aparecía Lionel Messi hablando en inglés. Su nombre es HeyGen y permite, entre muchas otras funciones, transformar las imágenes en movimiento y el audio de un video según sea necesario.

LEE TAMBIÉN | Los trasplantes de riñón y dos novedades que pueden revolucionar la salud

Manos a la obra

Me di de alta en el servicio y lo probé. Grabé el video de un minuto directamente desde la computadora y esperé un poco más mientras el sistema procesaba el material para acomodarlo al idioma que había solicitado.

En esta función específica, la inteligencia artificial de HeyGen tiene varias tareas que cumplir. En cuanto al audio, primero debe transcribir el contenido completo del audio en el video original; a continuación, tiene que traducirlo al idioma seleccionado; y, luego, ese texto tiene que convertirlo nuevamente a audio. Pero la cosa se complica un poco más, porque el software analiza ese sonido original y la versión traducida la muestra con un tono de voz lo más similar posible.

Y, por si fuera poco, hay un componente visual que también debe ser cambiado. La IA analiza el video y, en el producto final, modifica las imágenes creando movimientos artificiales en la boca, para que coincidan con cada palabra pronunciada.

Así, el producto final es muy impresionante: en el video que había grabado solo unos momentos antes, ahora estaba yo “hablando” en inglés.

Parece una maravilla, ¿verdad? Pero, en realidad, la herramienta tiene varias limitaciones. Por ejemplo, durante la grabación intencionalmente gesticulé mucho y me toqué muchas veces el rostro. Como era previsible, el software tuvo algunas complicaciones para procesar con naturalidad la posición de los dedos sobre mi cara y, en un largo pasaje al final, el video apareció sin mover los labios pese a que en la grabación original yo todavía seguía hablando.

De otro lado, así como sucede con programas similares que usan la inteligencia artificial, es necesario pagar para acceder a estas herramientas. Entonces, sí están a disposición de cualquier persona, pero solo accesibles para quienes puedan pagar por ellas.

Lo que se viene

Este es solo un ejemplo –porque existen muchísimos más– de lo rápido que sigue avanzando el desarrollo de la inteligencia artificial, sobre todo en la creación de herramientas que puedan ser usadas cada vez por cualquier persona. Si uno de mis videos lo puedo publicar en otro idioma, ¿por qué no pensar en la posibilidad de que ese mismo proceso se pueda dar en tiempo real, mientras realizo una transmisión en vivo? No me sorprendería que eso se pueda hacer en breve (si no se está haciendo ya).

Pero, por otro lado, refuerza mi posición en la necesidad de que haya una conversación seria y adecuada en el ámbito nacional e internacional sobre la implicancia del uso de esta nueva tecnología. Las empresas seguirán desarrollando sus productos, pero es necesario tener en claro los marcos regulatorios para prevenir el mal uso de esta tecnología.