Con la irrupción de ChatGPT en 2022, la industria de la inteligencia artificial generativa se ha disparado. Desde entonces han aparecido muchas herramientas para conversar, crear imágenes e incluso videos. Pues bien, una nueva herramienta se une a la lista: EMO, que pemite generar un video de una persona hablando o cantando a partir de una foto.
EMO, acrónimo de ‘Emote Portrair Alive’ ha sido desarrollada por investigadores del Instituto de Inteligencia Artificial de Alibaba. La herramienta es capaz de animar la fotografía de un retrato y generar vídeos de la persona mientras habla o canta.
MIRA: Brain–computer interface: la inteligencia artificial comienza a innovar el estudio del cerebro humano
Si bien esta no es la primera IA de su tipo, ya que en el mercado existen bastantes disponibles, ninguna logra su realismo.
A través de la página oficial del proyecto se han mostrado múltiples ejemplos del funcionamiento de esta tecnología. Desde Alibaba han creado además un ejemplo tomado del video que mostró OpenAI con Sora, su recientemente anunciada IA para generar vídeos realistas.
VIDEO RECOMENDADO
De acuerdo con el documento del estudio, la IA es capaz de crear movimientos faciales fluidos y expresivos, así como poses de cabeza que encajan casi a la perfección con la canción o audio que suena de fondo.
“Las técnicas tradicionales no suelen captar todo el espectro de expresiones humanas ni la singularidad de los estilos faciales individuales”, afirma Linrui Tian, autor principal del artículo. “Para resolver estos problemas, proponemos EMO, un novedoso marco que utiliza un enfoque de síntesis directa de audio a vídeo, sin necesidad de modelos 3D intermedios ni puntos de referencia faciales”.
En vez de utilizar la tecnología 3D para modificar la fotografía y su movimiento, EMO convierte directamente las ondas del audio en fotogramas de video, según explican en Genbeta.
Esto es posible debido a que el modelo de difusión ha sido entrenada con más de 250 horas de videos de conversaciones extraídos de películas, discursos, programa de televisión y presentaciones musicales.
Por el momento, EMO no está disponible para el público en general, y no se ha establecido una fecha para su eventual liberación. Cuando este tipo de herramientas se vuelvan accesibles para los usuarios, se abrirán increíbles posibilidades para la creación de contenido. Sin embargo, es probable que también se produzca una masificación de las ‘fake news’, es decir, noticias falsas, en las que imágenes y voz sean creadas artificialmente para suplantar a personajes públicos.
VIDEO RECOMENDADO
TE PUEDE INTERESAR
- Venera 3: se cumplen 58 años de la primera nave que llegó a otro planeta
- Apple romperá los límites de la IA generativa este año, señala Tim Cook
- Musk demanda a OpenAI por alejarse de su misión original y anteponer el lucro
- Las emisiones mundiales de CO2 ligadas a la energía baten un nuevo récord en 2023
Contenido sugerido
Contenido GEC