Microsoft ha presentado su trabajo en un nuevo modelo de inteligencia artificial (IA) que dota de expresividad a los avatares realistas mientras aparecen hablando en vídeos generaor a partir de una imagen estática y un clip de voz.
VASA es la propuesta de Microsoft para generar rostros virtuales que hablan y gesticulan con gran expresividad y realismo en tiempo real, en las que el movimiento de los labios está “exquisitamente sincronizado con el audio”.
MIRA: Los chatbots y sus respuestas extrañas: ¿por qué lo hacen y cómo impacta en el usuario?
Los rostros que simulan ser personas reales han sido generados por herramientas de IA StyleGAN2 y DALL·E-3, pero ninguna de ellas se corresponde a una identidad real, como matiza la compañía tecnológica.
Este realismo se refuerza con la sincronización y “el gran espectro de emociones y matices faciales” que combina con el movimiento natural de la cabeza, como explica en su blog oficial.
VASA requiere solo una imagen estática un fragmento de audio con voz para crear vídeos con un tamaño de 512 x 512 píxeles a 45 fotogramas por segundos en el modo ‘offline’, aunque ‘online’ soporta 40fps con una latencia de 170ms. La compañía lo ha evaluado con un ordenador de escritorio equipado con una GPU NVIDIA RTX 4090.
Microsoft ha asegurado que no planea lanzar esta la demo de esta herramienta dado los potenciales riesgos que tiene para su maluso en la suplantación de personas reales.
TE PUEDE INTERESAR
- Estados Unidos culpa a Microsoft por “cascada de errores” en hackeo chino
- Microsoft está desarrollando un agente virtual con IA para ayudar a los jugadores de Xbox
- Microsoft recomienda que personajes femeninos no tengan “proporciones corporales exageradas”
- Kin, la respuesta de Microsoft a los nuevos celulares de iPhone y Android en el 2008
- Microsoft contrata al cofundador de DeepMind para dirigir unidad de IA
Contenido sugerido
Contenido GEC