La empresa OpenAI lanzó un modelo nuevo de inteligencia artificial que puede transcribir podcasts, conversaciones y entrevistas. Además, esta IA de código abierto, puede traducir a un nivel alto, casi al de un ser humano.
MIRA: Jóvenes construyen tren de energía solar ante los cortes de electricidad en Sudáfrica
De acuerdo con el medio Ars Technica, Whisper fue entrenada con 680,000 horas de audio “y transcripciones coincidentes en 98 idiomas recopilados de la web”. Es capaz de detectar el idioma hablado y traducirlo al idioma inglés.
La compañía describe a esta IA como un transformador codificador- decodificador, “un tipo de red neuronal que puede usar el contexto extraído de los datos de entrada para aprender asociaciones que luego se pueden traducir a la salida del modelo”.
MIRA: Nvidia presenta IA capaz de crear objetos 3D para mundos virtuales
¿Cómo funciona Whisper?
Primero se introduce un audio de 30 segundos, que luego se convierte en un espectrograma para luego pasarlo a un codificador. Después, se entrena un decodificador “para predecir el subtítulo de texto correspondiente, entremezclado con tokens especiales que dirigen al modelo único para realizar tareas como identificación de idioma, marcas de tiempo a nivel de frase, transcripción de voz multilingüe y traducción de voz al inglés”, según Ars Technica.
MIRA: Desarrollan un dron con propulsión de iones que no necesita hélices
Además Whisper es de código abierto, lo que significa que otros pueden desarrollar este modelo base y lograr mejorar el procesamiento del habla.
Si bien la empresa advierte que esta IA podría ser usada con fines negativos, espera que los desarrolladores la usen para fines que aporten al rubro.
Contenido Sugerido
Contenido GEC