Google ha dado un paso más en la edición de fotografía por inteligencia artificial con su nueva versión de Gemini. (Foto: developers.googleblog.com)
Google ha dado un paso más en la edición de fotografía por inteligencia artificial con su nueva versión de Gemini. (Foto: developers.googleblog.com)

Escucha la noticia

00:0000:00
Gemini mejora la edición de imágenes con Gemini 2.5 Flash Image, el modelo ‘nanobanana’: combina varias imágenes de forma coherente
Resumen de la noticia por IA
Gemini mejora la edición de imágenes con Gemini 2.5 Flash Image, el modelo ‘nanobanana’: combina varias imágenes de forma coherente

Gemini mejora la edición de imágenes con Gemini 2.5 Flash Image, el modelo ‘nanobanana’: combina varias imágenes de forma coherente

Resumen generado por Inteligencia Artificial
La IA puede cometer errores u omisiones. Recomendamos leer la información completa. ¿Encontraste un error? Repórtalo aquí
×
estrella

Accede a esta función exclusiva

ha presentado , su nuevo modelo de generación y edición de imágenes de vanguardia, que incluye capacidades para combinar varias imágenes en una manteniendo la coherencia de los personajes que aparecen, así como realizar transformaciones específicas con lenguaje natural, todo ello a través de la ‘app’ dey Google AI Studio.

El gigante tecnológico lanzó su modelo de razonamiento Gemini 2.5 Flash en abril de este año para Vertex AI, diseñado como una opción híbrida al permitir activar o desactivar sus capacidades de razonamiento para encontrar el equilibrio adecuado entre la calidad de sus respuestas, el coste y la latencia.

Newsletter El Comercio MedIA

Alicia Rojas
MIRA: Starship rompe la mala racha: SpaceX completa con éxito su décimo ensayo

Ahora, de cara a ofrecer una mejor experiencia de edición de imágenes tanto para desarrolladores como para los usuarios en la ‘app’ de Gemini, con resultados de mayor calidad y “un control creativo más potente”, Google ha presentado su nuevo modelo de generación de imágenes Gemini 2.5 Flash Image.

Conocido de forma interna como ‘nanobanana’, este modelo permite combinar varias imágenes en una sola, todo ello manteniendo la coherencia de los personajes u objetos que se incluyan. Asimismo, también permite realizar transformaciones específicas de las imágenes mediante lenguaje natural.

Tal y como ha detallado la compañía en un comunicado en su blog para desarrolladores, estas capacidades se han implementado en el “modo de creación” de Google AI Studio a modo de prueba. De manera que los desarrolladores pueden remezclar o dar vida a sus ideas con una sola instrucción en lenguaje natural y compartirlo posteriormente en Google AI Studio o guardar el código en GitHub.

También se ha actualizado la edición de imágenes nativa en la aplicación de Gemini para todos los usuarios, bajo el objetivo de mejorar las capacidades de edición y “mantener la similitud entre las imágenes”, dado que “una representación similar pero no igual no queda bien”.

Edición de imágenes en Gemini con el nuevo modelo Gemini 2.5 Flash Image.
Edición de imágenes en Gemini con el nuevo modelo Gemini 2.5 Flash Image.
/ GOOGLE

Bastará con compartir con Gemini una foto para editar cuestiones concretas y “darle un toque único”. Por ejemplo, solicitando que la persona que aparece en la foto aparezca en nuevos escenarios, pero manteniendo su apariencia original en cada imagen. Gemini también puede variar sus atuendos o profesiones, incluso reimaginar a la persona en otra época “sin perder su identidad”.

De la misma forma, los usuarios también pueden fusionar fotos, compartiendo varias imágenes y unificándolas en una sola para crear una escena completamente nueva. Así, se puede compartir la imagen de un perro y una persona para que aparezcan de forma cohesionada en una misma imagen.

Además de todo ello, también se pueden solicitar modificaciones concretas de imágenes como cambiar el color de las paredes de una habitación o añadir muebles, conservando el resto de la imagen intacta.

MIRA: ¿Qué es y para qué sirve un “roast me”, la nueva tendencia en ChatGPT?

Google ha detallado igualmente que otra de las novedades que ofrece el modelo es la mezcla de diseños. Esto es, aplicar el estilo de una imagen a un objeto de otra. Por ejemplo, utilizar el color y la textura de los pétalos de una flor para unas botas de lluvia.

“Esta actualización hace un trabajo mucho mejor, permitiendo que las ediciones sean más fluidas, y los resultados del modelo se pueden usar para lo que quieras”, ha subrayado la directora de producto en modelos de generación visual en Google DeepMind, Nicole Brichtova, en declaraciones a TechCrunch.

Asimismo, ha especificado que todas las imágenes creadas o editadas en la ‘app’ de Gemini incluyen una marca de agua visible, así como la marca de agua digital invisible SynthID.

Con todo, Gemini 2.5 Flash Image ya está disponible a través de la API de Gemini y Google AI Studio para desarrolladores, así como a través de Vertex AI para empresas. Se ha de tener en cuenta que tiene un coste de 30 dólares (25,86 euros al cambio) por millón de tokens de salida, y cada imagen equivale a 1.290 tokens de salida. Es decir, la generación de una imagen tiene un coste de 0,039 dólares (0,034 euros al cambio).

Por su parte, la actualización de la edición de imagen nativa en la aplicación de Gemini ya está disponible para todos los usuarios de forma gratuita.

Mira también:

Contenido sugerido

Contenido GEC