Por ahora el producto no es perfecto. Se advierten ciertas rarezas en las imágenes unidas si se miran de cerca. Pero esto se irá corrigiendo cuando sea lanzado en pocos meses. (Foto: Pezibear en pixabay.com / Bajo licencia Creative Commons)
Por ahora el producto no es perfecto. Se advierten ciertas rarezas en las imágenes unidas si se miran de cerca. Pero esto se irá corrigiendo cuando sea lanzado en pocos meses. (Foto: Pezibear en pixabay.com / Bajo licencia Creative Commons)
Redacción EC

anunció en mayo de forma escueta que ya soporta en su plataforma fotos en 3D. Aparecerán como cualquier otra publicación, con la diferencia que podrás desplazarte por ellas entre perspectivas y mundos inmersivos. Funcionará así para fotos de personas y paisajes, según explica el sitio "TechCrunch". Pero la presentación solo fue de un video corto y un nombre, ahora el equipo de fotografía computacional explica cómo funcionará.

La idea original para las publicaciones en 3D no fue mejorar las instantáneas, sino el de democratizar la creación de contenido de realidad virtual, según explica Johannes Kopf, el investigador y científico de la oficina de Facebook en Seattle. Todo este contenido es "sintético", según el ingeniero. Y ningún usuario casual de la red social tiene las herramientas o la inclinación para construir modelos 3D y poblar un espacio virtual.

Según el periodista Devin Coldewey, lo que Facebook logró es un efecto de profundidad bastante convincente. "Se siente como una pequeña ventana mágica que mira hacia un tiempo y lugar en un modelo 3D".



Solo las imágenes panorámicas y de 360 grados suelen ser lo suficientemente amplias como para explorarlas de forma efectiva en realidad virtual, siendo una excepción a lo dicho por Kopf. Pero falla en la falta de sensación de profundidad, lo que Kopf decidió agregar. Una primera versión capturaba el entorno de la misma forma en que se toma una foto esférica. Un análisis detallado era lo que construía la imagen en 3D.

El método y problema

El análisis en cuestión es de paralaje, significa que examina cómo los objetos cambian a diferentes distancias según se mueve la cámara que lo captura. Esto se suma al desplazamiento del dispositivo que toma las fotos para poder reconstruir la imagen en tres dimensiones. El detalle con esta técnica es que consume muchos recursos del CPU y es hasta considerada "anticuada". Esto considerando que cámaras modernas tienen dos lentes que hacen el mismo trabajo de forma más eficiente.

Las imágenes capturadas con dos lentes de una misma cámara al mismo tiempo muestran diferencias de parlaje incluso en objetos en movimiento. Esto se debe a que funcionan como la visión de los ojos humanos. Mientras que los datos de profundidad son más exactos porque el dispositivo mantiene en la misma posición a los lentes durante ambas capturas. Luego el mismo dispositivo calcula un "mapa de profundidad" a partir de ellas de todo lo que se observa.

Una cámara de dos lentes ayuda a formar un mapa de profundidad que detecta la distancia de cada objeto presente en la imagen.
Una cámara de dos lentes ayuda a formar un mapa de profundidad que detecta la distancia de cada objeto presente en la imagen.

Este trabajo funciona en las cámaras de celulares que tienen dos lentes. Así, Apple, Samsung, Huawei y Google, entre otros, tienen sus propias formas para realizarlo en sus teléfonos. Estas marcas han aprovechado la tecnología solo para crear un fondo borroso y artificial. Pero acá nace otro problema: el mapa de profundidad creado carece escalas.

Como se muestra en el ejemplo, el mapa de profundidad aparece en infrarrojo. Pero ningún color está anclado a distancias específicas. Lo que está en amarillo puede estar a un metro y lo rojo a diez metros en una foto; y en otra el amarillo es un objeto a 50 metros y lo rojo a 500 metros. La escala es diferente en cada foto.

El trabajo

Kopf y su equipo asumió este reto. En su sistema, el usuario toma múltiples imágenes de su entorno moviendo su teléfono. Captura dos imágenes por cuadro (y un mapa de profundidad resultante) cada segunda y crea una colección. Un algoritmo analiza todos los mapas de profundidad capturados y los movimientos de la cámara por los sistemas de detección de movimiento de los celulares. Luego todos las capturas y sus mapas se alinean mediante un .

Así se crea un mapa de profundidad preciso en múltiples exposiciones de forma rápida. Tarda un segundo por imagen, razón por la cual la herramienta desarrollada por Facebook dispara a esa velocidad y es llamada "Instant 3D Photography".

Las imágenes reales se unen de la forma en que lo haría una captura panorámica como paso final. El proceso es más rápido y sencillo gracias a los mapas de profundidad mejorados. Estos mapas se convierten en mallas 3D (un modelo bidimensional) que busca bordes obvios para crear planos. Así separa los diferentes objetos de la imagen dotándoles de sus propias profundidades y con cambios de perspectivas.

El último detalle

Hasta acá podría parecer que lo que se ha hecho es poner varias imágenes planas, unas delante de otras, para intentar crear un entorno en 3D. Esto sin registros sobre sus lados o espaldas. Y es aquí donde se pone la cereza al pastel: solo resta "alucinar" el resto de la toma a través de una red neuronal convolucional.  Computacionalmente se añade rellenos adivinando por lo que está cerca. Si hay un tono de piel, este seguirá, por ejemplo. Así recrea de forma convincente el resto de la imagen.

El resultado final es una imagen realista que reacciona de forma orgánica a los cambios de perspectiva, que a la vez lo hace un elemento visible dentro de un entorno de realidad virtual o como una fotografía en 3D. Algo que el usuario podrá crear solo descargando un complemento o aprendiendo un movimiento al tomar las fotos con su celular.

Por ahora el producto no es perfecto. Se advierten ciertas rarezas en las imágenes unidas si se miran de cerca. Pero esto se irá corrigiendo cuando sea lanzado en pocos meses, que será exclusivo para dispositivos con dos cámaras. Aunque los planes están para crear una herramienta de creación de una sola cámara a través de otra red neuronal convolucional.

El dato

Johannes Kopf, junto a Peter Hedman del University College de Londres, es autor del artículo que describe los métodos que ayudan a construir imágenes mejoradas en profundidad.

Contenido sugerido

Contenido GEC