Google al descubierto: filtran más de 2.500 páginas de documentos internos que revelan cómo funciona el algoritmo del buscador | TECNOLOGIA | EL COMERCIO PERÚ

marfeel

Últimas noticias

Los documentos, que han sido confirmados verídicos por expertos, parecen provenir de una filtración que se publicó en GitHub durante marzo y mayo de este año./ ALAIN JOCARD

Agencia Europa Press

2/6/2024 12H0 - ACTUALIZADO A 2/6/2024 12H0

Google ha sido el objetivo de una filtración masiva en la que se han revelado más de 2.500 páginas de documentos que explican cómo funciona realmente el algoritmo de su motor de búsqueda y que no sugieren que las declaraciones públicas de la compañía ha hecho sobre su actividad han sido erróneas.

MIRA: Google invierte en el futuro digital del Perú con cinco mil becas para cursos de inteligencia artificial, ciberseguridad y más: cuáles son y cómo acceder a ellas

La compañía ha comentado en diferentes ocasiones cómo trabaja el algoritmo de su buscador y el modo en que pretende ofrecer el mejor resultado posible, a fin de cumplir con su política de transparencia con los usuarios.

También han sido varias las veces en las que ha indicado que una de sus máximas es la de acabar con la desinformación y el contenido ‘spam’, motivo por el que actualiza con frecuencia tanto su algoritmo como sus políticas y sistemas automatizados para neutralizar “tácticas emergentes” con las que los actores maliciosos buscan “engañar” sus resultados con contenido de baja calidad.

El cofundador de la herramienta de inteligencia SparkToro y que durante años ha trabajado en SEO, Rand Fishkin, ha publicado recientemente un artículo en el que afirma haber tenido acceso a una serie de documentos relacionados con la interfaz de programación (API) del motor de búsqueda de Google, que que recogen una explicación contraria a la que la compañía habría afirmado en otras ocasiones en relación con el funcionamiento de su algoritmo.

Más concretamente, Fishkin ha señalado que el pasado 5 de mayo recibió un correo electrónico en el que una persona afirmaba tener acceso a una filtración masiva cuya autenticidad había sido verificada por extrabajadores de Google y que tanto estos como otras personas habían compartido información privada adicional sobre las operaciones de búsqueda de Google.

Fishkin ha comentado que muchas de las afirmaciones incluidas en estos archivos “contradicen directamente las declaraciones públicas realizadas por los empleados de Google a lo largo de los años”, tal y como ha compartido en el blog de SparkToro.

El experto en SEO ha comentado que lo descubierto en estos documentos “es solo la punta del iceberg” y ha insistido en que “las afirmaciones extraordinarias requieren pruebas extraordinarias”. De ahí que haya tomado como válida la aportación del también experto en SEO y fundador de EA Eagle Digital, Erfan Azimi, una persona relacionada con el sector del marketing que le mostró la filtración en sí.

En concreto, aportó más de 2.500 páginas de documentos relacionadas con la API y 14.014 atributos de la interfaz que parecen proceder del denominado Almacén de API de contenido interno de Google.

Si bien estos documentos no aportan detalles sobre, por ejemplo, cómo se utilizan los sistemas de clasificación en la búsqueda, sí dan información sobre los datos que recopila la compañía.

Durante su investigación y para asegurar la fiabilidad de esta filtración, Fishkin se puso en contacto con el fundador de iPullRank, Mike King, que considera “uno de los SEO técnicos más destacados del mundo”. Este determinó que los documentos parecían legítimos dentro de la división de Búsqueda de Google y que contenían una cantidad extraordinaria de infromación no confirmada previamente sobre el funcionamiento interno de Google.

Tras su revisión, una de las conclusiones a las que ha llegado Fishkin es que la filtración parece provenir de GitHub y que durante marzo y mayo de este año, estos archivos de la API se difundieron en Hexdocs, que indexa los repositorios públicos de este portal y circuló a través de otras fuentes.

En cuanto a la temporalidad de los documentos, ha reconocido que en en ellos se hace referencia a funciones obsoletas, que la búsqueda de Google cambia “enormemente de un año al otro” y que en ellos no se hace mención a las descripciones generales de Inteligencia Artificial (IA) más actuales.

Asimismo, ha asumido que estos archivos reflejan una cantidad de información “demasiado grande y demasiado densa”, lo que justifica que, por el momento, solo haya podido compartir cinco descubrimientos “que arrojan luz sobre cosas que durante mucho tiempo se suspuso que Google estaba haciendo y otros que sugieren que las declaraciones públicas de la compañía han sido erróneas”.

Cinco descubrimientos clave

En primer lugar, el investigador ha indicado que Google parece tener diferentes formas de filtrar los clics que no quiere registrar en sus sistemas de clasificación y que incluye solo los que le interesan. Asimismo, miden la duración de los clics y las impresiones

Por otra parte, ha añadido que los documentos de la API sugieren que Google dispone de una lista de las URL principales y que usa la cantidad de clics en las páginas de Chrome para determinar cuáles son las más populares.

En tercer lugar, los documentos sugieren que Google introduce determinados dominios relacionados con “consultas muy controvertidas o potencialmente peligrosas” en búsquedas relacionadas con viajes y política. Esto ofrece resultados que favorecen la información sesgada.

La filtración también ha revelado que existen evidencias de que las puntuaciones y los datos generados por algunos evaluadores de la plataforma EWOK, que miden la calidad de los sitios web, pueden estar directamente involucrados con el sistema de búsqueda de Google, “en lugar de ser simplemente un conjunto de entrenamiento para experimentos”.

Finalmente, parte de estos documentos revisados concluyen que Google utiliza datos de los clics para determinar cómo ponderar los enlaces en las clasificaciones (de calidad baja, media o alta). De esta manera, si uno de ellos no registra clics, ingresa en el índice de baja calidad y se ignora. Por el contrario, si tiene un gran volumen de clics desde dispositivos verificables, se clasifica como enlace de alta calidad.

Conforme a los criterios de

Google

Sigue a El Comercio en

Google

TAGS

Google

VIDEO RECOMENDADO

El gigante tecnológico acaba de abrir sus nuevas oficinas en Lima, bajo la dirección de Edgardo Frías. La compañía nacida en California está a punto de cumplir 24 años y estos son los planes que tienen en el país.

TE PUEDE INTERESAR

Este es el rostro que da vida al payaso de Terrifier

Con solo 8 episodios, este es el arco más corto de un icónico anime y por fin puede verse en Netflix tras una larga espera

Este es el segundo país con más hispanohablantes en todo el mundo: no está en Latinoamérica ni es España

Pareja en Ohio halla un coche enterrado en su terreno recién comprado

Descubre cómo una moneda olvidada durante casi medio siglo se convirtió en un tesoro de US$506,250

El impactante elogio de Ben Affleck a su ex Jennifer Lopez en medio del divorcio

Te puede interesar:

Estados Unidos pide que Google venda su navegador Chrome

OpenAI, creadores de ChatGPT, trabaja en un nuevo navegador para competir contra Google, según reportes

Pensadoras peruanas del siglo XIX, primeros libros impresos, mapas y mucho más de nuestra historia en Google Arts & Culture | FOTOS

Anni Albers: Conoce quién fue y por qué Google le rinde homenaje en el doodle de hoy