Revelan que los chatbots de IA se nutren de páginas con contenido pirata, racista y más (todo sin permiso)

Revelan que los chatbots de IA se nutren de páginas con contenido pirata, racista y más (todo sin permiso). (Foto: iStock)/ Blue Planet Studio

Redacción EC

20/4/2023 10H29 - ACTUALIZADO A 20/4/2023 10H29

¿Cómo se alimenta una IA como ChatGPT? Pues The Washington Post se tomó la tarea de analizar un conjunto de datos para revelar una “lista secreta” de distintas paginas web con las que se entrena la IA.

Para esta investigación, The Washington Post analizó un conjunto de datos C4 (Colossal Clean Crawled Corpus) de Google, que consta de contenidos provenientes de 15 millones de sitios web que se han utilizado para entrenar inteligencias artificiales como T5 de Google o LLaMA de Facebook. En el caso de ChatGPT, OpenAI no revela los datos que usa para instruir sus modelos.

MIRA: El robot humanoide Ameca responde cuál fue el día más triste de su existencia

En cuanto a los resultados, se ha identificado que se usan contenidos con derechos de autor sin autorización, así como webs que contienen prejuicios religiosos y raciales.

Asimismo, The Washington Post identificó que los datos “más importantes” provienen de tres grandes sitios web: “patents.google.com, que contiene texto de patentes emitidas en todo el mundo; wikipedia.org, la enciclopedia en línea gratuita; y scribd.com, una biblioteca digital sólo por suscripción.”

MIRA: Amazon lanza Bedrock, su plataforma de IA para competir con ChatGPT y OpenAI

Sin embargo, en la lista también figura b-ok.org, una web que contiene libros electrónicos pirateados. Así como otras 27 webs más consideradas por el gobierno de EE.UU. como mercados de falsificaciones.

También, se identificó paginas que suponen problemas de privacidad como coloradovoters.info y flvoters-com, que contienen base de datos de los votantes estadounidenses.

“Los modelos podrían utilizar esta información personal de formas desconocidas”, señala el diario.

En cuanto a los problemas de derechos de autor, el análisis reveló que el conjunto de datos también se alimenta de hasta 200 webs que albergan trabajos con copyright. Los sitios importantes fueron Kickstarter y Patreon, los cuales “pueden dar a la IA acceso a las ideas de los artistas y a sus textos de marketing, lo que hace temer que la tecnología copie este trabajo para sugerirlo a los usuarios”.

Por otro lado, se incluyen páginas de contenidos subjetivos que difunden ideologías extremistas como vdare.com, un sitio aliado a la supremacía blanca así como de corte antiinmigración.

En cuanto a la religión, se detectó sitios como Grace to You, el cual pertenece a una iglesia que promueve el machismo al aconsejar a las esposas a no denunciar y someterse a los hombres maltratadores. Asimismo, se informó sobre un sesgo antimusulmán que se reflejaría en las respuestas de los chatbots.

Conforme a los criterios de

Saber más

Google

News

Sigue a El Comercio en

Google

News

TE PUEDE INTERESAR

Este es el rostro que da vida al payaso de Terrifier

El Comercio

Con solo 8 episodios, este es el arco más corto de un icónico anime y por fin puede verse en Netflix tras una larga espera

El Comercio

Este es el segundo país con más hispanohablantes en todo el mundo: no está en Latinoamérica ni es España

El Comercio

Pareja en Ohio halla un coche enterrado en su terreno recién comprado

El Comercio

Descubre cómo una moneda olvidada durante casi medio siglo se convirtió en un tesoro de US$506,250

El Comercio

El impactante elogio de Ben Affleck a su ex Jennifer Lopez en medio del divorcio

El Comercio

Inteligencia Artificial

Revelan que los chatbots de IA se nutren de páginas con contenido pirata, racista y más (todo sin permiso)

TAGS

Chatbots

|inteligencia artificial

|ChatGPT

TE PUEDE INTERESAR

Contenido Sugerido

Este es el rostro que da vida al payaso de Terrifier

Con solo 8 episodios, este es el arco más corto de un icónico anime y por fin puede verse en Netflix tras una larga espera

Este es el segundo país con más hispanohablantes en todo el mundo: no está en Latinoamérica ni es España

Pareja en Ohio halla un coche enterrado en su terreno recién comprado

Descubre cómo una moneda olvidada durante casi medio siglo se convirtió en un tesoro de US$506,250

El impactante elogio de Ben Affleck a su ex Jennifer Lopez en medio del divorcio

Te puede interesar:

El peligro invisible de los chatbots: ‘Al final te vuelves adicto’

Creadores de Instagram podrán tener chatbots personalizados con su propia personalidad

Google apuesta por chatbots de IA basados en famosos e influencers de YouTube

Dos cosas que en 18 meses podría hacer la inteligencia artificial y las computadoras no pueden, según Bill Gates