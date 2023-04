¿Cómo se alimenta una IA como ChatGPT? Pues The Washington Post se tomó la tarea de analizar un conjunto de datos para revelar una “lista secreta” de distintas paginas web con las que se entrena la IA.

Para esta investigación, The Washington Post analizó un conjunto de datos C4 (Colossal Clean Crawled Corpus) de Google, que consta de contenidos provenientes de 15 millones de sitios web que se han utilizado para entrenar inteligencias artificiales como T5 de Google o LLaMA de Facebook. En el caso de ChatGPT, OpenAI no revela los datos que usa para instruir sus modelos.

En cuanto a los resultados, se ha identificado que se usan contenidos con derechos de autor sin autorización, así como webs que contienen prejuicios religiosos y raciales.

Asimismo, The Washington Post identificó que los datos “más importantes” provienen de tres grandes sitios web: “patents.google.com, que contiene texto de patentes emitidas en todo el mundo; wikipedia.org, la enciclopedia en línea gratuita; y scribd.com, una biblioteca digital sólo por suscripción.”

Sin embargo, en la lista también figura b-ok.org, una web que contiene libros electrónicos pirateados. Así como otras 27 webs más consideradas por el gobierno de EE.UU. como mercados de falsificaciones.

También, se identificó paginas que suponen problemas de privacidad como coloradovoters.info y flvoters-com, que contienen base de datos de los votantes estadounidenses.

“Los modelos podrían utilizar esta información personal de formas desconocidas”, señala el diario.

En cuanto a los problemas de derechos de autor, el análisis reveló que el conjunto de datos también se alimenta de hasta 200 webs que albergan trabajos con copyright. Los sitios importantes fueron Kickstarter y Patreon, los cuales “pueden dar a la IA acceso a las ideas de los artistas y a sus textos de marketing, lo que hace temer que la tecnología copie este trabajo para sugerirlo a los usuarios”.

Por otro lado, se incluyen páginas de contenidos subjetivos que difunden ideologías extremistas como vdare.com, un sitio aliado a la supremacía blanca así como de corte antiinmigración.

En cuanto a la religión, se detectó sitios como Grace to You, el cual pertenece a una iglesia que promueve el machismo al aconsejar a las esposas a no denunciar y someterse a los hombres maltratadores. Asimismo, se informó sobre un sesgo antimusulmán que se reflejaría en las respuestas de los chatbots.