Los chatbots parecen razonar, pero no es más que una ilusión: fallan en situaciones clave

Aunque los chatbots parecen razonar, un estudio sugiere que su capacidad se desmorona ante cambios mínimos, poniendo en duda la fiabilidad de estos modelos de inteligencia artificial

Bill Gates revela cuáles son sus tres principales preocupaciones frente a la inteligencia artificial
Geoffrey Hinton, el ganador del Nobel de Física que renunció a Google y denunció los peligros de la inteligencia artificial para la humanidad

Resumen

Este resumen es generado por inteligencia artificial y revisado por la redacción.

Imagen creada con inteligencia artificial

Por Redacción EC14/10/2024, 09:43 a.m.

Un equipo de investigadores de Apple ha puesto a prueba las capacidades de razonamiento de varios modelos de inteligencia artificial, revelando que su desempeño es más frágil de lo que aparenta. En el análisis, se midieron sistemas de IA como GPT-4o, Llama y Mistral, comparando su capacidad para resolver problemas matemáticos y lógicos.

A pesar de que muchos chatbots simulan comprender y razonar de manera convincente, el estudio demostró que estos sistemas se ven afectados por alteraciones simples, como cambios en nombres o cifras en los enunciados. El equipo empleó una herramienta llamada GSM-Symbolic para evaluar cómo respondían los modelos ante problemas con valores modificados.

MIRA: Investigadores desarrollan una técnica que reduce el consumo de energía en IA en un 95%

Los resultados muestran que la precisión de los modelos varía significativamente, y su rendimiento disminuye si se altera ligeramente el contexto de los problemas. Por ejemplo, al cambiar nombres o incluir datos irrelevantes, los modelos fallan en reconocer que esa información no afecta la solución del problema. Mehrdad Farajtabar, uno de los investigadores, explica que la IA suele dar peso a datos innecesarios, un comportamiento que evidencia la falta de verdadero razonamiento.

Añadir o quitar información afecta demasiado a la capacidad de "razonamiento" de los LLM, concluyeron estos investigadores.

El estudio resalta la fragilidad de estos sistemas en situaciones controladas. Pruebas como las del GSM8K, un benchmark matemático, muestran que los modelos obtienen buenos resultados en entornos ideales, pero su desempeño decae con modificaciones mínimas. Además, los investigadores demostraron que los modelos de IA cometían errores al enfrentarse a tareas sencillas, como jugar al ajedrez, donde ejecutaban movimientos inválidos.

El informe advierte sobre las implicaciones de confiar demasiado en estos sistemas. Si bien son útiles para responder preguntas simples, su aparente capacidad de razonamiento puede resultar engañosa, lo que genera riesgos en tareas más complejas. Los expertos concluyen que la IA necesita mejoras sustanciales antes de ser utilizada en aplicaciones críticas que dependan de su fiabilidad.

TE PUEDE INTERESAR

Seguir temas

Últimas noticias

Fútbol peruano

Campeón del mundo y tres veces de Champions: Cómo es que Carles Puyol terminó viendo la final PSG-Arsenal por TV en un hotel de Lima

El Comercio

Fútbol peruano

El destape de Girotti en Cajamarca y por qué cerrar el Apertura con 40 puntos es histórico: el balance del campeón invicto en provincias

El Comercio

Fútbol peruano

Operativo Pulga: Los guiños de Ruidíaz, su línea directa con la dirigencia y las claves de un fichaje que urge en Universitario

El Comercio

Venezuela

Si postergas este trámite en tu pasaporte NO podrás ingresar a Venezuela, Colombia o Bolivia

El Comercio

Lo último en Inteligencia Artificial

Inteligencia Artificial

Más sobre IA

Inteligencia Artificial

El Comercio

Los chatbots parecen razonar, pero no es más que una ilusión: fallan en situaciones clave

Aunque los chatbots parecen razonar, un estudio sugiere que su capacidad se desmorona ante cambios mínimos, poniendo en duda la fiabilidad de estos modelos de inteligencia artificial

IA

inteligencia artificial

OpenAI

Últimas noticias

Campeón del mundo y tres veces de Champions: Cómo es que Carles Puyol terminó viendo la final PSG-Arsenal por TV en un hotel de Lima

El destape de Girotti en Cajamarca y por qué cerrar el Apertura con 40 puntos es histórico: el balance del campeón invicto en provincias

Operativo Pulga: Los guiños de Ruidíaz, su línea directa con la dirigencia y las claves de un fichaje que urge en Universitario

Si postergas este trámite en tu pasaporte NO podrás ingresar a Venezuela, Colombia o Bolivia

Lo último en Inteligencia Artificial

RTX Spark, el nuevo ‘superchip’ de Nvidia pensado para desarrolladores de IA, creadores de contenido y gamers

IA agéntica: la revolución de una IA que “deja de ser reactiva” y empieza a decidir

La IA en el amor: casi uno de cada dos jóvenes cree que facilitará la felicidad amorosa

YouTube automatiza la detección de contenidos creados por inteligencia artificial

Más sobre IA

YouTube automatiza la detección de contenidos creados por inteligencia artificial

Herramienta de IA de Visa ayuda a identificar más de US$26 mil millones en presunto fraude en América Latina y el Caribe

Anthropic supera a OpenAI tras alcanzar valorización de USD 965.000 millones

Southern Copper avanza “fierro a fondo” con Tía María

Contenido sugerido

La psicología dice que las personas que saludan al entrar a una tienda no solo son educadas, sino que poseen gran inteligencia social

Asistente de Matthew Perry recibe 3 años y 5 meses de prisión por muerte del actor con ketamina

La psicología dice que tener la televisión prendida siempre no se trata de un simple hábito, sino que ayuda a apaciguar la mente

Alerta migratoria, una firma mal hecha puede costarte tu caso ante USCIS desde el 10 de julio: qué cambió y por qué no lo debes ignorar

“My Hero Academia” lidera la lista: dónde ver las series y películas ganadoras de los Crunchyroll Anime Awards 2026

Epicteto, filósofo: “No es lo que te ocurre, sino cómo reaccionas lo que importa”