

Un equipo de investigadores de Apple ha puesto a prueba las capacidades de razonamiento de varios modelos de inteligencia artificial, revelando que su desempeño es más frágil de lo que aparenta. En el análisis, se midieron sistemas de IA como GPT-4o, Llama y Mistral, comparando su capacidad para resolver problemas matemáticos y lógicos.
A pesar de que muchos chatbots simulan comprender y razonar de manera convincente, el estudio demostró que estos sistemas se ven afectados por alteraciones simples, como cambios en nombres o cifras en los enunciados. El equipo empleó una herramienta llamada GSM-Symbolic para evaluar cómo respondían los modelos ante problemas con valores modificados.
Newsletter El Comercio MedIA

MIRA: Investigadores desarrollan una técnica que reduce el consumo de energía en IA en un 95%
Los resultados muestran que la precisión de los modelos varía significativamente, y su rendimiento disminuye si se altera ligeramente el contexto de los problemas. Por ejemplo, al cambiar nombres o incluir datos irrelevantes, los modelos fallan en reconocer que esa información no afecta la solución del problema. Mehrdad Farajtabar, uno de los investigadores, explica que la IA suele dar peso a datos innecesarios, un comportamiento que evidencia la falta de verdadero razonamiento.

El estudio resalta la fragilidad de estos sistemas en situaciones controladas. Pruebas como las del GSM8K, un benchmark matemático, muestran que los modelos obtienen buenos resultados en entornos ideales, pero su desempeño decae con modificaciones mínimas. Además, los investigadores demostraron que los modelos de IA cometían errores al enfrentarse a tareas sencillas, como jugar al ajedrez, donde ejecutaban movimientos inválidos.
El informe advierte sobre las implicaciones de confiar demasiado en estos sistemas. Si bien son útiles para responder preguntas simples, su aparente capacidad de razonamiento puede resultar engañosa, lo que genera riesgos en tareas más complejas. Los expertos concluyen que la IA necesita mejoras sustanciales antes de ser utilizada en aplicaciones críticas que dependan de su fiabilidad.
TE PUEDE INTERESAR
- Cómo la reintroducción de lobos en un bosque de EE.UU. provocó la restauración natural del cauce de un río
- Intel presenta los procesadores Core Ultra 200S con IA: eficiencia energética mejorada y rendimiento avanzado
- Lo que la medicina occidental puede aprender de las civilizaciones prehispánicas para tratar las enfermedades mentales
- SpaceX completa su quinta prueba del Starship, el mayor cohete espacial jamás construido
Contenido sugerido
Contenido GEC


El Metro de Nueva York está contratando personas sin título con salario de casi US$120,000: cómo postular
MAG.
16 estados de EE. UU. declaran estado de emergencia por tormenta invernal: listado y medidas tomadas por gobernadores
MAG.
Activan alerta en California y piden quedarse en casa: qué es la partícula PM2.5 y por qué afecta la calidad del aire
MAG.
Prepárate para la tormenta invernal de este fin de semana en EE.UU.: qué hacer si quedas atrapado y no puedes salir de casa
MAG.




