
Apple ha detectado importantes limitaciones en los modelos de inteligencia artificial con razonamiento, conocidos como LRM, como ChatGPT, Claude y DeepSeek. En un nuevo estudio, la compañía concluye que estos sistemas colapsan cuando se enfrentan a tareas complejas, y en algunos casos, incluso son superados por los modelos estándar sin razonamiento (LLM).
Los investigadores de Apple compararon el desempeño de modelos como Claude 3.7, DeepSeek R1 y o3-mini frente a sus equivalentes LLM en distintos niveles de dificultad. Los resultados muestran que, aunque los LRM pueden destacar en tareas de complejidad media, su rendimiento decae significativamente en pruebas más exigentes, como el rompecabezas de la Torre de Hanói.
MIRA: “ChatGPT es mi único amigo”: cada vez más personas forjan lazos afectivos con inteligencias artificiales
Según el equipo de Apple, estos modelos no logran escalar sus capacidades de razonamiento como lo haría un ser humano. Aun con tiempo de cómputo disponible, tienden a abandonar los problemas cuando alcanzan un umbral crítico de dificultad. Esta investigación actualiza un estudio previo del mismo equipo y coincide con la creciente presión en la industria por crear IA más capaces y consistentes.
El experto en inteligencia artificial Gary Marcus señaló que estos hallazgos subrayan la importancia de los algoritmos clásicos bien diseñados. A su juicio, los LLM aún no sustituyen a los métodos tradicionales en tareas complejas, aunque sí pueden ser útiles para generación de código, redacción o lluvia de ideas, siempre con supervisión humana.
El informe ha generado debate en el sector tecnológico. Mientras algunos lo interpretan como una señal de estancamiento en los modelos actuales, otros confían en que futuros avances permitirán superar estas barreras y construir sistemas de razonamiento más robustos y confiables.