Según el equipo de Apple, estos modelos no logran escalar sus capacidades de razonamiento como lo haría un ser humano. Imagen creada con IA.
Según el equipo de Apple, estos modelos no logran escalar sus capacidades de razonamiento como lo haría un ser humano. Imagen creada con IA.

ha detectado importantes limitaciones en los modelos de con razonamiento, conocidos como LRM, como ChatGPT, Claude y DeepSeek. En un , la compañía concluye que estos sistemas colapsan cuando se enfrentan a tareas complejas, y en algunos casos, incluso son superados por los modelos estándar sin razonamiento (LLM).

Los investigadores de Apple compararon el desempeño de modelos como Claude 3.7, DeepSeek R1 y o3-mini frente a sus equivalentes LLM en distintos niveles de dificultad. Los resultados muestran que, aunque los LRM pueden destacar en tareas de complejidad media, su rendimiento decae significativamente en pruebas más exigentes, como el rompecabezas de la Torre de Hanói.

MIRA: “ChatGPT es mi único amigo”: cada vez más personas forjan lazos afectivos con inteligencias artificiales

Según el equipo de Apple, estos modelos no logran escalar sus capacidades de razonamiento como lo haría un ser humano. Aun con tiempo de cómputo disponible, tienden a abandonar los problemas cuando alcanzan un umbral crítico de dificultad. Esta investigación actualiza un estudio previo del mismo equipo y coincide con la creciente presión en la industria por crear IA más capaces y consistentes.

El experto en inteligencia artificial señaló que estos hallazgos subrayan la importancia de los algoritmos clásicos bien diseñados. A su juicio, los LLM aún no sustituyen a los métodos tradicionales en tareas complejas, aunque sí pueden ser útiles para generación de código, redacción o lluvia de ideas, siempre con supervisión humana.

El informe ha generado debate en el sector tecnológico. Mientras algunos lo interpretan como una señal de estancamiento en los modelos actuales, otros confían en que futuros avances permitirán superar estas barreras y construir sistemas de razonamiento más robustos y confiables.

Contenido sugerido

Contenido GEC