Imagen referencial creada con IA. (Freepik)
Imagen referencial creada con IA. (Freepik)

A inicios de año, en pleno fervor por la, las predicciones avizoraban que el 2025 sería el año de los agentes IA, sistemas capaces de planificar, ejecutar y entregar proyectos completos sin intervención humana. Microsoft hablaba de “trabajadores IA” y los expertos auguraban una revolución laboral. Pero un nuevo de Scale AI ha puesto un baño de realidad: los agentes aún están lejos de sustituir personas.

El análisis comparó el desempeño de varios modelos en proyectos reales de tipo freelance, evaluados por un panel de 40 jueces que actuaron como clientes humanos. Las pruebas abarcaron desde diseño de producto y desarrollo de videojuegos hasta análisis de datos y redacción científica. En palabras del cofundador de OpenAI, Andrej Karpathy, los agentes, simplemente, “todavía no están ahí”.

MIRA: Google planea reactivar una planta nuclear cerrada en el 2020 para impulsar su inteligencia artificial

El modelo Manus fue el mejor posicionado, aunque apenas logró que el 2,5% de sus entregas fueran consideradas aceptables. A partir de ahí, el rendimiento cayó: Grok obtuvo un 2,1%, Claude un 1,8%, GPT-5 un 1,7%, y Gemini 2.5 Pro cerró la lista con 0,8%. En resumen, menos de tres de cada cien proyectos presentados habrían superado el filtro de un cliente real.

Aun así, los investigadores destacan que el resultado no es del todo negativo. Alcanzar ese nivel de desempeño en tareas humanas ya representa un avance significativo si se considera el punto de partida de la IA generativa hace apenas unos años. El problema, subrayan, no es la falta de potencia, sino la ausencia de criterio, contexto y comprensión de matices.

Los modelos son rápidos y coherentes, pero no piensan como las personas”, concluye el informe. El año de los agentes autónomos no ha llegado, aunque los avances actuales podrían ser la antesala de una nueva generación más capaz de razonar, priorizar y decidir por sí misma.

Contenido sugerido

Contenido GEC