Son las 8 a.m. de una mañana muy fría en Arequipa y una interminable fila de postulantes avanza lentamente por la Avenida Independencia de esta ciudad. Son parte de los miles de jóvenes que intentan ocupar una de las 1,300 vacantes disponibles en la Universidad Nacional de San Agustín. Justo al frente de la avenida, otro grupo se ha formado espontáneamente. Esta vez son sus familiares y amigos los que observan a los postulantes, algunos con estampitas de un santo entre los dedos.
MIRA: Inteligencia artificial y otra gran incógnita: reducir la huella de carbono que produce la tecnología
En el Perú, el examen de admisión a una universidad nacional es un ritual que se repite periódicamente. Al ser un evento social que resalta el concepto de meritocracia, tiene un impacto profundo en la sociedad. Es una experiencia que marca la vida de cada postulante pues para muchos jóvenes —a menudo de escasos recursos— este examen representa la posibilidad de tener un mejor futuro por medio de la educación. Por eso en medio de la interminable fila de postulantes, uno puede encontrar personas de todo el Perú y todas las clases sociales, cada una pugnando por cumplir el sueño de entrar a la universidad.
En este contexto, ¿qué significa que un algoritmo pueda pasar el examen de admisión de una universidad nacional? Junto con el investigador Christian Ilachoque intentamos resolver esta pregunta calculando los puntajes de ingreso que obtendrían modelos de lenguaje —como ChatGPT, GPT-4, y una versión pequeña del recientemente estrenado Llama— al postular a la Universidad Nacional de San Marcos (UNMSM), la Universidad Nacional de Ingeniería (UNI), y la Universidad Nacional de San Agustin (UNSA). Esta comparación requiere tener las respuestas correctas y la fórmula empleada por cada universidad para asignar puntajes a las preguntas.
Los siguientes gráficos muestran los resultados que obtiene un modelo al responder las preguntas de los exámenes de admisión de estas universidades peruanas. Cada barra vertical representa el puntaje mínimo para ingresar a una carrera y las líneas horizontales son los puntajes obtenidos por el modelo al tomar el mismo examen. Si un modelo produce un puntaje arriba de una barra, este pudo haber ingresado a esta carrera.
MIRA: 6 trabajos que la Inteligencia Artificial está creando y qué tipo de preparación requieren
GPT-4 es una proeza técnica sin precedentes que demuestra el suficiente sentido común y razonamiento para ingresar a todas las carreras del área de sociales y humanidades en la UNSA y en la UNMSM. Hablamos de carreras tales como Ciencia Política, Literatura, Historia, Antropología, Marketing, Idiomas, y Educación Inicial. Estos exámenes ponen un énfasis especial en medir el conocimiento de los estudiantes en áreas de historia, leyes, geografía, y comprensión de lectura. Este es precisamente el tipo de conocimiento que hace brillar a un modelo de lenguaje, el cual es capaz de memorizar hechos, fechas, y de aprender desde cero las estructuras lingüísticas presentes en millones de páginas de Internet y libros. A menudo las capacidades inteligentes de modelos como GPT-4 emergen en base a su gran número de conexiones neuronales. Por eso GPT-4 —con sus 1.8 millón de millones de parámetros— demuestra ser en la gráfica un mejor postulante que otro modelo 10 veces más pequeño como ChatGPT (GPT-3.5-turbo).
Los exámenes de ingeniería parecen ser un escollo un poco más difícil. De hecho, es conocido que los grandes modelos de lenguaje tienen capacidades limitadas para entender operaciones matemáticas. Sin embargo, GPT-4 nos sorprende nuevamente al poder ingresar a todas las carreras de Ingeniería en la UNSA, menos a Ingeniería Industrial, Ingeniería de Sistemas, e Ingeniería Civil. Mientras que ChatGPT no es lo suficientemente grande para entrar a ninguna carrera.
Los exámenes de admisión a carreras de Ciencias de la Salud y Biomédicas siguen una tendencia similar. GPT-4 muestra la capacidad de ingresar a todas las carreras en la UNMSM, menos a Medicina Humana. Similarmente, este modelo podría ingresar a todas las carreras del área de Biomédicas de la UNSA, menos a Enfermería y Medicina.
Una mención aparte es el examen de la UNI —el cual consiste de 3 exámenes tomados en 3 días distintos, los cuales dan lugar a 180 preguntas y 1,845 puntos. Solo el examen de Aptitud Académica y Humanidades de la UNI posee 100 preguntas, las cuales incluyen muchas imágenes, cuadros, y representaciones visuales, más que cualquier otro examen de admisión en el Perú. GPT-4 —en general cualquier modelo de lenguaje— no permite aún entender imágenes, dando lugar a bajos puntajes que no le permiten ingresar a ninguna carrera. Lo interesante es que en realidad GPT-4 ha sido entrenado para comprender texto e imágenes, pero su codificador visual aún no está disponible al público para poder medir esta capacidad. De hecho, es muy probable que GPT-4 pueda ingresar a algunas carreras de la UNI tales como Ingeniería Sanitaria, Ingeniería Estadística, o Ingeniería Ambiental, es sólo que increíblemente la plenitud de sus capacidades aún no está disponible para poder comprobarse.
El avance de la IA nos enfrenta a preguntas como ¿Qué significa ser un estudiante hoy en día, si una herramienta puede escribir un mejor ensayo e ingresar a la universidad? Si un algoritmo demuestra una cantidad de conocimientos mayor que la mayoría de postulantes, ¿los alumnos deberían demostrar otro tipo de habilidades y las universidades implementar otro tipo de exámenes de admisión?
Mientras que una carrera de ingeniería evalúa conocimientos de física y química, ¿Tiene sentido que un estudiante tenga conocimientos de programación y análisis de datos para demostrar que este aún tiene una ventaja competitiva frente a un algoritmo que aunque puede pasar el examen, aún necesita de seres humanos para implementar su lógica basada en datos?
MIRA: Cómo lucirían Gokú, Vegeta y Bulma de Dragon Ball si fuesen supermodelos, según una IA
Más aún, hoy en día se prohíbe usar ChatGPT en muchas universidades. ¿Pero estamos tapando el sol con un dedo? Es posible que tenga más sentido fomentar la colaboración entre estudiantes y algoritmos para evaluar las capacidades de sentido común y creatividad de las personas. Por ejemplo, actividades como debatir con un algoritmo al frente de la clase no solo miden el conocimiento del estudiante, sino también su razonamiento crítico y su capacidad para intercambiar argumentos en tiempo real. Después de todo, si el estudiante puede sostener una debate con GPT-4 en base a hechos comprobables, es también una muestra de sus propias capacidades académicas.
La IA nos invita a considerar la posibilidad de reformular cómo aprendemos y medimos nuestras habilidades. Nos sugiere dejar de medir el nivel de conocimientos de un estudiante por su capacidad de memorizar conceptos. Ante tantas preguntas, la única certeza parece ser el cambio. Más pronto que tarde nos veremos obligados a medir la capacidad de los seres humanos en relación a cómo colaboramos con las máquinas para aumentar nuestras propias habilidades.