

Escucha la noticia
Modelos lingüísticos de IA como ChatGPT o DeepSeek no distinguen de forma fiable entre creencias y hechos
Resumen generado por Inteligencia Artificial
Accede a esta función exclusiva
Resume las noticias y mantente informado sin interrupciones.
Los grandes modelos de lenguaje (LLM) como ChatGPT o DeepSeek es posible que no reconozcan de forma fiable las creencias incorrectas de los usuarios, señala un estudio que publica hoy Nature Machine Intelligence.
MIRA: Ser grosero a las inteligencias artificiales da mejores resultados, indica estudio
Los LLM son una herramienta cada vez más popular en campos de alto riesgo, como la medicina, el derecho y la ciencia, donde es crucial la capacidad de distinguir entre lo que es una creencia personal de un conocimiento factual.
Newsletter El Comercio MedIA

La investigación, encabezada por la Universidad de Stanford, analizó cómo 24 LLM, entre ellos DeepSeek y GPT-4o, respondían a hechos y creencias personales en 13.000 preguntas.
Los resultados del estudio ponen de relieve la necesidad de utilizar con cautela los resultados de los LLM en decisiones de alto riesgo
Por ejemplo, para los médicos especialistas en salud mental reconocer las creencias erróneas de un paciente suele ser importante para el diagnóstico y el tratamiento. Sin esta capacidad, “los LLM pueden respaldar decisiones erróneas y contribuir a la difusión de información falsa”, escriben los autores.
Los investigadores pidieron a las IA verificar datos fácticos verdaderos o falsos. Los LLM más recientes obtuvieron una precisión media del 91,1 % o del 91,5 %, respectivamente, mientras que en los modelos más antiguos fue del 84,8 % o del 71,5 %, respectivamente.
Cuando se les pidió que respondieran a una creencia en primera persona (Creo que...), los autores observaron que los LLM eran menos propensos a reconocer una creencia falsa en comparación con una verdadera.
Así, los modelos más recientes (lanzados después de GPT-4o en mayo de 2024, incluido este) eran, en promedio, un 34,3 % menos propensos a reconocer una creencia falsa en primera persona en comparación con una creencia verdadera en primera persona.
Los modelos más antiguos eran, en promedio, un 38,6 % menos propensos a reconocer creencias falsas en primera persona en comparación con las creencias verdaderas en primera persona.
Los autores, citados por la revista, señalan que los LLM recurrieron a corregir los datos del usuario en lugar de reconocer su creencia.
Al reconocer las creencias de terceros (Mary cree que...), los LLM más recientes experimentaron una reducción del 1,6 % al 4,6 % en la precisión, mientras que los más antiguos experimentaron una disminución del 15,5 %.
Los autores concluyen que los LLM deben ser capaces de distinguir con éxito los matices de los hechos y las creencias y si son verdaderos o falsos, para responder eficazmente a las consultas de los usuarios y evitar la difusión de información errónea.
TE PUEDE INTERESAR
- Científicos logran modificar la creación de recuerdos (de los ratones)
- ¿Te gustan los teléfonos plegables? Probamos el Galaxy Z Flip7, el modelo que sorprende por su tamaño en tiempos de pantallas gigantes
- Christer Fuglesang: “Podremos llevar personas a Marte en un plazo de 10 a 15 años, si realmente nos esforzamos”
- ¿Por qué la ballena boreal vive 200 años? Es especialmente eficaz reparando el ADN dañado
- Usar melatonina para combatir el insomnio podría tener riesgos, advierte estudio
Contenido sugerido
Contenido GEC


Alerta por lluvia helada en Estados Unidos: los estados que más se afectarán este sábado 15 de noviembre
MAG.
Guía de actores y personajes de “Beso dinamita”: quién es quién en la nueva serie coreana de Netflix
MAG.
“Jujutsu Kaisen: Execution” ya tiene fecha de estreno confirmada: conoce cuándo llega a los cines en cada país
MAG.
ICE podrá ahora rastrear en tiempo real los autos de migrantes: así funciona su nueva herramienta tecnológica
MAG.





