Solo para suscriptores

Tecnología y ciencias

Cómo funciona DeepSeek, la IA china tan potente como ChatGPT que se desarrolló con menos del 10% de su costo

Cómo funciona DeepSeek, la IA china tan potente como ChatGPT que se desarrolló con menos del 10% de su costo

El nuevo modelo chino sorprende por su eficiencia y bajo costo. Tres expertos explican su funcionamiento, impacto en la industria y qué la hace diferente de otros modelos.

Operator, la herramienta de inteligencia artificial que hace las compras online o reservar vuelos
Inteligencia artificial: qué son los agentes de IA y cómo impactarán en nuestra forma de trabajar

Christian Mestanza Arquiñigo

Christian Mestanza Arquiñigo

01/02/2025 15H03

En esta suerte de nueva Guerra Fría que vive el mundo entre China y Estados Unidos, la industria tecnológica es, otra vez, el cuadrilátero en el que los rivales miden sus fuerzas. Y el gigante asiático acaba de asestar un duro golpe a su contrincante. DeepSeek, una inteligencia artificial (IA) desarrollada por una start-up china, ha puesto patas arriba las bolsas del mundo al provocar la caída del precio de las acciones de multinacionales como Nvidia, Microsoft o Meta.

En poco más de una semana desde su lanzamiento, DeepSeek ha conseguido el título de la app gratuita más descargada de App Store, la tienda de aplicaciones de Apple.

MIRA: El Vaticano publica su doctrina sobre la IA, una oportunidad que conlleva “desafíos éticos”

¿Por qué tanto alboroto? El chatbot ha obtenido puntajes tan altos —o mayores, en algunos casos— que sus rivales más populares, como ChatGPT, de OpenAI; Claude, de Anthropic; o Gemini, de Google. ¿Una IA más? Pasaría desapercibida si no fuera por un detalle fundamental: tiene los mismos resultados, pero es mucho más barata.

De acuerdo con informes, la inteligencia artificial china se desarrolló por una fracción del costo de los modelos más populares. Funciona con el código abierto DeepSeek-V3, que fue entrenado a un costo de 6 millones de dólares, mientras que los modelos actuales han requerido montos mucho mayores. En el caso de ChatGPT-4, el entrenamiento costó 100 millones de dólares.

Esta ilustración fotográfica muestra el logotipo de la aplicación DeepSeek en un teléfono móvil en Bruselas el 28 de enero de 2025. Los temores de un cambio radical en la fiebre del oro de la inteligencia artificial sacudieron a Wall Street tras la aparición de un popular modelo similar a ChatGPT procedente de China. El presidente de Estados Unidos, Donald Trump, dijo que era una "llamada de atención" para Silicon Valley. (Foto de Nicolas TUCAT / AFP) — Esta ilustración fotográfica muestra el logotipo de la aplicación DeepSeek en un teléfono móvil en Bruselas el 28 de enero de 2025. Los temores de un cambio radical en la fiebre del oro de la inteligencia artificial sacudieron a Wall Street tras la aparición de un popular modelo similar a ChatGPT procedente de China. El presidente de Estados Unidos, Donald Trump, dijo que era una "llamada de atención" para Silicon Valley. (Foto de Nicolas TUCAT / AFP)
/ PEDRO PARDO

Andrej Karpathy, cofundador de OpenAI, exdirector de IA en Tesla y uno de los expertos más respetados del sector, describió ese presupuesto como “de broma” y añadió: “Hay que asegurarse de que no somos derrochadores con lo que tenemos y este modelo parece una buena demostración de que hay mucho que revisar tanto en datos como en algoritmos”.

La llegada de DeepSeek plantea interrogantes sobre el futuro del dominio de Estados Unidos en materia de IA y sobre la estrategia que las empresas estadounidenses están adoptando para asegurar sus inversiones.

¿En qué se diferencia de ChatGPT?

De acuerdo con Moisés Meza, docente del Departamento de Ingeniería de la Universidad Cayetano Heredia, DeepSeek y ChatGPT son dos de los modelos de lenguaje más avanzados del momento. Aunque ambos pueden generar texto de alta calidad y mantener conversaciones coherentes, DeepSeek se destaca por su eficiencia y capacidad para adaptarse a diferentes tareas. Algunos lo comparan con el modelo O1 de ChatGPT, que destaca por su razonamiento.

“DeepSeek emplea técnicas como Mixture of Experts (MoE) y Multi-head Latent Attention (MLA). MoE permite al modelo especializarse en tareas específicas, activando solo las partes necesarias para cada consulta. Por su parte, MLA mejora la gestión de la memoria, comprimiendo la información y agilizando el procesamiento. Estas características hacen que DeepSeek sea un modelo más ligero y eficiente, capaz de ofrecer resultados comparables a ChatGPT sin requerir tanta potencia computacional”, explica el especialista a El Comercio.

La técnica MoE activa únicamente los “expertos” necesarios, mientras que MLA reduce la carga de memoria al comprimir datos. Esto le permite mantener un alto rendimiento con un menor consumo de energía y recursos computacionales.

Ginebra (Suiza), 28/01/2025.- El logo de la startup china DeepSeek en la pantalla de un ordenador, en Ginebra (Suiza), el 28 de enero de 2025. Las acciones de las principales empresas tecnológicas se desplomaron tras la creciente popularidad de Deepseek, una aplicación china de inteligencia artificial (IA) que ofrece un rendimiento comparable a una fracción del coste de sus rivales. (Suiza, Ginebra) EFE/EPA/SALVATORE DI NOLFI

/ SALVATORE DI NOLFI

Cada vez que el usuario hace una pregunta, el modelo de IA decide si debe activar a su experto en medicina, traducción, derecho o ciencia. Los modelos clásicos activan a todos de golpe, lo que supone un despilfarro de energía y computación. DeepSeek, en cambio, prioriza solo uno a la vez.

“Por ejemplo, su modelo DeepSeek-V2 cuenta con una arquitectura Mixture of Experts (MoE) que suma 236 mil millones de parámetros totales, de los cuales solo se activan 21 mil millones por token, optimizando así la eficiencia computacional. Esta eficiencia se traduce en una reducción del 42,5% en los costos de entrenamiento y una mejora de hasta 5,76 veces en la velocidad de generación”, comenta Meza.

Además…

ChatGPT vs. DeepSeek

ChatGPT y DeepSeek son modelos basados en una arquitectura llamada Transformer, pero con diferencias significativas en su diseño y propósito. ChatGPT (GPT-4), desarrollado por OpenAI, es un modelo propietario optimizado mediante técnicas avanzadas de ajuste de contexto y mezcla de expertos, pensado para tareas generales como redacción, razonamiento y generación creativa en varios idiomas. DeepSeek, en cambio, es un modelo de código abierto con un enfoque más especializado en matemáticas, generación de código y resolución algorítmica, con mejor rendimiento en inglés y chino. ChatGPT prioriza la fluidez y versatilidad en la interacción, DeepSeek prioriza la precisión en tareas computacionales y la estructuración de información técnica.

Eric Biagioli, director de Ciencia de Datos y Ciencia de la Computación y profesor de Posgrado en UTEC.

ChatGPT vs. DeepSeek

Un modelo abierto

Para Wester Zela, decano de las carreras de ingeniería de la Universidad Científica del Sur, DeepSeek tiene varias diferencias clave con otros modelos como ChatGPT. La más importante es que es un modelo open source, lo que significa que cualquier persona puede descargarlo, analizar su código y hacer modificaciones.

Además, su entrenamiento se realizó con hardware menos avanzado: DeepSeek utilizó chips Nvidia de generaciones anteriores, debido a las restricciones de exportación impuestas por EE.UU. a China. A pesar de no contar con los chips más recientes, los desarrolladores lograron resultados comparables a los modelos de OpenAI, demostrando que no es imprescindible usar la última tecnología para obtener modelos de alto rendimiento.

“El surgimiento de DeepSeek representa una gran oportunidad para desarrolladores, startups y emprendedores. Con un modelo open source de alto rendimiento, ahora es posible acceder a tecnología avanzada sin depender de los modelos propietarios de empresas como OpenAI o Google”, señala Zela a este Diario.

Zela considera que el acceso a tecnología open source es una gran oportunidad para los desarrolladores de países como el nuestro. OpenAI y otras empresas nunca han publicado los detalles completos de sus modelos, mientras que DeepSeek pone su código a disposición de cualquiera.

“Esto significa que los desarrolladores locales pueden estudiar, modificar y entrenar modelos de IA sin depender de tecnologías propietarias. Sin embargo, aunque el código sea accesible, sigue siendo necesario invertir en capacitación y en infraestructura computacional para aprovecharlo al máximo”, afirma el decano de la Científica.

“Si más personas en nuestro país logran capacitarse en el desarrollo de modelos de IA, podríamos ver la creación de emprendimientos locales que aprovechen esta tecnología. A largo plazo, el paradigma ha cambiado: ya no se necesitan cientos de millones de dólares para entrenar modelos avanzados, lo que abre la puerta a la innovación en diversas partes del mundo”, agrega.

DeepSeek: — DeepSeek:
/ Agencia EFE

Rendimiento de DeepSeek

De acuerdo con datos compilados por Europa Press, el modelo supera a otros modelos de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado.

En la evaluación de comprensión del lenguaje (MMLU Pro), DeepSeek-V3 alcanza una puntuación de 75,9, frente al 78,0 de Claude 3.5 Sonnet, el 72,6 de GPT-4o y el 73,3 de Llama 3.1 405B.
En la evaluación de capacidad para responder preguntas complejas de nivel posgrado (GPAQ Diamond), DeepSeek-V3 obtiene 59,1, por debajo de Claude 3.5 Sonnet (65,0), pero por encima de GPT-4o (49,9), Qwen 2.5 de 72B (49,0) y Llama 3.1 405B (51,1).
En la prueba de resolución de desafíos matemáticos (MATH 500), DeepSeek logra 90,2, superando a Claude 3.5 Sonnet (78,9), Qwen 2.5 de 72B (80,0), GPT-4o (74,6) y Llama 3.1 405B (73,8).
En la resolución de problemas matemáticos con AIME 2024, DeepSeek obtiene 39,2, seguido de Qwen 2.5 de 72B y Llama 3.1 405B (23,3), Claude 3.5 Sonnet (16,0) y GPT-4o (9,3).

¿Jaque a Estados Unidos?

Imagen creada con IA.

En un contexto en el que Estados Unidos ha endurecido las restricciones a la exportación de chips de IA, DeepSeek evidencia que es posible desarrollar tecnología avanzada sin depender de los procesadores más recientes.

“Al contrario, una de las consecuencias más evidentes de las medidas restrictivas contra los mercados tecnológicos chinos ha sido el impulso en la creación de modelos propios, más simples, pero también más potentes. Hasta ahora, lo que hemos observado es un país que ha acelerado su independencia tecnológica, en parte gracias a este tipo de restricciones”, dice a este Diario Eric Biagioli, de la UTEC.

Los especialistas consultados para esta nota coinciden en que estamos ante una tecnología revolucionaria o, al menos, ante un gran primer paso hacia un futuro más prolífico en el ámbito de la IA. No cabe duda de que el paradigma ha cambiado y de que, de alguna manera, esta tecnología se está democratizando.

“Creo que DeepSeek cambiará las reglas del juego. Esto significa que muchas grandes corporaciones tendrán que desarrollar modelos más simples, significativamente más económicos y con un menor consumo de hardware, pero sin sacrificar potencia. Sin duda, es un cambio interesante que, hasta cierto punto, pone en jaque a las grandes empresas, obligándolas a adaptarse”, comenta Biagioli.

Pero si bien, hasta ahora, las restricciones estadounidenses han impulsado la innovación en China, también podrían limitar la colaboración internacional en investigación y desarrollo, lo que frenaría el avance de la inteligencia artificial en general.

TAGS

IA

inteligencia artificial

DeepSeek

ChatGPT

China

Estados Unidos

VIDEO RECOMENDADO

Así fue la llegada del famoso youtuber Speed a la Plaza de Armas de Lima

El streamer Darren Jason Watkins Jr., conocido a nivel mundial como IShowSpeed, ya está en Perú. Así fue la llegada de este popular youtuber a la Plaza de Armas de Lima. A pesar de ser un total caos por la cantidad de personas que asistieron, Speed vivió la experiencia de la mejor forma y a su estilo como siempre. (Video: TV Perú)

TE PUEDE INTERESAR

✉️ 50 cartas de amor para enviar a tu pareja hoy 14 de febrero, en el Día de San Valentín 2025

❤️‍🔥 500 frases de “¡Feliz Día de San Valentín!” para tus estados de Facebook, Instagram y WhatsApp

Además de la Real ID: cuáles son las otras identificaciones válidas para poder viajar por avión en Estados Unidos

Mega Millions: ¿una persona que no es ciudadana o residente de Estados Unidos puede jugar y ganar la lotería?

Crédito Tributario por Hijos: cuánto debes ganar al año para recibir el pago completo

California: las leyes que firmó el gobernador Gavin Newsom para ayudar a los inmigrantes