El modelo de IA sorprendentemente asequible de Deepseek desafía a los gigantes de la industria. La compañía afirma haber capacitado a su poderosa red neuronal Deepseek V3 por solo $ 6 millones, utilizando solo 2048 GPU, un marcado contraste con los gastos de los competidores. Sin embargo, esta cifra solo refleja los costos de GPU previos al entrenamiento, omitiendo la investigación sustancial, el refinamiento, el procesamiento de datos y los gastos de infraestructura.
Imagen: Ensigame.com
La tecnología innovadora de Deepseek lo distingue. Las características clave incluyen la predicción de token múltiple (MTP) para la predicción simultánea de palabras, la mezcla de expertos (MOE) aprovechando 256 redes neuronales para un procesamiento mejorado y atención latente de múltiples cabezas (MLA) para mejorar la extracción de información. Estos avances contribuyen a la precisión y eficiencia del modelo.
Imagen: Ensigame.com
Al contrario de la cifra publicitada de $ 6 millones, el semianálisis revela que Deepseek opera una infraestructura masiva de aproximadamente 50,000 GPU NVIDIA Hopper, valoradas en aproximadamente $ 1.6 mil millones, con costos operativos que alcanzan los $ 944 millones. Esta inversión sustancial, junto con altos salarios para sus investigadores (superiores a $ 1.3 millones anuales), atrae a los principales talentos de las universidades chinas. La naturaleza autofinanciada de la compañía y la estructura simplificada contribuyen a su agilidad e innovación rápida.
Imagen: Ensigame.com
Si bien el reclamo "económico" de Deepseek es engañoso, su inversión general de más de $ 500 millones en desarrollo de IA, combinada con sus avances técnicos y su fuerza laboral calificada, le permite competir de manera efectiva. Una comparación de los costos de capacitación destaca aún más esto: R1 de Deepseek cuesta $ 5 millones, mientras que ChatGPT 4 costó $ 100 millones, lo que demuestra una ventaja de costo significativa, incluso considerando la inversión real de Deepseek.
Imagen: Ensigame.com
El éxito de Deepseek subraya el potencial de las compañías de IA independientes bien financiadas para desafiar a los jugadores establecidos. Sin embargo, sus logros se basan en una inversión sustancial, avances tecnológicos y un equipo altamente calificado, lo que hace que la narrativa inicial de "bajo costo" sea una simplificación excesiva.