O modelo surpreendentemente acessível de Deepseek desafia os gigantes da indústria. A empresa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs, um forte contraste com as despesas dos concorrentes. No entanto, esse número apenas reflete os custos de GPU pré-treinamento, omitindo pesquisas substanciais, refinamento, processamento de dados e despesas de infraestrutura.
imagem: ensigame.com
A tecnologia inovadora da Deepseek a distingue. Os principais recursos incluem previsão de vários toques (MTP) para previsão simultânea de palavras, mistura de especialistas (MOE) alavancando 256 redes neurais para processamento aprimorado e atenção latente de várias cabeças (MLA) para melhorar a extração de informações. Esses avanços contribuem para a precisão e eficiência do modelo.
imagem: ensigame.com
Ao contrário do valor divulgado de US $ 6 milhões, a semiânica revela que a DeepSeek opera uma infraestrutura maciça de aproximadamente 50.000 GPUs da NVIDIA Hopper, avaliadas em aproximadamente US $ 1,6 bilhão, com custos operacionais atingindo US $ 944 milhões. Esse investimento substancial, juntamente com altos salários para seus pesquisadores (excedendo US $ 1,3 milhão por ano), atrai os melhores talentos das universidades chinesas. A natureza autofinanciada da empresa e a estrutura simplificada contribuem para sua agilidade e inovação rápida.
imagem: ensigame.com
Embora a reivindicação "orçamentária" da Deepseek seja enganosa, seu investimento geral de mais de US $ 500 milhões em desenvolvimento de IA, combinado com seus avanços técnicos e a força de trabalho qualificada, permite que ela compete de maneira eficaz. Uma comparação dos custos de treinamento destaca ainda mais isso: o R1 da Deepseek custou US $ 5 milhões, enquanto o ChatGPT 4 custou US $ 100 milhões, demonstrando uma vantagem de custo significativa, mesmo considerando o investimento real da Deepseek.
imagem: ensigame.com
O sucesso da Deepseek ressalta o potencial de empresas de IA independentes e bem financiadas para desafiar os participantes estabelecidos. No entanto, suas realizações estão enraizadas em investimentos substanciais, avanços tecnológicos e uma equipe altamente qualificada, tornando a narrativa inicial de "baixo custo" uma simplificação excessiva.