DeepSeek令人驚訝的負擔得起的AI模型挑戰了行業巨頭。該公司聲稱已經培訓了其強大的DeepSeek V3神經網絡,僅利用2048 GPU,這與競爭對手的支出形成了鮮明的對比。但是,該數字僅反映了培訓前的GPU成本,省略了大量研究,改進,數據處理和基礎設施費用。
圖像:ensigame.com
DeepSeek的創新技術將其區分開來。關鍵特征包括用於同時單詞預測的多言論預測(MTP),專家的混合(MOE)利用256個神經網絡來增強處理,以及多頭潛在注意力(MLA)(MLA),以改善信息提取。這些進步有助於模型的準確性和效率。
圖像:ensigame.com
與公開的600萬美元數字相反,半分析顯示,DeepSeek的大規模基礎設施約為50,000 Nvidia Hopper GPU,價值約16億美元,運營成本達到9.44億美元。這項大量投資,加上其研究人員的高薪(每年超過130萬美元),吸引了中國大學的頂尖人才。該公司的自我資助性質和精簡結構有助於其敏捷性和快速創新。
圖像:ensigame.com
盡管DeepSeek的“預算友好”主張具有誤導性,但其在AI開發中的總投資超過5億美元,再加上其技術突破和熟練的勞動力,使其可以有效競爭。培訓成本的比較進一步凸顯了這一點:DeepSeek的R1售價500萬美元,而Chatgpt 4據說耗資1億美元,表明了巨大的成本優勢,甚至考慮了DeepSeek的實際投資。
圖像:ensigame.com
DeepSeek的成功強調了資金龐大,獨立的AI公司挑戰已建立的參與者的潛力。但是,它的成就源於大量投資,技術進步和高技能的團隊,使最初的“低成本”敘述變得過分簡化。