Deepseekの驚くほど手頃な価格のAIモデルは、業界の巨人に挑戦しています。同社は、競合他社の支出とはまったく対照的である2048 GPUのみを利用して、強力なDeepseek V3ニューラルネットワークをわずか600万ドルで訓練したと主張しています。ただし、この数字は、トレーニング前のGPUコストのみを反映しており、実質的な調査、改良、データ処理、インフラストラクチャ費用を省略しています。
画像:Ensigame.com
Deepseekの革新的なテクノロジーはそれを区別しています。主な機能には、同時単語予測のためのマルチトークン予測(MTP)、エキスパート(MOE)の混合物(強化された処理のために256のニューラルネットワークを活用し、情報抽出を改善するためのマルチヘッド潜在注意(MLA)が含まれます。これらの進歩は、モデルの正確さと効率に貢献します。
画像:Ensigame.com
宣伝された600万ドルの数字に反して、Semianalysisは、Deepseekが約16億ドルの価値がある約50,000 NVIDIA Hopper GPUの大規模なインフラストラクチャを運営しており、運用コストは9億4,400万ドルに達していることを明らかにしています。この実質的な投資は、研究者の高い給与と相まって(年間130万ドルを超える)、中国の大学の最高の才能を引き付けます。同社の自己資金による性質と合理化された構造は、その敏ility性と迅速な革新に貢献しています。
画像:Ensigame.com
Deepseekの「予算に優しい」請求は誤解を招くものですが、AI開発に5億ドル以上の投資とその技術的なブレークスルーと熟練した労働力により、効果的に競争することができます。トレーニングコストの比較により、これはさらに強調されています。DeepseekのR1の価格は500万ドルですが、ChatGpt 4は1億ドルの費用がかかり、DeepSeekの実際の投資を考慮しても大きなコスト優位性を示しています。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業が確立されたプレーヤーに挑戦する可能性を強調しています。ただし、その成果は、実質的な投資、技術の進歩、高度なスキルのあるチームに根ざしており、最初の「低コスト」の物語を過度に単純化します。