DeepSeek令人驚訝的具有成本效益的AI模型挑戰了行業巨頭。該公司的自稱聊天機器人具有令人印象深刻的能力,這導致NVIDIA的股價大幅下降。它的成功源於創新技術和大量投資的獨特組合,與最低限度的培訓成本的初始主張相矛盾。
圖像:ensigame.com
DeepSeek V3利用了幾種尖端技術:多token預測(MTP),以提高準確性和效率; 專家(MOE)的混合物,利用256個神經網絡進行加速訓練和改善的性能; 多頭潛在注意力(MLA),以確保不會忽略關鍵細節。
圖像:ensigame.com
半分析最初聲稱僅支付了600萬美元的培訓費用,但DeepSeek使用了約50,000個NVIDIA GPU,代表約16億美元的服務器投資,運營費用約為9.44億美元。這種實質性的基礎設施是直接擁有而不是租賃的,允許快速創新和優化。公司的自籌資金和精益結構進一步有助於其敏捷性。
圖像:ensigame.com
DeepSeek的高薪(對於一些研究人員來說,每年超過130萬美元)吸引了中國頂級人才,盡管該公司不雇用外國專家。這筆600萬美元的數字僅反映了預培訓的GPU成本,省略了研究,改進,數據處理和基礎架構。總體AI開發投資超過5億美元。
圖像:ensigame.com
DeepSeek的成功展示了資金充足的獨立AI公司的潛力。但是,其“預算友好”的敘述具有誤導性。數十億美元的投資,技術進步和熟練的團隊是其成就的真正驅動力。即便如此,它的成本仍然大大低於競爭對手,例如在Chatgpt4o上花費的1億美元,而DeepSeek的R1 $ 500萬美元。