DeepSeek令人惊讶的具有成本效益的AI模型挑战了行业巨头。该公司的自称聊天机器人具有令人印象深刻的能力,这导致NVIDIA的股价大幅下降。它的成功源于创新技术和大量投资的独特组合,与最低限度的培训成本的初始主张相矛盾。
图像:ensigame.com
DeepSeek V3利用了几种尖端技术:多token预测(MTP),以提高准确性和效率; 专家(MOE)的混合物,利用256个神经网络进行加速训练和改善的性能; 多头潜在注意力(MLA),以确保不会忽略关键细节。
图像:ensigame.com
半分析最初声称仅支付了600万美元的培训费用,但DeepSeek使用了约50,000个NVIDIA GPU,代表约16亿美元的服务器投资,运营费用约为9.44亿美元。这种实质性的基础设施是直接拥有而不是租赁的,允许快速创新和优化。公司的自筹资金和精益结构进一步有助于其敏捷性。
图像:ensigame.com
DeepSeek的高薪(对于一些研究人员来说,每年超过130万美元)吸引了中国顶级人才,尽管该公司不雇用外国专家。这笔600万美元的数字仅反映了预培训的GPU成本,省略了研究,改进,数据处理和基础架构。总体AI开发投资超过5亿美元。
图像:ensigame.com
DeepSeek的成功展示了资金充足的独立AI公司的潜力。但是,其“预算友好”的叙述具有误导性。数十亿美元的投资,技术进步和熟练的团队是其成就的真正驱动力。即便如此,它的成本仍然大大低于竞争对手,例如在Chatgpt4o上花费的1亿美元,而DeepSeek的R1 $ 500万美元。