Deepseekの驚くほど費用対効果の高いAIモデルは、業界の巨人に挑戦しています。同社の自称チャットボットは印象的な能力を誇っており、Nvidiaの株価の大幅な低下に貢献しています。その成功は、革新的なテクノロジーと実質的な投資のユニークな組み合わせに由来し、最小限のトレーニングコストの最初の主張と矛盾しています。
画像:Ensigame.com
DeepSeek V3は、いくつかの最先端の技術を活用しています。 専門家(MOE)の混合、256のニューラルネットワークを利用して、トレーニングを加速し、パフォーマンスを改善します。 マルチヘッドの潜在的な注意(MLA)重要な詳細が見落とされていないことを確認します。
画像:Ensigame.com
最初はわずか600万ドルのトレーニングコストを請求していましたが、Semianalysisは、DeepSeekが約50,000のNVIDIA GPUを使用していることを明らかにしました。この実質的なインフラストラクチャは、リースするのではなく完全に所有されているため、迅速な革新と最適化が可能になります。同社の自己資金と無駄のない構造は、その敏ility性にさらに貢献しています。
画像:Ensigame.com
Deepseekの高い給与(一部の研究者にとっては年間130万ドル以上)は、中国のトップの才能を引き付けますが、同社は外国の専門家を雇用していません。 600万ドルの数字は、トレーニング前のGPUコストのみを反映しており、調査、洗練、データ処理、インフラストラクチャを省略しています。全体的なAI開発投資は5億ドルを超えています。
画像:Ensigame.com
Deepseekの成功は、十分に資金提供された独立したAI企業の可能性を示しています。しかし、その「予算に優しい」物語は誤解を招くものです。投資、技術の進歩、熟練したチームの数十億は、その成果の真の推進力です。それでも、DeepSeekのR1の500万ドルと比較して、CHATGPT4Oに費やされた1億ドルなど、そのコストは競合他社よりも大幅に低いままです。