DeepSeek的廉價AI模型令人驚訝地挑戰了行業規範。盡管DeepSeek的DeepSeek V3模型僅擁有600萬美元的培訓成本,但仔細觀察顯示出了更大的投資。
圖像:ensigame.com
DeepSeek V3利用創新技術:多型預測(MTP)用於同時單詞預測,專家的混合物(MOE)利用256個神經網絡和多頭的潛在注意力(MLA) **為了增強對關鍵句子元素的關注。這些進步有助於準確性和效率。
圖像:ensigame.com
但是,半分析發現了明顯的差異。 DeepSeek的基礎設施實際上包括約50,000個NVIDIA HOPPER GPU,這是一項16億美元的投資,運營成本為9.44億美元。這與公開的600萬美元培訓數字形成鮮明對比,後者僅反映了培訓前的GPU使用率,不包括研究,改進,數據處理和基礎架構。
圖像:ensigame.com
高級飛行者的子公司DeepSeek擁有其數據中心,促進控製和快速創新。它的自籌資金地位和高薪(對於一些研究人員來說,每年超過130萬美元)吸引了頂級中國人才。盡管對AI開發進行了5億美元的投資,但其簡化的結構可以有效地創新。
圖像:ensigame.com
盡管DeepSeek的成功展示了資金龐大的獨立AI公司的潛力,但“革命預算”主張具有誤導性。真正的成本要高得多,但仍然比諸如Chatgpt4o這樣的競爭對手要少得多,據報道,培訓的成本為1億美元,而DeepSeek的R1為500萬美元。盡管其大量投資,但差距強調了DeepSeek的效率。