DeepSeek的廉价AI模型令人惊讶地挑战了行业规范。尽管DeepSeek的DeepSeek V3模型仅拥有600万美元的培训成本,但仔细观察显示出了更大的投资。
图像:ensigame.com
DeepSeek V3利用创新技术:多型预测(MTP)用于同时单词预测,专家的混合物(MOE)利用256个神经网络和多头的潜在注意力(MLA) **为了增强对关键句子元素的关注。这些进步有助于准确性和效率。
图像:ensigame.com
但是,半分析发现了明显的差异。 DeepSeek的基础设施实际上包括约50,000个NVIDIA HOPPER GPU,这是一项16亿美元的投资,运营成本为9.44亿美元。这与公开的600万美元培训数字形成鲜明对比,后者仅反映了培训前的GPU使用率,不包括研究,改进,数据处理和基础架构。
图像:ensigame.com
高级飞行者的子公司DeepSeek拥有其数据中心,促进控制和快速创新。它的自筹资金地位和高薪(对于一些研究人员来说,每年超过130万美元)吸引了顶级中国人才。尽管对AI开发进行了5亿美元的投资,但其简化的结构可以有效地创新。
图像:ensigame.com
尽管DeepSeek的成功展示了资金庞大的独立AI公司的潜力,但“革命预算”主张具有误导性。真正的成本要高得多,但仍然比诸如Chatgpt4o这样的竞争对手要少得多,据报道,培训的成本为1亿美元,而DeepSeek的R1为500万美元。尽管其大量投资,但差距强调了DeepSeek的效率。