但是,它仍然比竞争对手便宜。
DeepSeek的新聊天机器人以有趣的介绍向我致意:
嗨,我是被创建的,所以您可以问任何问题,并得到一个甚至可能让您感到惊讶的答案。
如今,DeepSeek的AI已成为市场上强大的参与者,尤其是NVIDIA最大的股票价格下跌之一。
图片:ensigame.com
该模型的区别是其创新的体系结构和培训方法,其中包括:
多语预测(MTP):此技术允许模型通过分析句子的各个部分同时预测多个单词,从而提高了准确性和效率。专家(MOE)的混合物:利用256个神经网络,每个令牌处理任务都激活了8个,该体系结构加快了AI训练并增强了性能。多头潜在关注(MLA):通过重点关注句子的最重要部分,MLA减少了忽略关键信息的机会,从而捕捉了输入数据中的必不可少的细微差别。Deepseek,著名的中国初创公司声称,他们在最小的成本中开发了一种竞争性的AI模型,他们仅在20亿美元上使用了600万美元的培训。
图片:ensigame.com
然而,半分析的分析师表明,DeepSeek拥有大量的计算基础设施,其中约有50,000个NVIDIA HOPPER GPU,其中包括10,000 H800单位,另外10,000 h100s和其他H20 GPU。这些资源分布在多个数据中心,用于AI培训,研究和财务建模。
该公司对服务器的总投资约为16亿美元,运营成本估计为9.44亿美元。
DeepSeek是中国对冲基金High-Flyer的子公司,该基金在2023年推出了该初创公司,该初创公司于2023年以独立的AI为重点部门。与大多数从云提供商租用计算能力的初创公司不同,DeepSeek拥有其数据中心,从而使对AI模型优化和快速创新实施完全控制了其数据中心。该公司仍然是自筹资金的,这提高了其敏捷性和决策速度。
图片:ensigame.com
此外,一些DeepSeek研究人员每年收入超过130万美元,吸引了领先的中国大学的顶尖人才(该公司不聘请外国专家)。
尽管如此,DeepSeek最近声称以600万美元的价格培训其最新模式的主张似乎是不现实的。该图仅说明在预培训期间使用GPU,并排除了研究费用,改进,数据处理和整体基础设施成本。
自开始以来,DeepSeek已在AI开发方面投资了超过5亿美元。但是,与较大,更官僚的公司相比,其规模较小,使其能够更积极,有效地实施AI创新。
图片:ensigame.com
DeepSeek的案子表明,一家资金充足的独立AI公司可以挑战行业巨头。尽管如此,专家们强调,公司的成功很大程度上是由于大量投资,技术突破和强大的团队,而不是AI模型开发的“革命性预算”。
尽管如此,竞争对手的成本仍然更高。例如,DeepSeek在R1上花费了500万美元,而Chatgpt4o的售价为1亿美元。