中国战略新兴产业融媒体记者 艾丽格玛

2024年12月26日,深度求索(DeepSeek)发布了其最新人工智能大模型DeepSeek V3,并同步开源。

这两年来,每家AI公司都会对自己的AI大模型不断进行迭代更新,这已不是什么新闻。然而,DeepSeek V3的发布却在圈内外引发了热烈的讨论,引发了极大的关注。

据称,DeepSeek V3拥有6710亿参数的混合专家模型(MoE)在多项基准测试中表现优异,超越了Llama 3.1 405B等开源模型,并与GPT-4o、Claude 3.5 Sonnet等闭源模型分庭抗礼。

而更引人注意的是,根据公开消息,其训练成本仅为557.6万美元,远低于GPT-4o等模型的10亿美元预算。DeepSeek V3的训练方式与算法优化,显著降低了训练和推理大模型对高端硬件的需求——这背后隐含的可能性是,通过软件优化,可以在有限硬件资源下实现顶尖性能。

这一点,可以使得AI大模型大大减少对高端GPU的依赖,甚至有人认为,这套训练算法将对“卖铲子”的英伟达等硬件供应商带来巨大的动荡。

01

低成本高性能,怎么做到?

DeepSeek官方在其同步开源的53页DeepSeek V3模型论文中提到,DeepSeek V3的生成速度达到每秒60个token,API价格仅为Claude 3.5 Sonnet的1/53。

在知识类任务(包括MMLU、MMLU-Pro、GPQA和SimpleQA)上,DeepSeek V3的表现优异,已经接近于当前表现最好的模型,即Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024和MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek V3的表现大幅超过了其他所有开源和闭源模型。

刷屏的DeepSeek,抄了英伟达的“老底”?

>> DeepSeek开源的文档

同时,DeepSeek V3的生成速度从20TPS(每秒完成的事务数量)提高至60TPS,相比V2.5模型实现了3倍的提升。

这种“低成本≠低性能”的特点,正是DeepSeek V3热度的来源。

那么,这种绕过硬件掣肘,从算法上大幅降低成本的路径,究竟是如何达成的?

首先,在架构方面,DeepSeek V3采用了混合专家架构(Mixture-of-Experts, MoE),包含256个专家,每次计算选取前8个最相关的专家参与。

想象一下,有一个机器人,它有很多小助手,也就是“专家”。总共有256个专家,每个专家都擅长做不同的事情。现在,假设机器人要解决一个问题,它不需要让所有的专家都来帮忙,因为那样会浪费时间和精力。相反,它会从这些专家中挑选出最厉害的8个专家来帮忙。这些被选中的专家是最适合解决这个问题的,所以它们可以又快又好地完成任务。这种混合专家架构就像是一个聪明的管理者,总是能选出最合适的人来完成任务,也就可以减少不必要的计算和内存消耗。

MoE通过动态选择部分专家模型处理输入,减少了不必要的计算开销,显著提升了训练和推理效率,例如,谷歌的Gemini 1.5就采用了MoE架构,通过路由机制将请求分配给多个专家模型。

但是,MoE模型仍然有些问题。例如,训练过程较为复杂,尤其是门控网络的设计和专家模型的负载均衡问题,可能导致训练不稳定;MoE需要将所有专家模型加载到内存中,显存需求较高,限制了其在资源受限设备上的部署;同时,在分布式计算环境中,MoE模型的专家模型可能分布在不同的计算节点上,导致通信开销较大,影响整体效率。

MoE的选择机制可能导致某些专家被频繁调用(过载),而其他专家则很少被使用(欠载)。这种负载不均衡会降低模型的整体效率,甚至影响性能。

为了解决这个问题,传统方法通常会引入辅助损失(Auxiliary Loss),通过惩罚负载不均衡的情况来强制均衡专家的使用频率。然而,辅助损失本身可能会对模型的主任务性能产生负面影响,因为它会干扰模型的优化目标。

因此,DeepSeek V3在混合专家(MoE)架构中,引入了无辅助损失的负载均衡策略,通过动态调整专家偏置值,确保每个专家负载均衡,避免了传统辅助损失对模型性能的负面影响。

具体来说,DeepSeek V3根据每个专家的历史使用频率,实时调整其偏置值(Bias)。如果某个专家被频繁调用,其偏置值会被降低,从而减少其被选择的概率;反之,如果某个专家很少被调用,其偏置值会被提高,增加其被选择的概率。

由于没有辅助损失的干扰,模型能够专注于主任务优化,从而提升整体性能。而且,动态调整偏置值的计算开销较低,不会显著增加模型的计算负担。同时,避免了辅助损失可能导致的训练不稳定问题,使模型更容易收敛。

这种无辅助损失的负载均衡策略,是DeepSeek V3独有的。

另外,在传统的Transformer架构中,多头注意力机制(Multi-head Attention, MHA)是核心组件之一。MHA通过并行计算多个注意力头,捕捉输入序列中的不同特征。然而,MHA需要存储大量的键(Key)和值(Value)矩阵,尤其是在处理长序列时,内存需求呈平方级增长。而且MHA的计算复杂度与序列长度的平方成正比,导致在处理长文本时效率较低。DeepSeek V3使用的MLA通过引入低秩联合压缩技术,将键和值矩阵压缩为潜在向量(Latent Vectors),这就可以帮它大大减少内存占用和计算开销。

除了这些,DeepSeek V3还自创了一种DualPipe流水线并行算法,这也是其高效训练框架中的一项关键技术。

在训练大规模AI模型时,通常需要将计算任务分配到多个GPU或节点上进行分布式训练。然而,分布式训练面临两个主要挑战: 计算与通信的串行化:在传统流水线并行中,计算和通信操作通常是串行进行的,即在进行通信时,计算资源处于空闲状态,导致资源浪费; 通信开销:在跨节点训练中,数据传输(如梯度同步)会占用大量时间,成为训练效率的瓶颈。

DeepSeek V3的DualPipe流水线并行算法通过将计算与通信时间完全重叠,最大化硬件资源的利用率,从而显著提升训练效率。DualPipe算法将训练过程分为两条独立的流水线:计算流水线和通信流水线。 计算流水线负责模型的前向传播和反向传播,而通信流水线负责跨节点的数据传输(如梯度同步)。这两条流水线可以并行运行,互不干扰。

DualPipe流水线并行算法在实际应用中取得了显著效果,通过将计算与通信时间完全重叠,DualPipe算法将硬件资源的利用率提升到了接近100%。而且,由于计算和通信并行进行,训练时间显著缩短,尤其是在大规模分布式训练中效果更为明显。通过优化通信内核和充分利用高速网络带宽,DualPipe算法将通信开销也降到了最低。

此外,在深度学习训练中,传统的浮点数精度通常是32位(FP32)或16位(FP16)。混合精度训练通过在不同计算阶段使用不同精度的浮点数(如FP16和FP32),在保持模型性能的同时,减少内存占用和计算开销。然而,随着模型规模的不断增大,FP16和FP32的计算和存储开销仍然较高。

为了进一步优化资源利用,DeepSeek V3引入了FP8混合精度训练。FP8是一种8位浮点数格式,其存储和计算开销仅为FP16的一半,FP32的四分之一。包括Llama系列、Mixtral 8x7B、Inflection-2、零一万物的双语LLM模型以及COAT框架下的模型,都通过FP8技术显著提升了训练效率和资源利用率,同时保持了模型性能。

DeepSeek V3还采用了多令牌预测目标(Multi-Token Prediction, MTP),在训练过程中,模型不仅预测下一个令牌,还同时预测后续的多个令牌。例如,给定输入序列“我喜欢吃”,模型可能同时预测“苹果”“香蕉”“与/和”等多个令牌。这种密集的训练信号显著提高了数据利用率,减少了训练所需的样本数量。在推理阶段,模型能够同时生成多个令牌,从而加速文本生成过程。

DeepSeek V3的开源策略引发了全球开发者的广泛关注。OpenAI创始成员Karpathy称赞其“让在有限算力预算上进行模型预训练变得容易”。Meta科学家田渊栋则惊叹其训练技术为“黑科技”。最重要的是,这一策略降低了技术门槛,为中小企业和初创公司提供了低成本的高性能AI解决方案。

刷屏的DeepSeek,抄了英伟达的“老底”?

>> DeepSeek-V3的基本架构示意图。在DeepSeek-V2的基础上,采用了MLA(多头潜在注意力)和DeepSeek MoE,以实现高效的推理和经济高效的训练。

整理总结可以发现,DeepSeek V3不论是采用现有的技术,还是独创自己的路线,都另辟蹊径。这或许与它的母公司和创始人的调性脱不开干系。

02

“不务正业”的私募巨头

深度求索(DeepSeek)公司的成立和发展,与量化私募巨头幻方量化有着密切的关系。

深度求索成立于2023年7月17日,创始人就是幻方量化的创始人梁文锋。

幻方量化是中国知名的量化私募公司,专注于利用算法和高性能计算进行金融投资,幻方量化为深度求索提供了强大的资源支持。

彼时,幻方量化是“大厂”外唯一一家储备万张A100芯片的公司,这些高性能计算集群和资金投入使得深度求索能够在短时间内推出高性能的大模型。

DeepSeek一跃成名,起因是他们此前发布的DeepSeek V2开源模型:DeepSeek V2的推理成本在当时就被降到每百万token仅 1块钱,约等于Llama3 70B的1/7,GPT-4 Turbo的1/70——DeepSeek因而被称作“AI界拼多多”。

在低成本的压力下,字节、腾讯、百度、阿里的大模型开始纷纷降价——可以说,中国大模型“价格战”由此而始。

受到影响的不只是国内的“大厂”,有不少圈内人士都受到了DeepSeek开源内容的启发。例如,OpenAI前员工Andrew Carr从DeepSeek-V2论文中获取灵感,将其训练设置应用于自己的模型。

刷屏的DeepSeek,抄了英伟达的“老底”?

在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇用了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量”。

有人认为,这种强烈的反响源自架构层面的创新,这是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。

创始人梁文锋早年就读浙江大学电子工程系人工智能方向,无比笃信“人工智能一定会改变世界”。

在接受“暗涌”的采访时,梁文锋说:“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。”“中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”

梁文锋在说到成本路线时,表示很意外:“我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”“我们降价,一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”

幻方量化作为量化私募巨头,“囤”了大量的芯片。这也是DeepSeek得以起步的重要基础。实际上,量化交易需要处理海量数据并进行实时分析,这与AI大模型的训练和推理需求高度契合。幻方量化在高性能计算和分布式系统上的经验,可以直接应用于大模型的开发。同时,量化交易中的算法优化技术(如深度学习、强化学习)与大模型训练中的优化策略(如混合专家架构、FP8混合精度训练)有共通之处。这些技术可以相互借鉴,提升效率。

不过,幻方本身的交易成绩和盈利情况在近年来却经历了显著波动,尤其是在2024年。2024年,幻方量化的量化中性策略(如DMA策略)因市场波动和监管政策调整(如融券和T+0功能的限制)遭遇了显著回撤。例如,幻方旗下的“慧冲10号A期”在2024年亏损5.36%,近1个月亏损1.33%。2024年初,小微盘股出现流动性危机,导致幻方的量化指增策略(如中证500指增)也受到较大影响。例如,其代表性产品“九章量化多策略1号”在2024年1月至2月期间最大回撤达34.55%。截至2024年7月,幻方量化的旗舰产品“中证500量化多策略”近三年收益率为-12.58%,年内净值收益为-10.07%,与同期中证500指数收益(-10.26%)基本持平。幻方管理的资金规模也从千亿元级的峰值大幅缩减至几百亿。

尽管2024年表现不佳,幻方量化在2021年及之前曾取得显著超额收益。据了解,其以指数增强策略为主,通过全市场选股、日内交易和科创板打新等策略获取超额收益。此前,幻方通过多空对冲(如多股票、空股指期货)获取稳定收益,并且是中国首家管理规模突破千亿的量化私募公司。

为了在投资之外做更多的研究,搞清楚“什么样的范式可以完整地描述整个金融市场、有没有更简洁的表达方式、不同范式能力边界在哪、这些范式是不是有更广泛适用”之类的问题,幻方从2012年起,就开始关注到算力的储备,并有意识地去部署尽可能多的算力。

墙内开花墙外香,可以说,虽然资金规模缩水、业绩表现有争议,但幻方“歪打正着”的开源大模型反而在AI界内掀起了一阵又一阵的巨浪。

03

抄了硬件供应商的“老底”?

DeepSeek V3在仅使用2048块NVIDIA H800 GPU的情况下,完成了6710亿参数模型的训练,成本仅为557.6万美元,远低于其他顶级模型的训练成本(如GPT-4的10亿美元)。

这意味着,AI大模型对算力投入的需求可能会从训练侧向推理侧倾斜,即未来对推理算力的需求将成为主要驱动力。而英伟达等硬件商的传统优势更多集中在训练侧,这可能会对其市场地位和战略布局产生影响。

训练是指使用大量数据训练AI模型的过程,通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成,耗时较长,成本高昂。推理是指将训练好的模型应用于实际任务(如生成文本、识别图像、推荐商品等),通常需要低延迟和高吞吐量。推理过程可以在云端或边缘设备(如手机、自动驾驶汽车)上进行。

为什么推理算力需求会成为主要驱动力?

随着各类大模型的成熟,许多企业和开发者可以直接使用预训练模型,而不需要从头训练。例如,GPT-4和本文所述的DeepSeek V3等模型已经提供了强大的通用能力。对于特定任务,企业通常只需对预训练模型进行微调,而不需要大规模训练,这减少了对训练算力的需求。

与之相对地,生成式AI在文本生成、图像生成等领域的应用迅速扩展,推理需求激增。例如,ChatGPT每天处理数百万用户的请求,需要强大的推理算力支持。在自动驾驶、智能家居、工业互联网等领域,推理需要在边缘设备上实时完成,这对低功耗、高性能的推理硬件提出了更高要求。

训练大模型需要数千甚至数万块GPU,成本高达数百万美元。例如,GPT-4的训练成本估计超过1亿美元。推理对算力的需求远低于训练,但规模更大。ChatGPT的推理成本虽然低于训练,但由于用户量巨大,总体算力需求仍然很高。

英伟达的GPU(如A100、H100)在训练大模型时表现出色,提供了强大的计算能力和显存带宽。例如,GPT-3的训练使用了数千块英伟达V100 GPU。英伟达的CUDA平台还为开发者提供了丰富的工具和库,简化了大规模模型训练的开发过程。所以在训练侧,英伟达的优势几乎是压倒性的。

不过,在推理侧,英伟达的GPU能效比相对较低,尤其是在边缘计算场景中,功耗和成本成为瓶颈。以OpenAI为例,虽然它使用英伟达GPU支持ChatGPT的推理,但也在探索专用推理硬件以降低成本。还有特斯拉,则是使用自研的FSD芯片(基于NPU)进行推理,以满足低功耗和实时性需求。

单纯依赖硬件性能的提升已无法完全满足市场需求,而软件优化、算法创新和生态构建的重要性日益凸显。

与其说这是对硬件供应商的挑战,不如说,在当前这个“摩尔定律”显著放缓、行业面临瓶颈期的时节,这是一个转型的机遇。

随着半导体工艺接近物理极限,硬件性能的提升速度放缓,单纯依赖硬件升级难以满足AI计算的需求。而高端硬件(如GPU、TPU)的采购和维护成本高昂,且能耗较大,无论是在大规模普及中还是对于资金薄弱的中小企业来说,硬件成本费用都是一个沉重的负担。

目前看来,DeepSeek带来的最大的启示,就是通过算法优化(如混合精度训练、模型压缩、量化等),可以在不增加硬件成本的情况下显著提升计算效率。而英伟达等硬件商则更应该通过提供软件工具和框架(如CUDA、TensorRT),构建开发者生态,从单纯的硬件销售转向提供综合解决方案(如云服务、AI平台)。

例如,英伟达通过CUDA平台为开发者提供了丰富的工具和库(如cuDNN、cuBLAS),简化了AI模型的开发和优化过程。尽管AMD、英特尔等公司推出了类似平台(如ROCm、oneAPI),但它们在性能和生态成熟度上仍无法与CUDA匹敌。

SemiAnalysis创始人迪伦·帕特尔(Dylan Patel)指出,英伟达的竞争优势就在于其软件和硬件的紧密结合,CUDA的高效性和易用性使得英伟达在AI芯片市场占据了主导地位。英伟达CEO黄仁勋也认为,CUDA正是英伟达从图形处理器公司转型为全球计算巨头的关键。

可以预见,未来硬件商将开发更多专用AI硬件(如NPU、TPU),并通过算法与硬件的协同设计,进一步提升计算效率和能效比。软硬件协同优化和综合解决方案是未来发展的重要路径。

声明:该文观点仅代表作者本人,本信息平台不持有任何立场,欢迎在下方【顶/踩】按钮中亮出您的态度。