大模型时代 云生态跃迁

2024年09月27日 05:00   21世纪经济报道   杨清清

大模型热潮已持续近两年。

当度过最初的兴奋、回归现实之时,许多从业者、开发者感到失落与迷茫,甚至对未来前景开始有所怀疑。

“因为人们总是高估技术的短期价值,却低估技术的长期价值。”在9月25日举办的2024百度云智大会上,百度创始人李彦宏指出。在他看来,大模型是一次颠覆式的技术革命,长期前景非常乐观。

不过坦言之,大模型落地仍存在诸多挑战。在底层基础设施方面,科技大佬们“英雄所见略同”,从此前的万卡集群到近期讨论日盛的“十万卡集群”,“堆算力”成为共同选择。应用落地方面,今年以来大模型厂商掀起“价格战”,但单纯比拼降价幅度难言“触及灵魂”,开发者还有更多的应用开发需求。

如今,“十万卡时代”的临近,叠加大模型应用的序幕,云厂商能够扮演怎样的角色?

图片来源:IC photo

十万卡时代降临

单点万卡集群,让生成式AI成为绝对头部玩家“权力游戏”的同时,也让大模型厂商承受着算力利用率低下、“停下即烧钱”的“难言之痛”。

但现在,万卡集群“病灶未除”,“十万卡时代”却开始逼近。

9月初,特斯拉CEO埃隆·马斯克突然宣布,旗下人工智能初创企业x.AI打造的超级人工智能训练集群Colossus(巨人)正式上线。该算力集群拥有10万张英伟达H100 GPU,并将在未来几个月内继续增加10万颗GPU。

国内科技巨头亦闻风而动。

在日前结束的云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭指出,阿里的单网络集群已扩展至十万卡级别。

“很快就会有更多的十万卡集群出现。”9月25日,在2024百度云智大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖判断称。

事实上,在大模型领域,拥有著名的第一性原理,即尺度定律(Scaling Law)。简单理解就是,随着模型大小、数据集大小和用于训练的计算浮点数的增加,模型的性能会相应提升,并且要想获得最佳性能,这三个因素需要同时放大。

这个定律仍在延续。据估算,自2012年以来,AI模型训练算力需求每3至4个月就翻一番,每年训练AI模型所需算力增长幅度高达10倍。因此也就不难理解,当前各大科技巨头进军“十万卡集群”的缘由。

然而,从万卡到十万卡并非简单的算力堆叠,两者之间的管理存在本质区别。

“要部署十万卡的大规模集群,光是在物理层面就要占据大约10万平方米的空间,相当于14个标准足球场的面积。”沈抖透露,“在能耗方面,这些服务器一天就要消耗约300万千瓦时的电力,相当于北京市东城区居民一天的用电量。”

如此种种,对空间与能源提出了巨大需求,远远超过了传统机房部署方式所能够承受的范畴,跨地域机房部署成为不得已而为之的选择,但这又带来网络层面的巨大挑战。

与此同时,还有运维方面的难点。事实上,即便是当前的万卡集群中,运维的复杂性已急剧增加。根据Meta披露的研究数据显示,使用了1.6万张GPU的Llama 3.1训练持续54天,在此期间集群遭遇419次意外组件故障,平均每3小时发生一次。

而集群规模提升至十万卡,发生故障的概率无疑会更高。“大模型训练是一个庞大的单一任务,需要齐步走。一个节点出错,整个集群就得停下、回滚到上一个记忆点。”沈抖解释称,“每停一分钟,都是白白烧钱。”

在接受包括21世纪经济报道在内的媒体采访时,百度杰出系统架构师、百度智能云AI计算部负责人王雁鹏指出,2024年很多企业加大了在大模型领域的投入,但大家在大模型训练时遇到了一个共性问题,那就是算力利用率很低。“目前企业训练大模型的算力有效利用率不足50%,这意味着,一半以上的算力被浪费了。”

这也为“十万卡时代”的算力建设提供了另一种思路。除了大干快上“圈地”算力池之外,提升算力的有效利用率成为首选项。

百度所升级的百舸4.0平台,正是面向万卡、十万卡集群全面提升算力管理能力。不仅在集群创建阶段可将万卡集群运行准备时间从几周缩短至1小时,还能够在模型训练阶段,通过AI算法判断集群状态“未雨绸缪”,和故障发生时实现秒级感知和定位进行快速处理,从而实现接近无损的集群容错。此外,百舸4.0还能够通过一系列加速方法,实现模型推理的降本增效。

就此,沈抖给出了一组数据:目前在万卡任务上,百舸4.0可以保障有效训练时长占比达到99.5%,远高于行业内公布的相关指标;在集群的模型训练效率方面,百舸4.0整体性能比业界平均水平提升了高达30%;在模型推理方面,百舸4.0长文本推理效率提升超过1倍。

而面对十万卡集群,百舸4.0已经构建了超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖指出。

应用序幕拉开

考虑到GPU采购及运营的成本问题,提升算力的有效利用率,换个理解,就是省钱。

这与当前业界“不算眼前账”、“烧钱”降价带动应用爆发的思路有所不同。有开发者向21世纪经济报道记者指出,过去一年内,大模型的降价更多是由平台补贴所致,但这并不能解决本质上的问题。

通过提升算力有效利用率,百度智能云正在持续降低模型调用成本。沈抖介绍,过去一年,文心旗舰大模型降价幅度超过90%、主力模型全面免费,最大限度降低企业创新试错的成本。

不过,相较于别的厂商而言,本次百度云智大会的重点显然并未落在降价身上,而是放在了推动大模型落地的需求满足方面。

沈抖透露,进入2024年,百度智能云的许多客户已经开始将大模型落地在自身的生产力场景中。目前在千帆平台上,文心大模型日均调用量超过7亿次,千帆平台累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。

“这不仅反映了千帆平台上大模型的调用量,也是过去18个月整个国内大模型产业发展的一个缩影。”沈抖指出。

但在沈抖看来,这只是一个序幕。“我们相信,大模型给每个企业提供了平等的增长机会。不管企业大小、场景多少,谁先用起来,谁就抢占先机。”

具体而言,下游企业与开发者要真正用上大模型、用好大模型,离不开便捷、高效的大模型工具链和应用开发平台。就此,百度智能云发布千帆大模型平台3.0。

据介绍,升级后的千帆平台,不仅可以调用包括文心系列大模型在内的近百个国内外大模型,还支持调用语音、视觉等各种传统的小模型。同时在模型开发方面实现数据、模型、算力等资源的统一纳管和调度,为企业提供一站式的大、小模型开发服务。

在应用开发方面,针对企业落地大模型的高频应用场景,千帆3.0从检索效果、检索性能、存储扩展、调配灵活性四方面对企业级检索增强生成(RAG)进行了全面升级;针对企业级智能体的开发,千帆3.0增加了业务自主编排、人工编排、知识注入、记忆能力以及百度搜索等80多个官方组件支持。

众多AI应用的发展方向,李彦宏直言最看好智能体,并将之视为PC时代的网站和自媒体时代的账号。

李彦宏表示,智能体最明显的特点是门槛足够低,谁都能上手,但同时天花板又足够高,可以做出非常复杂,非常强大的应用。未来,将会有数以百万量级的智能体出现,形成庞大的智能体生态。

值得一提的是,在今年百度举办的“文心杯”创业大赛中,有超过60%参赛团队聚焦智能体的应用,超过30%参赛团队没有专业程序员。

不过,目前智能体还并非业界共识。“像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。”李彦宏坦言道。

智能云演进

大模型时代需要怎样的云?百度通过云智大会,给出了自己的答案。

而这,也是百度云借道大模型爆发,从而抢占市场的思路。

目前,从绝对市场份额来说,百度智能云并不算有优势。根据Canalys披露的最新数据,2024年第二季度,中国大陆云基础设施服务支出达到94亿美元,同比增长8%。阿里云、华为云和腾讯云继续主导市场,共占71%的市场份额。

不过从增速而言,百度云正在追赶中。在百度2024年第二季度财报电话会上,李彦宏透露,百度智能云在本季度营收达51亿元,同比增长14%,并持续实现盈利(Non-GAAP)。

相较之下,阿里云第二季度营收增长6%,华为云13%,腾讯云未直接披露收入增速。

之所以智能云能够实现超出市场的增长,与百度AI大模型能力密不可分。随着文心大模型及文心一言的发布,百度在AI领域进一步巩固、拓展了自身的优势领域。而生成式AI及大语言模型的能力,又转而增强了百度在云端的竞争优势。

因此也就不难理解,受益于大模型训练及推理需求等,百度智能云业务收入实现可观增长。根据百度方面披露的数据,今年二季度智能云收入中,AI贡献的收入占比进一步提升至9%,高于上一季度的6.9%。

根据IDC发布的《中国大模型平台市场份额,2023:大模型元年—初局》显示,2023年中国大模型平台及相关应用市场规模达17.65亿元,百度智能云在2023年大模型市场规模达3.5亿元,位居市场第一,市场份额达19.9%。

海通国际研报认为,百度此次云智大会展现了其在大模型赛道全线的能力。百度一直在持续迭代并巩固其行业领先的地位。尽管商业化前景尚不明确,但随着宏观经济好转,大模型大规模商用的时间节点到达,百度有望凭借其先发优势,在广告、智能体、模型训练推理、智能云部署方面率先获得增量收入。

关注我们