21世纪经济报道记者白杨 北京报道
近日,HuggingFace、Github等开源社区又迎来大模型新品上架。
11月5日,腾讯宣布开源“Hunyuan-Large”以及“ Hunyuan3D-1.0”两个大模型。前者是大语言模型,总参数量为389B,这也是目前开源领域参数规模最大的MoE模型;后者则是业界首个同时支持文字、图像生成3D的开源大模型。
今年,业界关于大模型要不要开源曾出现过意见分歧。百度创始人李彦宏明确表示,大模型开源没有闭源好,开源大模型会越来越落后。
但也有一众行业人士支持开源,认为许多技术的发展都得益于开源,这有利于整个行业发展。而腾讯,是开源坚定的拥护者。
目前,腾讯已经把开源作为混元大模型的一个战略选择,未来也将持续推出更多模态、更多尺寸的开源模型。
腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉向21世纪经济报道记者表示,腾讯的大模型不会为了开源而开源,而是要把那些已经在业务场景中得到历练和打磨的东西拿出来,所以腾讯开源的大模型都是公司内部在用的模型。
据其透露,腾讯此次开源的是模型参数权重,不涉及数据和代码,下一步,腾讯计划把训练代码也进行开源。
架构选择
在此次开源的模型上线后,HuggingFace首席科学家Thomas Wolf也对Hunyuan-Large进行了评价,认为该模型有三个亮点:
一是数学表现强劲;二是使用了大量合成数据(在7万亿tokens中,有1.5万亿来自合成数据);三是深入的专家混合(MoE)训练,包括使用共享专家以及总结了MoE的Scaling Law等。
今年年初,腾讯混元完成了架构升级,从原先的Dense架构升级为MoE架构,并将模型扩展至万亿级参数规模。
MoE架构的核心逻辑是将输入数据分配给最适合处理该数据的专家。所以,这种架构允许模型通过增加专家的数量来扩展,从而提供模型处理特定任务的能力。
更重要的是,MoE架构在处理输入数据时,只要激活少数专家模型,其他大部分专家模型都会原地待命,静待自己擅长的领域到来。
所以,MoE是一种更高效的模型,它在拥有很大参数的同时,只需要很小的实际激活量就可以完成任务,进而显著降低训练和推理成本。比如Hunyuan-Large,总参数量是389B,但它的激活参数量是52B。
康战辉表示,在相同成本下,MoE的效果会优于dnese模型。但他也表示,这并不意味着完全放弃了Dense架构,“在一些比较小的场景,不需要太大的模型参数时,dense模型还是具有一定竞争力的。”
不过,MoE架构也带来了更多的挑战。在Dense架构中,模型变量很少,而MoE架构要考虑专家激活量,比如专家选多大、选几个以及怎么激活,这些就涉及非常多的参数变量。
过去一年半,腾讯投入大量成本,全面探索了MoE架构下大语言模型中专家个数、激活参数量和训练tokens之间的ScalingLaw关系。腾讯这次开源最大的价值,就是把这些必须投入大量成本才能喂出来的经验都开放了出来。
合成数据是趋势
除了总结MoE架构的ScalingLaw之外,腾讯在此次开源模型中还着重强调了合成数据。
康战辉告诉记者,合成数据已经成为大模型的一个共识。“过去的AI训练还是以自然数据为主,但随着模型越来越大,尤其是采用MoE架构后,它的参数可以做的非常大,自然数据已经跟不上模型的增长需求了。”
业界有种说法是,到2026年,自然数据将被大模型全部用完。而解决数据枯竭问题的重要方法,就是使用合成数据。
有预测数据显示,到2030年,人工智能使用的合成数据将超过自然数据,这将大大缓解数据短缺的问题。
康战辉表示,除了从总量角度需要合成数据,在一些特定的训练场景,使用合成数据也是必然趋势。“比如数学数据,如果只有问题和答案,没有解题过程,这种数据就无法用于训练,所以需要通过合成的方式获得解题过程。”
因此,对于大模型训练而言,有些数据是天然缺失的,如果想提升,就只能利用合成数据。康战辉称,腾讯目前对合成数据的应用,就主要侧重于对专项数据的补充。
对于合成数据,业界也有担忧,认为大量使用合成数据训练大模型,可能会导致模型崩溃。对此,康战辉认为,现在我们认为的自然数据,很多也是过去用其他工具合成的数据,所以使用合成数据肯定没问题,关键是看怎么用。
“我认为合成数据最重要的,是要有一套完整的数据获取、评估、清洗链路,进而保证合成数据的质量可控,这样合成数据就能发挥它的价值。”康战辉说。