不用GPU!硅谷Groq大模型横空出世,能否挑战英伟达?

2024年02月21日 18:39   21世纪经济报道 21财经APP   张赛男

21世纪经济报道记者张赛男 上海报道 AI圈卷疯了。

人们还没从视频生成模型Sora带来的震撼中回过神来,硅谷AI芯片初创公司Groq的大模型又引发了市场热烈讨论,其主打一个“快”,每秒能输出500个token(注:语言模型中用来表示最小文本单元)。相比之下,Chat GPT-3.5每秒生成速度为40个token。

在大模型产品多如牛毛的当下,Groq为何得以爆火?

其最大的亮点在于独特的技术路径。不同于广泛使用英伟达GPU的大模型产品,Groq团队为其大模型量身定制了专用芯片(ASIC),这一芯片能在速度上取胜的核心技术是其首创的LPU(Language Processing Unit)技术。

“天下苦英伟达久矣”,自大模型兴起以来,英伟达的GPU芯片一卡难求,算力短缺成为很多AI企业面临的难题。而如今Groq横空出世,不仅绕开了GPU,还能实现更快的计算速度,无疑让市场倍感兴奋。

Groq的AI芯片到底和GPU有何不同?能否实现“平替”英伟达?

主打一个“快”

据介绍,Groq的芯片采用14nm制程,搭载了230MB大静态随机存储器(SRAM)以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

如何直观地感受其运算效率?据称,Groq在大语言模型任务上彻底击败了GPU——比英伟达的GPU快10倍,而成本仅为GPU的10%,且只需要GPU十分之一的电力。

Anyscale的LLMPerf排行也显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。

为了证明自研芯片的能力,Groq在官网发布了免费的大模型服务,包括三个开源大模型,Mixtral 8×7B-32K、Llama 2-70B-4K和Mistral 7B-8K,目前前两个已开放使用。

Groq火箭般的生成速度,让市场侧目,也吸引网友纷纷测评。

据网友测试,面对300多个单词的“巨型”prompt(AI模型提示词),Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划。此外,Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在体验Groq后称赞其快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。更令人惊讶的是,其超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

Groq能实现上述功能的核心技术在于首创的LPU,那么对这一技术该如何理解?

据社交媒体X上与Groq关系密切的投资人k_zeroS分享,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。不同于英伟达 GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用HBM,它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

科技投资专家、首建投合伙人王嘉宁在接受21世纪经济报道记者采访时表示,“LPU架构与GPU使用的SIMD(单指令,多数据)不同,它的推理引擎是一个端到端系统,专为需要大量计算和连续处理的应用(如大语言模型)设计。LPU的设计允许更有效地利用每个时钟周期,确保一致的延迟和吞吐量,并降低复杂调度硬件的需求。”

“平替”英伟达?

“快”字当头,Groq的大模型可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。

作为“AI卖铲人”,英伟达在这一波AI热潮中赚得盆满钵满,其GPU芯片价格一再被炒高,但仍一卡难求,因此在这场战役中,“天下苦英伟达久矣”的呼声一直高亢。如果Groq的LPU架构能“弯道超车”,显然为业内乐见。据悉,该公司的推理芯片在第三方网站上的售价为2万多美元。

不过,想要“平替”英伟达GPU可并不容易,从各方观点来看,Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

对比LPU和GPU的优劣,天使投资人、资深人工智能专家郭涛对21世纪经济报道记者进一步分析,“性能方面,对于特定任务,比如深度学习中的矩阵运算,LPU可能提供更高的吞吐量和更低的延迟;通用性方面,GPU设计用于处理各种并行计算任务,而LPU可能更专一,这既是优势也是劣势。生态系统和软件支持方面,GPU拥有成熟的生态系统和广泛的软件支持,而新出现的LPU可能需要时间来建立相应的支持。”

深度科技研究院院长张孝荣认为:“尽管LPU在某些方面可能无法与为广泛图形处理任务设计的英伟达GPU直接竞争,但在特定的AI领域,尤其是语言大模型推理方面,LPU具备不小的应用潜力。”

虽然市场上对GPU的主导地位有所不满,但受访专家普遍认为,LPU要完全取代GPU并非易事。

郭涛认为,“英伟达的GPU不仅性能强大,而且拥有庞大的用户基础和生态系统。随着AI和深度学习的不断发展,对专用芯片的需求也在增长。不过,LPU和其他ASIC提供了一种可能性,可以在特定领域内挑战GPU的地位。”。

当前,随着AI技术的发展和市场需求的变化,各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现,它们在各自擅长的领域内展现出了挑战GPU的可能性。“不过,要实现大规模的市场替代还需要解决生态建设、兼容性、成本效益等诸多问题。”王嘉宁说。

关注我们