21世纪经济报道记者孔海丽 北京报道
OpenAI的圣诞节惊喜比原定多持续了一天,第13天,OpenAI CEO 塞姆·奥特曼(Sam Altman)宣布,圣诞假期期间为所有plus用户提供无限次使用Sora的机会,这原本是月费200美元的Pro用户才有的待遇。
连续12天的新品发布中,OpenAI先后拿出了完整版o1、加强版Sora、ChatGPT Search、电话功能、新模型o3。
尤其是o3,被评为OpenAI的“大杀器”,也就是推理模型o1的第二代。为了避开与英国知名电信运营商o2可能的知识产权纠纷,OpenAI推理模型系列跳过o2,直接命名为o3。
但OpenAI的ChatGPT-5却迟迟不见动静。据知情人士透露,该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果——Scaling Law的暴力美学似乎已经遇到瓶颈,更大的参数、更多的数据,已经不能为AI大模型带来质的飞跃。
当扩大AI大模型的训练规模失去“高回报”,OpenAI强调推理时间、思考时长的o系列,会是解题思路吗?
被低估的推理路线
OpenAI o系列发布时,就有观点认为,“当大模型具备了‘思考’能力,通往AGI再也没有障碍”。如今,o3较o1获得大幅进步,也再次证明了增加推理时间是一条有效路径。
OpenAI知名研究员、o1研究团队的核心科学家诺姆·布朗(Noam Brown)近期表达了对“推理时计算”技术的乐观期待。
所谓“推理时计算”技术,是扩展推理过程中的计算量,让大模型能够在推理阶段进行更深入的思考和计算,从而解决更复杂的问题。
诺姆·布朗认为,在Scaling Law法则下,通过扩大预训练规模来提升模型性能虽行之有效,但其所伴随的高昂成本问题不容忽视,并且从长远来看,这种方式必然会遭遇发展瓶颈,难以为继。而“推理时计算”技术的出现,为解决这一瓶颈提供了全新的思路,将加速AGI的到来。
o1和o3大模型是“推理时计算”技术迭代出来的大模型,可以自主学习策略、拆解任务、识别并纠正错误,更深入地推理和解决更复杂的问题。
并且,据透露,OpenAI内部也意识到了靠扩大预训练规模无法实现AGI,“推理时计算”也是他们寻找的新突破口。
“‘推理时计算’技术的意义被大大低估了,而且目前这项技术处于早期发展阶段,未来会有巨大的提升空间。” 诺姆·布朗介绍说,当大模型“思考”更长时间时,它开始展现出一些原本需要人工添加到模型中的能力,比如尝试不同的策略、将复杂问题拆解成数个子问题、识别并自我纠正错误。这也是研究人员们相信“推理时计算”是通往AGI的关键路径的原因。
o3被寄予厚望
作为推理模型的升级版,o3的多项性能表现堪称卓越,从测试成绩看称得上是碾压目前市面上的大模型。
在真实世界软件任务评估(HumanEval-Verified)中,o3编程能力的准确率为71.7%,比o1提升20%以上;在竞争性代码编程平台(Competition Code)上,评分为2727分,超过了OpenAI首席科学家的2665分,而o1为1891分。
数学推理能力方面,在美国数学奥林匹克考试(AIME)中,o3只漏掉了一个题,准确率为96.7%,在博士级科学问题测试(GPQA Diamond)中,准确率为87.7%,而人类专家的平均水平为70%。在前沿数学基准测试EpochAI Frontier Math中,准确率超过o1 10倍。
最让业界震惊的,是它在Arc AGI测试中的表现。Arc AGI是法国人工智能开发者弗朗索瓦·肖莱(François Chollet)2019年设计的,目前公认为衡量AI系统在数学和逻辑问题水平的一种权威测试。在该项测试中,o3低算力配置下的准确率为75.7%,高算力下的准确率为87.5%,而人类平均水平为85%。
这些性能表现,尤其是在Arc AGI的测试成绩,表明AI在即时学习新规则和进行推理方面,已经胜过人类。
有从业者甚至表示,OpenAI o3是通往AGI(通用人工智能)的关键一步,或者说在通往AGI的路上已经没有任何障碍。
狂热的另一面
也有不少研究者和科学家冷静看待。在o3测试中,有两个问题引起了从业人员的关注。一是太过昂贵。Arc AGI研究人员透露,在高算力配置下,o3完成每个任务需要花费3400美元。短期内,这种高昂成本是其商业化的绊脚石。
大模型训练是典型的“烧钱游戏”。据透露,GPT-4的训练成本超1亿美元,而正在研发中的GPT-5,6个月的训练仅算力成本就达5亿美元。
二是o3还会犯简单的推理错误。弗朗索瓦·肖莱认为,o3能够适应以前从未遇到过的任务,在ARC-AGI领域接近人类水平。但是,通过ARC-AGI测试拿到高分并不等同于实现AGI,“实际上,我认为o3还不是AGI。o3在一些非常简单的任务上仍然会失败,这表明它与人类智能存在根本性的差异。”
弗朗索瓦·肖莱后面的这句话,也正是一些科学家所强调的。
AI机器视觉知名学者、香港大学计算与数据科学学院院长兼数据科学研究院院长马毅说,现在的大模型只有Knowledge(知识),没有intelligence(智能),“知识是智能活动的积分,而智能是知识的微分”。GPT-4有知识,但没有智能;新生儿有智能,不一定有知识,但一个新生儿很可能变成下一代爱因斯坦。
一位在硅谷工作的AI工程师说,o3虽然多项性能表现卓越,但仍然只是OpenAI推理模型的第二代,不宜过分拔高。而且其测试样本(人数)有限,不能就此得出结论说它的智慧就已经在整体上达到甚至超越人类的专家水平。
幻觉难题待解
能思考、懂推理的人工智能,会不会犯错?
人工智能近两年的快速发展,尤其是大模型的高速迭代,涌现了一些需要重新厘定的新问题。比如,谷歌发布量子芯片Willow后,阿里云创始人王坚院士就提出,特定装置下量子计算的“计算”,与传统计算机的“计算”,是不是同一个定义,值得探索。同样,以OpenAI o3在编程和数学推理能力表现出的intelligence,与人类的intelligence,是不是同一个定义,也值得探讨。
至今仍存在的大模型幻觉问题是一项行业难题。所谓幻觉,是指大模型或垂直模型生成的部分信息,貌似合理却自相矛盾,一本正经却完全错误。这类似于人类的说谎。在金融、医疗、公共安全等领域,如果模型生成的关键信息不准确,而人工在后期又不加以甄别,可能酿成严重后果。
OpenAI 的语音转写工具Whisper 最近被曝出现较大比例的幻觉现象。密歇根大学研究员发现,Whisper 每10份音频转录中有8份出现幻觉;有机器学习工程师称其分析的超100小时转录文件约一半出现幻觉。今年10月有媒体报道,美国很多医生和医疗机构利用Whisper来转录医生与患者的会诊,比如包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超30000名临床医生和40个医疗系统,使用由Nabla公司基于Whisper开发的工具,该工具已用于转录约700万次医疗就诊。
虽然去年5月OpenAI 就宣布找到了防止或减少模型幻觉的办法,也就是该公司官方论文所说的,“通过过程监督改进数学推理”,但Whisper转录的医疗诊断或用药诊断,出现如此高比例的幻觉,依然令业界惊讶。
幻觉正是ChatGPT、谷歌Bard等大模型在知识领域突飞猛进,在智能方面却存在明显缺陷的典型表现。人类说谎,轻则报以道德训诫,重则施以法律规制,而对付机器说谎,也必须“与人类对齐”。这是包括OpenAI在内,在通往AGI的路上必须解决的重大课题。