21世纪经济报道记者雷晨 北京报道
2024年11月16日,周六下午三点许,寒意悄然萦绕在空气中。京东科技大厦二楼的一间会议室内,一场聚焦Kimi一周年发展的媒体沟通会即将启幕。
此时,Kimi母公司月之暗面的创始人杨植麟身着Kimi文化衫与白色长裤,拿着一杯咖啡,在众人略带关切的注视下走进会场。近期,他正经历循环智能时期投资人仲裁风波。
舆论场中波澜未息,但此刻的他,神情间透露出一种专注与淡定。
“从我们开始做到现在整个行业发生了很多的变化,但是我觉得很多时候很重要的是在变化的过程中去找到一些不变的东西,一直坚持下去。”他说。
(图为月之暗面创始人杨植麟 21世纪经济报道记者 摄)
在逾一个小时的分享中,杨植麟向外界分享了Kimi的最新技术进展、月活用户情况,以及他本人对于Kimi未来发展的思考。
在他看来,Kimi在过去一年主动做了业务减法,其聚焦的,是上限高且与AGI使命相关的事务,控制业务数量和团队规模,以确保核心创新能力。
而“加法”,映射在客户留存方面。纵然Kimi智能助手在全平台的月度活跃用户已超过3600万,但杨植麟认为,这还不够。他表示,当前Kimi最核心的任务便是提升留存,而它与技术成熟度正相关。
杨植麟谈强化学习
他首先分享了对于AI发展的看法,并强调了“强化学习”的重要性。
杨植麟认为,AI发展范式将更多关注基于强化学习的方法,通过强化学习让AI具备思考能力,解决仅靠Next-Tokenprediction的局限性,如无法探索更难任务、依赖静态数据集等问题。强化学习可使AI在产生想法后,基于反馈迭代学习更强的思考能力,未来AI发展仍将持续Scale,但方式将更多依赖强化学习,并在过程中生成更多数据。
“什么样的场景是最适合让AI锻炼思考的能力,我们认为是数学场景。”他表示,这是因为数学是宇宙的语言,解决数学问题是不断思考和试错的过程,且无需与外界交互,自成体系。
基于此,Kimi披露了最新技术进展与成果,其中包括新一代数学推理模型——k0-math模型。这是Kimi推出的首款推理能力强化模型。
谈及专业领域,他便似打开了话匣子,滔滔不绝地阐述着k0-math的能力。
据杨植麟介绍,在多项基准能力测试中,k0-math的数学能力可对标OpenAIo1系列可公开使用的两个模型水平,在中/高考、考研及经典math数据集上得分高于O1preview和O1mini等模型。但在更难竞赛题上与O1系列仍有差距。在两个难度更大的竞赛级别的数学题库OMNI-MATH和AIME基准测试中,k0-math表现分别达到了o1-mini最高成绩的90%和83%。
不过,他也谈到,当前k0-math模型仍有提升空间。
需要注意的是,k0-math模型虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。此外,它还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1=?k0-math模型可能会过度思考,对于高考难题和IMO题目依然有一定概率做错、猜答案。
如何避免模型过度思考?杨植麟认为,需更好训练奖励模型和设置奖励机制,以解决数据筛选和避免学习错误内容的问题,如采用rorshaking方法等。
推理泛化与搜索更新
新的强化学习技术范式不仅带来推理能力提升,也将会泛化到更多日常任务上。
今年10月中旬,Kimi探索版上线,将推理能力运用到AI搜索任务上。据悉,Kimi探索版的搜索量是普通版的10倍,一次搜索即可精读超过500个页面。
“最近,Kimi探索版运用强化学习技术创新搜索体验,在三大推理能力上实现突破:意图增强、信源分析和链式思考。”杨植麟提到。
所谓意图增强,是指Kimi探索版可以将抽象的问题和模糊的概念具体化,拓展用户的真实搜索意图。信源分析方面,Kimi探索版会从大量的搜索来源结果中,分析筛选出更具权威性和可靠性的信源,并且在答案中提供溯源链接,可一键定位信源具体出处,精确到段落级别,让每条信息都有据可查。至于链式思考,Kimi探索版可以更好地基于思维链推理能力处理产品、公司、行业等研究问题。
最新数据显示,2024年10月Kimi智能助手在PC网页、手机APP、小程序等全平台的月度活跃用户已超过3600万。
据杨植麟介绍,接下来,k0-math数学模型和更强大的Kimi探索版,将会分批陆续上线Kimi网页版(kimi.ai)和Kimi智能助手APP,帮助用户解决更有挑战的数学和搜索调研类任务。
“除了技术的不断变革,通往AGI的过程也是Kimi与用户通过产品互动共创的过程。”杨植麟表示,“实际上,我们已经把产品当成一个强化学习的环境,模型在这个环境里跟用户交互,让技术、产品和用户体验都能持续变得更好,为用户创造更大的价值。”
据悉,Kimi还计划将推理泛化到更多学科和任务里,如解决物理、化学、生物医学等学科难题以及证明未被证明的定理等。
回应市场关切
在当天的采访对话环节中,杨植麟大多时刻都面带微笑,回应了除仲裁之外的诸多问题。据记者梳理,主要涉及以下10个方面:
①数据、算力、算法平衡:AI发展在算力不够时需优化工程、完善基础设施;当算力scale差不多时,需改变算法避免数据成为瓶颈,好算法应与Scaling相适配,强化学习是重要趋势,可改变目标函数与学习方式持续scale。非transformer无法解决相关问题。
②产品推理成本与使用模式:后续版本大概率让用户选择是否使用相关模型,长期来看成本呈下降趋势,还可通过算法迭代实现动态分配最优算力。
③AI创业公司现象与自身业务聚焦:AI创业公司被收购、人才回流大厂是行业发展进入新阶段的必然规律,自身未遇人才流失,主动做业务减法,保持人数少与卡和人比例高,聚焦核心产品。
④预训练与ScalingLaw:预训练还有半代到一代的空间明年释放,重点将转向强化学习,ScalingLaw相对乐观,可通过强化学习利用AI自身杠杆标注少量数据产生较大作用。
⑤多模态:多模态能力在内测,认为思考能力决定AI上限,交互是必要条件,多模态虽必要但思考更关键。
⑦行业竞争:更关注为用户提供真正价值,聚焦提升模型思考推理能力,不专门关注竞争本身。
⑧核心任务与留存:最核心任务是提升留存,与技术成熟度正相关,当前产品在思考与交互能力上还有很大提升空间,模型能力与产品指标高度正相关可统一优化。
⑨范式转化:预训练到推理的范式转化可预测,早期虽预训练有红利但已铺垫强化学习,人才布局从去年开始,中间有不同过程探索更规模化方式。
⑩出海与商业化:先聚焦再全球化,需要更耐心;商业化关键是留存,投流策略核心是平衡留存与增长关系,数据不完全准确,整体留存相比其他产品有优势且有提升空间。