Kimi数学能力赶上o1后,月之暗面杨植麟分享行业思考
OpenAI发布GPT5之前,中国大模型公司的下一步怎么走?11月16日,通用人工智能公司月之暗面创始人杨植麟分享了他的观点与思考。
现场,月之暗面旗下Kimi发布新一代数学推理模型 k0-math,是Kimi 推出的首款推理能力强化模型,也是杨植麟技术路线思考的直观体现。在他看来,行业接下来的重点是强化学习,技术范式会发生变化。
k0-math 模型采用强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,提升解决数学难题的能力。在业界最常使用的数学能力基准测试 MATH 中,k0-math 初代模型成绩超过OpenAI旗下o1-mini和o1-preview模型。
需注意的是,k0-math 模型虽然可以解答大部分有难度的数学题,但当前版本暂时无法解答 LaTeX 格式(一种排版语言)难以描述的几何图形类问题。还有一些局限性需要突破,如对过于简单的数学问题,k0-math模型可能会过度思考;对高考难题和IMO(国际数学奥林匹克)题目有一定概率做错。未来模型需要更好地泛化,才能在更多学科的场景中落地使用。
泛化是指模型应用到数据上时,能够精准预测或分类。过去,行业共识于Scaling Law(规模定律)提供的理论框架能够帮助研究者理解和预测模型在不同规模下的泛化性能,但近期,关于“Scaling Law失效”的观点声起。在杨植麟看来,AI的关键词仍包括“Scaling”,这也是支撑AI技术在过去几年有所进展的重要因素。Scaling不是简单地将模型做得更大就好,而是找到有效的方法去Scale,比如更好的数据和方法。
目前行业在杨植麟看来已经发生变化,月之暗面的重点是基于强化学习去Scale,而非简单预测下一个token(文本中的最小单位)是什么,因为后者具备局限性——只基于静态数据集无法探索更难的任务,加入强化学习的预测会在思考过程中生成更多的数据。
月之暗面选择的试验场景是数学,在杨植麟看来,数学是最适合让AI锻炼思考能力的场景。因为在计算过程中,模型需要不断试错。如果算错了,可以返回验证、校对,再计算,这也是OpenAI提出o1模型核心想要表达的观点。杨植麟称,o1最初也是从数学场景开始,通过严密的自成一体,不需要与外界交互。此次发布的数学模型 k0-math 有两个层面的价值:一是在教育场景应用,二是实现公司技术迭代和验证。
在明确强化学习与AI思考能力方向之前,月之暗面也经历过战略调整。杨植麟表示,公司一开始尝试过几个产品一起做,这个方式在一定时期有效,但最终发现还是要聚焦,将一款产品做到最好是月之暗面认为最重要的事。于是在今年3月左右,公司决定聚焦Kimi。“如果现在三个业务一起做,活生生把自己变成大厂,那我就会没有任何优势。”杨植麟表示。
另外,杨植麟称,公司也会根据美国市场的情况去判断哪个业务最后可以做大。例如ChatGPT目前已有超过5亿的月活,算得上半个超级应用,Super APP的路径在很大程度上被验证。但也有像Character.ai这样的产品一开始用户量很多,后面很难破圈的情况。因此,杨植麟对第一财经记者表示,会观察美国市场与产品,但这并非唯一的判断标准,也会根据自身观察来判断上限最高的事情,并通过这种方式去控制业务与人数。
至于目前行业密集发布的多模态产品,杨植麟表示公司有几个多模态能力已在内测阶段,多模态最重要的是思考与交互,而思考的重要性远大于交互。“思考决定上限,交互是一个必要条件;多模态是必要的,但思考决定了它的上限。”杨植麟表示。
(本文来自第一财经)