迈出“登月”第二步：Kimi比肩OpenAI o1最新技术，杨植麟聚焦做减法

2024-11-17 18:51:13 自媒体 8℃ 0

直播吧10月20日讯曼联传奇主帅弗格森不再担任俱乐部大使职务，旧将博格巴在接受采访时谈到了此事，以及曼联的复兴。博格巴说：“我绝不会黑我曾经效力过的俱乐部，我尊重球队的所有球员，他们正在尽自己的努力。

每经杨昕怡每经编辑：张海妮

正如这家公司的名字一般，月之暗面，总是一个令人好奇的存在。11月16日下午，在Kimi Ch 上线一周年之际，公司创始人杨植麟罕见现身，在多家媒体面前走出了“登月”第二步。

“如果说长文本是月之暗面‘登月’的步，那么提升模型深度推理能力则是第二步。”身穿一件黑色公司文化衫的杨植麟发布了新一代数学能力可对标OpenAI o1系列的数学推理模型k0-m h。

当新模型在众人面前进行数学题“ ”时，这位原本略显羞涩的90后“创业明星”终于来到了自己的主场，看着数字、公式一行行地弹出，兴奋地讲解着其中的原理。

据介绍，该款模型是Kimi推出的首款推理能力强化模型，采用了全新的强化学习和思维链推理技术——这与杨植麟对行业技术发展的判断方向一致，“接下来最重点的东西会在强化学习上，范式上会产生变化，它还是Scaling（扩展），只是通过不同的方式去Scale”。

在k0-m h的表现方面，月之暗面方面披露，在中考、高考、考研以及包含竞赛题的MATH等数学基准中，k0-m h初代模型成绩已经超过o1-mini和o1-preview模型。

“（k0-m h的发布）大概率能说是，在OpenAI o1发布后，国内首个摸索出并实现o1思路的公司。”一位国内头部互联网公司的大模型技术人员在接受《每日经济新闻》记者采访时表示，“现在国内想要赶超o1的大模型团队都会以数学领域为步，因为不需要大量的标注数据，成本，而且有可验证的标准。”

月之暗面的下一步是什么？“Kimi目前最核心的任务是提升留存。”杨植麟在接受《每日经济新闻》记者采访时表示，“基本上它跟你的技术成熟度或者技术水平也是一个正相关的关系，所以对我们当前来说是最重要的。假设我们以最后AGI这个目标作为衡量，我觉得现在还在初级阶段。”

发布会数据显示，截至今年10月，Kimi的月活已超3600万人，而且数据在持续增长。

发布会上，月之暗面公布了k0-m h的目前测评得分：在业界最常使用的数学能力基准 MATH中，k0-m h模型得分93.8分，超过o1-mini的90分和o1-preview的85.5分，且k0-m h这一成绩仅次于o1完全版的94.8分。

“什么样的场景最适合让AI锻炼思考能力？我们认为是数学场景。”发布会现场，杨植麟表示，在训练该模型的过程中，最重要的是看其是否真正具备深度思考的能力。

据介绍，相较于以尽快提供为关键目标的常规模型，k0-m h模型在做题过程中会花更长的时间来推理，包括思考和规划思路，并且在必要时自行反思改进解题思路，提升答题的成功率。

不过，杨植麟也指出，虽然k0-m h模型擅长解答大部分很有难度的数学题，但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。此外，它可能会存在对“1+1=？”这样过于简单的数学问题进行过度思考，对于高考难题和IMO（国际数学奥林匹克竞赛试题）依然有一定概率做错、猜之类的局限性。

根据月之暗面的介绍，k0-m h模型采用了全新的强化学习和思维链推理技术，这也是业内普遍认为OpenAI o1系列的技术关键所在，行业范式也在因此发生着改变。

“AI的发展就像荡秋千，我们会在两种状态之间来回切换：有时候，算法、数据都很ready了，但是算力不够，我们要做的就是加算力；但今天我们发现，不断扩大算力规模已经不一定能直接问题了，所以这时就需要通过改变算法，来突破这个瓶颈。”杨植麟表示。

对于业内对Scaling Law（规模定律）逐渐放缓的看法，杨植麟认为，预训练还有空间，大概半代到一代的模型，这个空间会在明年释放出来，“明年，我觉得领先的模型会把预训练做到一个比较极致的阶段”。

“但我们判断，接下来最重点的东西会在强化学习上，就是范式上会产生一些变化。本质上，它还是Scaling，并不是不用Scale，只是说你会通过不同的方式去Scale，这是我们的判断。”他表示。

同时，他指出，该数学推理模型的推出，一方面在教育产品、Kimi整体的流量里有大的价值；另一方面，该模型上的技术可以放在更多场景里，比如让Kimi探索版去做更多的搜索。

在今年6月的一次媒体采访中，杨植麟多次以“聚焦”作为对创业思路、成功经验的回应，“在技术和产品上可能我们都希望更加聚焦”，“因为你如果什么东西都做了，可能最后也很难做好”。

不久前，有消息称月之暗面几位出海产品负责人已于近期离职创业。此外，今年9月，月之暗面决定停止更新两款已上线的出海产品——Ohai和Noisee，暂时收缩了出海to C应用。

在发布会现场，杨植麟间接回应了上述市场传言：“我们没有人才流失，我们主动做了业务减法。”

这一思路的确定在今年春天，杨植麟观察了月之暗面的具体发展并对美国市场进行了判断，得出结论：的确得做减法，而不是疯狂做加法。

“我们一开始尝试过几个产品一块做，这在一定时期内奏效，但后来发现，这样就活生生把自己变成大厂了，没有任何优势。”杨植麟将锁定“聚焦”视为过去一年较大的课题，“砍业务本质上也是在控制人数。这几个大模型创业公司里，我们始终保持人数最少，始终保持（显）卡和人的比例最高，这关键。我们不希望团队扩那么大，（扩大）对创新有致命性伤害。另外我们也会根据美国市场的情况，判断哪个业务做大的概率更高。”

聚焦Kimi，当下杨植麟认为最为核心的任务是什么？他在接受《每日经济新闻》记者采访时给出了：提升留存，“（令自己满意的留存）永无止境”。

“因为留存是技术成熟的重要指标，并且（现在的留存）还有大的提升空间。我们的模型能力跟产品指标是高度相关的。”他解释，“目前我们的模型可能思考能力还不够强，交互还不够丰富，我们把这些东西做得更好之后，留存会进一步上升。”

第三方机构QuestMobile发布的《中国移动互联网2024年秋季报告》显示，截至2024年9月AIGC App月度活跃用户同比增长393.9%，豆包、文小言、Kimi智能助手App月活用户分别达到4197.6万人、1191.5万人和1024.8万人，活跃用户3日留存率分别为39.1%、31.2%和32.2%。

在发布会上，杨植麟表示，截至2024年10月，Kimi的月活已超3600万人，而且数据在持续增长。

在行业的多模态进展方面，界面新闻曾报道，Runway联合创始人曾在11月9日公开表示，OpenAI计划在大约两周内发布Sora。

对此，杨植麟透露，内部几个多模态的能力在内测，“关于多模态，我觉得AI接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互，不是说交互不重要，我觉得思考会决定上限，交互是一个必要条件，比如说vision（视觉）的能力，如果没有vision的能力没法做交互”。

在Open AI出新牌后，Kimi又一次成为国内个“跟牌者”，在这场焦灼的牌局中，杨植麟和月之暗面拿出了留到最后的野心。

每日经济新闻