Kimi K2.6在编程挑战中击败Claude和GPT-5.5:中国开源模型的逆袭

AI 摘要

Moonshot AI的开源模型Kimi K2.6在AI编程挑战赛中击败Claude、GPT-5.5等闭源模型夺冠,小米MiMo V2-Pro位列第二。比赛揭示了不同模型在实时决策任务中的策略差异。

2026-05-04·出海情报站·阅读需7分钟

一场持续12天的AI编程挑战赛,结果出乎很多人预料。

Moonshot AI的开源模型Kimi K2.6以22个积分、7胜1平0负的成绩夺冠。小米的MiMo V2-Pro以20分位列第二。GPT-5.5第三,Claude Opus 4.7第五。西方前沿实验室的模型,全部排在前两名之后。

赛制设计:不是简单的代码生成

这场AI Coding Contest用的是Word Gem Puzzle——一个滑动字母拼图游戏。10×10到30×30不等的矩形棋盘上布满字母方块,机器人可以滑动相邻方块到空白位,任何时候都能认领横竖方向上形成的合法英文单词。

规则很有意思:短词扣分,长词得分。7个字母以下的词扣分——5字母词扣1分,3字母词扣3分。7字母及以上的词按字母数减6计分。同一个词只能被认领一次,先到先得。每对模型对弈5轮,每轮10秒限时。

棋盘上预先埋了字典词作为种子,剩余格子按Scrabble字母频率填充,最后打乱空白位。10×10棋盘上种子词基本完整保留,30×30棋盘上几乎全被打散。这个差异最终决定了胜负走向。

谁滑了,谁没滑

Kimi的策略是贪心滑动:每步评估所有可能的滑动能解锁哪些正值词,选最优的执行。没有正值词可解锁时就按字母顺序选第一个合法方向。这种策略在小棋盘上有边缘震荡的问题,但在30×30大棋盘上,海量滑动最终产生了收益。Kimi的累计得分77分,全场最高。

MiMo的滑动代码存在但阈值从未触发,实际上一次都没滑过。它直接扫描初始棋盘找7字母以上的词,然后一次性用TCP包把所有认领发出去。这个策略极其脆弱——完全依赖打乱后种子词的保留程度。保留得好就大杀四方,保留得差就颗粒无收。累计43分,第二名。

Claude也没滑动。在25×25棋盘上还能撑住,到30×30需要实际移动方块时就崩了。

GPT-5.5比较保守,每轮约120次滑动,有上限防止抖动,在15×15和30×30上表现最强。GLM是最激进的滑动者,全场累计超80万次滑动,但一旦没有正值可走就彻底停滞。

DeepSeek每轮都发送格式错误的数据,零有效输出。Muse更惨——它找到了所有能找的词,不管长短全部认领。在30×30棋盘上,它找到了数百个短词并全部提交。累计得分:-15309分。全败。连不上都比它强15000多分。

这说明了什么

一个公平的反驳是:这个赛制奖励激进认领,安全调校严格的模型天然吃亏。Claude可能因为谨慎而少拿了分。这确实有道理,但不影响结果。

两个不同策略的模型——Kimi的主动滑动和MiMo的静态扫描——最终只差2分。这说明第一和第二之间的差距,部分来自种子方差,不完全是能力差异。

对独立开发者来说,选模型不能只看基准测试。在特定任务场景下,开源模型可能比闭源巨头更强。Kimi K2.6是开源权重的,MiMo的权重也即将开放。在出海创业的语境下,这意味着:用更低的成本,拿到接近甚至超越一线闭源模型的能力。

来源:HackerNews