Kimi K2.6在编程挑战中击败Claude和GPT-5.5：中国开源模型的逆袭

一场持续12天的AI编程挑战赛，结果出乎很多人预料。

Moonshot AI的开源模型Kimi K2.6以22个积分、7胜1平0负的成绩夺冠。小米的MiMo V2-Pro以20分位列第二。GPT-5.5第三，Claude Opus 4.7第五。西方前沿实验室的模型，全部排在前两名之后。

赛制设计：不是简单的代码生成

这场AI Coding Contest用的是Word Gem Puzzle——一个滑动字母拼图游戏。10×10到30×30不等的矩形棋盘上布满字母方块，机器人可以滑动相邻方块到空白位，任何时候都能认领横竖方向上形成的合法英文单词。

规则很有意思：短词扣分，长词得分。7个字母以下的词扣分——5字母词扣1分，3字母词扣3分。7字母及以上的词按字母数减6计分。同一个词只能被认领一次，先到先得。每对模型对弈5轮，每轮10秒限时。

棋盘上预先埋了字典词作为种子，剩余格子按Scrabble字母频率填充，最后打乱空白位。10×10棋盘上种子词基本完整保留，30×30棋盘上几乎全被打散。这个差异最终决定了胜负走向。

Kimi的策略是贪心滑动：每步评估所有可能的滑动能解锁哪些正值词，选最优的执行。没有正值词可解锁时就按字母顺序选第一个合法方向。这种策略在小棋盘上有边缘震荡的问题，但在30×30大棋盘上，海量滑动最终产生了收益。Kimi的累计得分77分，全场最高。

MiMo的滑动代码存在但阈值从未触发，实际上一次都没滑过。它直接扫描初始棋盘找7字母以上的词，然后一次性用TCP包把所有认领发出去。这个策略极其脆弱——完全依赖打乱后种子词的保留程度。保留得好就大杀四方，保留得差就颗粒无收。累计43分，第二名。

Claude也没滑动。在25×25棋盘上还能撑住，到30×30需要实际移动方块时就崩了。

GPT-5.5比较保守，每轮约120次滑动，有上限防止抖动，在15×15和30×30上表现最强。GLM是最激进的滑动者，全场累计超80万次滑动，但一旦没有正值可走就彻底停滞。

DeepSeek每轮都发送格式错误的数据，零有效输出。Muse更惨——它找到了所有能找的词，不管长短全部认领。在30×30棋盘上，它找到了数百个短词并全部提交。累计得分：-15309分。全败。连不上都比它强15000多分。

一个公平的反驳是：这个赛制奖励激进认领，安全调校严格的模型天然吃亏。Claude可能因为谨慎而少拿了分。这确实有道理，但不影响结果。

两个不同策略的模型——Kimi的主动滑动和MiMo的静态扫描——最终只差2分。这说明第一和第二之间的差距，部分来自种子方差，不完全是能力差异。

对独立开发者来说，选模型不能只看基准测试。在特定任务场景下，开源模型可能比闭源巨头更强。Kimi K2.6是开源权重的，MiMo的权重也即将开放。在出海创业的语境下，这意味着：用更低的成本，拿到接近甚至超越一线闭源模型的能力。

来源：HackerNews