zbo智博1919com

这一次，，梁文锋和杨植麟隔空握手

真是热烈的一周。

作者：：：黄子康

颁布功夫：：：2026-05-14 08:33:06

阅读量：：：1679

这一次，，梁文锋和杨植麟隔空握手

真是热烈的一周。

周一，，Kimi刚发完Kimi K2.6；；；周五，，万众瞩主张DeepSeek V4就来了。

这种感触很熟悉。

从前一年，，这两家公司不是前后脚发模型，，就是前后脚发技术论文，，不是你把市场热度点着了，，就是我把技术会商接从前了。

更早之前，，说起中国开源模型，，险些前提反射地想到DeepSeek。

尤其是DeepSeek颁布R1之后，，这家公司不仅凭一己之力改写了全球市场对中国AI的印象，，并且唤醒了其他中国的AI创业团队的“信心”。

因而，，我们看到，，更多的中国AI创业团队起头做出极度竞争力的模型，，带来极度有影响力的技术钻研成就。

2025年7月，，被《天然》杂志称为“又一个DeepSeek时刻”的Kimi K2模型，，在底层架构上初次大规模验证了二阶优化器 Muon，，同时选取了 DeepSeek验证过的 MLA把稳力机制。

到了2026年4月，，DeepSeek V4在架构上也跟进 Kimi K2选取 Muon优化器，，取代从前已经使用了10年的Adam优化器。

这可能是开源最大的价值：：：让中国公司共享技术，，加快追赶美国的闭源巨头。

它们是中国目前唯二，，总参数超过万亿、、已权重公开的中国模型。也是最有国际影响力的中国AI模型代表。全球市值最高的英伟达公司在展示下一代芯片机能时，，用的模型正是来自 DeepSeek 和Kimi。

不仅如此，，他们也都在挑战深度学习网络的底层架构，，DeepSeek有mHC残差衔接，，Kimi有引发硅谷主题技术圈会商的“把稳力残差”。

固然说DeepSeek V4和Kimi K2.6在统一周颁布，，但其实两个模型各有技术侧重点。

V4的主题突破在于百万高低文的成本重构，，它通过全新的混合把稳力机制，，将单token推理的推算量压缩到V3.2的27%，，KV Cache降至10%。

这套规划结合了压缩稀少把稳力和重度压缩把稳力，，让百万级高低文从技术演示造成了能够遍及的基础设施。

V4同时针对agent场景做了专项优化，，后训练阶段把agent作为独立方向单独训练，，工具挪用体式从JSON换成带特殊token的XML结构，，跨轮次推理痕迹在工具挪用场景下齐全保留。

DeepSeek还自建了名为DSec的沙箱平台，，单集群可并发治理数十万个沙箱实例，，用来支持agent强化学习训练和评测。

K2.6的方向则更左袒长程编码和agent集群。它在Kimi Code Bench内部评测中得分68.2，，比K2.5的57.4提升约20%。

最高可支持300个子agent并行实现4000个合作步骤。

2025年2月，，Kimi 颁布 Moonlight系列模型，，初次将二阶优化器Muon利用于480亿参数的大模型，，验证了新一代优化器的成效。

2025年4月，，Kimi-VL模型颁布，，在Moonlight模型的技术上，，引入MoonViT视觉编码器，，为之后的多模态理解模型打下基础。

2025年7月，，Kimi初次将Muon优化器扩大到万亿参数的规模，，推出 K2 开源模型。

2025年10月，，Kimi颁布Kimi Linear，，这是Kimi提出的一种线性把稳力架构，，主题指标是在保住长高低文能力的同时，，把大模型处置超长文本的推算和显存成本降下来。

这注明杨植麟已经不满足于只做模型了，，他想对模型的底层架构着手。

随后，，Kimi颁布并开源支持图片和视频理解的万亿参数模型Kimi K2.5。

2026年3月，，Kimi颁布把稳力残差的论文，，持续对Transformer的底层结构下手。

这篇论文在X上收成了马斯克自己的夸奖。

在而后就到了前几天的K2.6，，这是一个萦绕长周期编码、、agent执行、、工程工作能力的模型。

从产品定位的演变能够看出，，Kimi正在从消费级对话产品往出产力工具转型。

2026年3月，，杨植麟在英伟达GTC大会上颁发演讲，，系统介绍Kimi技术路线，，他用三个关键词概括Kimi的Scaling战术：：：Token效能、、长高低文、、agent集群。

他暗示，，要推动大模型智能上限的持续突破，，必须对优化器、、把稳力机制及残差衔接等底层基石进行重构。

当前的Scaling已经不再是单纯的资源堆砌，，而是要在推算效能、、长程影象和自动化合作上同时寻找规模效应。

一家公司最怕的是，，只有媒体在会商你，，开发者却不用你。

但Kimi不一样，，无论是在OpenRouter上还是绝大无数agent工具的默认接口里，， K2.5和K2.6都是主流选项。

截止发稿，，Kimi和DeepSeek都呈此刻OpenRouter的TOP3模型里，，在AA的榜单上，，K2.6甚至临时占得先机。

而在K2.6这里，，模型持续强化agent、、长工作、、编码能力，，也是统一个信号。杨植麟真正押注的，，就是出产力场景。

这也是Kimi这一年最关键的变动。

它不再只是通知用户“我能帮你读更长的文件”，，而是在回覆更底层的问题，，模型怎么能力在更长功夫、、更复杂工作、、更高工具挪用密度下维持不变？？

长高低文解决的是影象和信息承载；；；线性把稳力解决的是成本和扩大性；；；agent集群解决的是复杂工作拆解；；；编程能力解决的是模型的理解和执行。

它们看起来是几条分歧产品线，，其实背后指向统一个方向，，Kimi想把Kimi从一个好用的谈天窗口，，造成能够承接真实工作的基础模型。

4月，，杨植麟受邀参与总理主持的经济局势专家和企业家座谈会，，作为唯一的大模型创业者代表讲话。这个1993年诞生的年轻人，，成为座谈会上最年轻的参会者。

一个月前，，他刚在2026中关村论坛年会整个会议上颁发演讲，，系统论述了中国AI团队若何通过底层架构的“推倒重建”，，突破沿用十年的行业技术尺度。

显然，，Kimi已经从一家创业公司，，造成了代表中国AI技术路线的符号之一。

Kimi这一年的成长蹊径，，和DeepSeek的蹊径有显著差距。两家公司的技术选择分歧，，但也正因如此，，才让中国开源模型有了更多可能性。

从前我们写这两家公司，，容易写成“谁的模型好”、、“谁才是下一个OpenAI”。

但这其实是个误区。

DeepSeek和Kimi，，不该被单一理解成“谁赢谁输”。它们更像中国开源模型对外竞争的两条腿。不存在谁取代谁，，而是应该相互刺激相互推进。

DeepSeek和Kimi相继证了然一件事，，做前沿模型不愿定必要无限的资源，，关键在于算法创新和工程优化。它们在模型算法、、工程效能、、开源路线和降低推理成本上的贡献，，依然是中国AI从前一年最重要的技术事务之一。

它们彼此竞争，，但也彼此抬高了中国开源模型的上限。

真正重要的不是它们谁先到终点，，而是它们把中国模型的竞争维度拆开了。

从前我们评价一家模型公司，，很容易只看榜单、、参数、、价值、、颁布会声量。

但模型公司真正的护城河，，已经不再是“模型聪不聪明”、、“模型机能若何”这些事了。此刻萦绕模型的叙事，，是它能不能形成一整套技术路线。

DeepSeek把第一件事做得很彻底。它让外界看到，，中国公司能够用更高的工程效能，，把模型训练和推理成本打下来，，能够把技术汇报写到足够通明，，能够把权重盛开到足够激进。

它成立的是一种开源信赖？？⒄咴敢庾暄兴、、复现它、、部署它，，是由于它不只是给了一个API，，而是把模型背后的步骤论也拿了出来。

Kimi补上的是另一块。

Kimi最早被用户记住，，是由于长文本和谈天产品，，但K2.6之后，，它讲的已经不是一个更座谈天的助手，，而是模型若何进入真实工作流。

长程编码、、Agent集群、、工具挪用、、长周期工作，，这些能力没有“霸榜”那么直观，，但它们决定模型能不能从“被试用”走向“被依赖”。

若是说DeepSeek解决的是模型够不够强、、够不够便宜、、够不够盛开的问题，，Kimi更关切的是模型能不能真的替身实现复杂工作。

所以这两家公司放在一路看，，意思反而更大。

作为观察者和用户，，我们注定但愿都存在，，这样产业能力发展。

中国AI真正值得兴奋的，，不是终于出了一个DeepSeek。

而是在DeepSeek的带头下，，Kimi们依然能靠自己成长为一座座大山。

这注明中国AI公司已经起头在分歧维度上找到自己的地位，，不再是单一仿照，，是真正的在索求自己独有的那条技术路线。

DeepSeek和Kimi的技术相互赋能，，也说了然一件事，，开源生态的价值在于合作。

此刻的问题不是DeepSeek和Kimi谁更强，，而是它们能不能持续维持这种竞争关系，，持续在技术上相互刺激。

中国开源模型要真正在全球站稳脚跟，，必要的不是一家独大，，而是多家公司在分歧方向上都做到世界级水平。DeepSeek和Kimi的存在，，让这个可能性变得更大。

　

【编纂者：：：黄武珊】

有关标签

五一劳动奖赞美对峙面向基层一线天鸽互动：：：公家持股量约为20.85% 湖北宜昌抢滩绿智船舶新赛道助建“电化长江” 菲律宾警方在营救遭绑架人质行动中击毙4名嫌犯

文章点评

未查问到任何数据！！！

颁发评论

◎欢迎参加会商，，请在这里颁发您的见解、、互换您的概念。

【网站地图】