中国谁最像 Anthropic
时间:26-06-05 来源:柏导
中国谁最像 Anthropic
Anthropic 是一家奇怪的公司。它花大量时间写文章讲自己的 AI 有多危险,同时把这个"危险的 AI"卖给全世界。它有一套叫 Constitutional AI 的训练方法,有一份叫 Responsible Scaling Policy 的内部承诺,还有一个叫 Claude Code 的产品——你可以在终端里让它读懂你的整个代码库,跨文件改代码,跑测试,提交 git。它不是单纯的聊天机器人公司,也不是单纯的模型研究院,它是把"我们在认真对待 AI 风险"这件事做成了核心卖点、同时又真的在做前沿模型和开发者工具的一家公司。这个组合在全球范围内都很罕见,即便放在美国科技圈里也找不出第二家完全类似的。
中国现在有没有类似的公司?有,但没有完全对标的。最接近的三家是智谱、MiniMax、DeepSeek。最像 Anthropic 这家公司的是智谱,最可能最先做出中国版 Claude Code 的是 MiniMax,底层模型能力最接近 Claude 量级的是 DeepSeek。这三个判断是分开的,不能混用。
先说智谱为什么最像。智谱从清华技术转化出来,官网上直接写"safe and beneficial AGI",这在中国创业公司里不常见,大多数公司的官网写的是"引领行业""重塑未来"之类的话,看不出任何对 AI 风险的正视。智谱不只是发模型,它还持续做 AlignBench、AgentBench、LongBench、NaturalCodeBench 这些评测基准,这些东西本质上是在做"怎么衡量模型是否对齐、是否能完成 agent 任务"的研究基础设施,和 Anthropic 的研究路线是一个方向的。今年 4 月上线的 GLM-5.1,官方放出的一句话值得注意:支持一次任务中独立、持续工作长达 8 小时,实现从规划、执行到交付的完整闭环,这是工程交付能力的描述。AutoGLM 和 AutoClaw 是它的 agent 产品,还专门推出了 GLM Coding Plan——开发者订阅之后可以直接在 Claude Code、Cursor、Cline 等十几款工具里用 GLM 替换后端,价格是 Claude 官方的七分之一左右。把这些加在一起:学术转化背景、安全与对齐叙事、agent 产品、企业 API、开发者生态,这个组合和 Anthropic 的公司形态是最接近的。
但智谱有个问题:它太杂了。它既做开放权重模型,又做面向消费者的聊天产品,又做 MaaS 平台,又做政企业务。Anthropic 的策略相对集中,它是一家闭源公司,重点放在企业服务和 API,产品侧就是 Claude 加 Claude Code,没有太多分叉。智谱更像是"Anthropic 加国内 MaaS 平台加开源生态"的混合体。这不是缺点,但它确实让智谱的公司质地比 Anthropic 更分散,你很难用一句话说清楚智谱到底是一家什么公司,而 Anthropic 的答案非常清晰:一家以 AI 安全为中枢的前沿模型和企业服务公司。
MiniMax 为什么是最可能先做出中国版 Claude Code 的?因为它近几代的模型路线几乎是明着冲这个目标去的。今年 3 月发布的 M2.5,官方给的 SWE-Bench Verified 得分是 80.2%,在代码 agent 评测上已经是公开数据里的第一梯队;到了 M2.7,官方在 SWE-Pro 上报告了 56.22% 的得分,接近 Claude Opus 同类评测的水平。更值得注意的是 M2.7 的训练方式——它在 OpenClaw agent 框架上自主跑了超过 100 轮的脚手架优化,没有人工干预。这不只是能力数字的提升,这是在做"让模型自己改进 agent 工作流"的方向探索,和 Anthropic 对 Claude Code 的定位高度一致。MiniMax Agent 已经能产出文件、部署网页、调用 MCP 工具,还有检查点恢复功能。它还专门给 Claude Code、Cursor、Cline 这些工具提供接入文档,说明它的目标用户就是开发者,不只是普通消费者。它的 API 直接兼容 Anthropic 协议,开发者改一行配置就能从 Claude 换到 MiniMax。从产品感来说,MiniMax 现在是中国公司里最接近"开发者愿意日常使用的代码 agent"的一家,差的不是能力方向,是稳定性、企业权限控制和安全治理这几层的厚度。
MiniMax 的短板也很直接:它没有智谱那种"我们在认真对待 AI 安全"的公开叙事。它更像一个产品驱动的团队,目标是快速交付、获取用户,不是建立一套治理框架。Anthropic 的企业客户付更高的价格,很大程度上是因为相信 Anthropic 在认真管控模型风险,他们买的不只是能力,还是一种可审计的确定性。MiniMax 目前还没有建立这个信任基础,或者说,它还没有把这件事当成优先级来做。这不一定是战略失误,在中国市场,愿意为这种"治理溢价"付钱的企业客户本来就比美国少,但这个差距决定了它现在更像一家高效的产品公司,并不是 Anthropic 式的公司。
DeepSeek 排第三,不是因为它模型差,恰恰相反,它的底层模型能力可能是中国创业公司里最扎实的一档。今年 4 月底正式发布的 V4,推出了两个版本:V4-Pro 总参数 1.6T、激活参数 49B,支持 100 万 token 上下文;V4-Flash 是 284B 总参、13B 激活的轻量版,两个版本都以 MIT 协议开放权重。V4-Pro 在 agent 类评测上已经接近部分闭源前沿模型的水平,同时还宣布后续会针对华为昇腾 950 超节点做适配,把价格压得更低。但 DeepSeek 的问题是它的品牌定位根本不是 Anthropic 那个方向——它押注的是开放、透明、低成本、基础设施,愿意把权重开源出来让所有人用,这和 Anthropic 那种"闭源高品控、以治理为核心卖点"的路线是反的。DeepSeek 更像是一个极强的开源研究实验室,它的 API 兼容 Anthropic 协议,但那是为了降低用户切换成本、扩大使用量,不是在模仿 Anthropic 的公司逻辑。它做了透明度中心,也有红队测试披露,但这些是"一家认真的研究机构该有的东西",不是"以安全治理为中枢的企业服务公司该有的东西",这两者之间有本质区别。
月之暗面是最容易在未来打乱排序的变量。今年 1 月发布的 K2.5,基于万亿参数 MoE 架构,用 15 万亿视觉与文本混合 token 做了原生多模态训练,引入了最多可调度 100 个子 agent 并行工作的 Agent Swarm 模式。K2.5 在 2 月份一度冲上 OpenRouter 全球调用量第二,证明开发者愿意用。4 月又出了 K2.6 Code Preview,主打 12 小时自主编码和 300 个 agent 协同,Kimi Code 也已接入 VSCode 和 Cursor。创始人杨植麟公开表示下一步要加速 K3 的研发,目标是在预训练规模上追平世界前沿。但有一件事值得注意:K2.5 的峰值没有转化成持续的开发者黏性,进入 3 月后调用量从头部位置滑落很快,说明它在 agent 工作流这个最关键的使用场景上还没有形成稳定的习惯。短期能力冲高和长期工作流占位是两件不同的事,月之暗面目前做到了前者。
最后说一个现实判断。在中国做"中国版 Anthropic",真正难的不是做出强模型——那个问题已经基本解决了,DeepSeek V4、GLM-5.1、MiniMax M2.7、Kimi K2.6 都证明了中国有能力训练出接近全球前沿的大模型。真正难的是:当你把这个模型放进企业的研发系统、金融系统、医疗系统,客户的 IT 部门问你"出了问题谁负责、怎么审计、权限怎么隔离、模型升级你怎么通知我、我能不能在本地私有化部署并且还能持续更新",你有没有一套完整的、可以被采购部门拿去走流程的答案。Anthropic 能卖高价,不只是因为 Claude 好用,还是因为它能回答这些问题,回答得比竞争对手更系统,更有可信度。这一套东西它花了好几年才建立起来,中间离不开它那些反复公开的治理文件和安全研究积累。
目前中国没有一家公司能把这套治理语言说得和 Anthropic 一样清楚。智谱最接近,但还没到。MiniMax 产品感最强,但这块几乎是空白。DeepSeek 的研究诚意很足,但方向不一样。这个差距不是技术差距,是公司建设的差距,而且它不会因为发布一个更强的模型而消失。更强的模型只会让你在能力评测上更好看,但不会让企业采购负责人在签合同时更放心。这两件事是不同的事,弄清楚这一点,是判断"谁最像 Anthropic"这个问题的起点。
源自--柏导
| 上一篇 | 下一篇 |
|---|---|
| τ的远方、堆叠的救赎与台积电的沉默:为什么... | 没有上一篇 |