Part 07｜LLM竞争-基础能力

# Sheet: LLM竞争-基础能力

模型能力差异化的竞争
 | Claude Opus 4.7：领先项是 SWE-bench、有效长上下文、LMArena、企业份额。代价是价格 = GPT-5.5 的 4×、DeepSeek 的 18×。市场位置 ≈ "贵但被信任"。
 | GPT-5.5：ARC-AGI-2 跃升 + OSWorld 领先 + 中等价格。位置 ≈ "通用能力最广+性价比合理"。
 | Gemini 3.1 Pro：GPQA + 原生 A/V 是亮点。SWE-bench 和企业份额相对落后。位置 ≈ "科学推理+多模态"。
 | DeepSeek V4 Pro：价格碾压 + 架构披露最透明。代价是英文基准多数 UNK、上下文 128K（短板）、美国企业渗透 1%。位置 ≈ "成本敏感场景的默认选项"。 |  | # | 维度 | Claude Opus 4.7 | GPT-5.5 / 5.4 | Gemini 3.1 Pro | DeepSeek V4 Pro | 领先方
 |  |  | 1 | SWE-bench Verified | 87.6% [T1] / 82.1% [无源] | 88.7% [T3] / 77.2-80% [T3] | 80.6% [T1] | UNK [T-] | T1 数据：Anthropic
比较维度的注释 | 第一组（1–4）：核心能力基准 — 模型能做什么 |  | 2 | ARC-AGI-2 Verified | UNK [T-] (4.6: 68.8% [T2]) | 85.0% [T3, GPT-5.5] | 77.1% [T1] | UNK [T-] | T1 数据：Google
 | 1. SWE-bench Verified / 在真实 GitHub 仓库的 issue 上让模型写补丁，由人工筛选过可解性的 500 个题目。重要性在于：这是少数几个"实际工作场景"基准 —— 要求理解大型代码库、跨文件改动、通过测试用例。和 HumanEval 那种"小函数补全"完全不是一个量级。在工程落地上，5pp 的差距常常意味着"能交付"与"还要返工"的分界。 / 2. ARC-AGI-2 / Chollet 团队设计的视觉抽象推理题，刻意做成"训练集没有原型"，测的是从少量样例归纳新规则的能力。重要性：业内普遍认为它衡量"流体智力"而非"记忆+插值"。GPT-5.5 的 85% 在这个原本被视作机器短板的维度上是显著突破，而 Claude Opus 4.7 在此项 UNK，结合上一代 4.6 的 68.8%，可以推测这不是 Anthropic 的优先方向。 / 3. GPQA Diamond / 由领域博士出题的研究生级科学问答（物理/化学/生物），刻意做成"Google 不出来"。Diamond 是最难子集。但表格已注明"饱和" —— 三家都在 92–94%，这个基准接近天花板，比较价值正在下降。它现在的作用更像"基础门槛"而非"区分度指标"。 / 4. OSWorld-Verified / 让模型操作真实桌面 GUI（点击、输入、切窗口）完成任务。重要性：这是 agent 能力的核心试金石。能写代码但不会用鼠标的模型，离"自主完成任务"还差很远。OpenAI 在这里 +0.7pp 不大，但反映出它在 agent 方向上的投入。Gemini 和 DeepSeek 在此 UNK，说明它们要么没做要么没披露。 |  | 3 | GPQA Diamond | 94.2% [T3] | 92.0-92.8% [T2-T3] | 94.3% [T1] | UNK [T-] | T1 数据：Google（但饱和）
 | 第二组（5–7）：部署质量 — 用户实际怎么体验 |  | 4 | OSWorld-Verified | 78.0% [T1] | 78.7% [T1, GPT-5.5] | UNK [T-] | UNK [T-] | OpenAI (+0.7pp)
 | 5. LMArena Elo / 真人在盲测中投票哪个回答更好，用 Elo 算法排名。基准测对错，但测不出"答得漂亮、好用"。Elo 是目前唯一规模够大的人类偏好信号。1503 vs 1481（差 22 分）在 Elo 体系里大约对应 53% 胜率 —— 差距不大但稳定可识别。 / 6. Context Window 宣称 / 单次输入最长能放多少 token。1M ≈ 75 万英文词。但"宣称"二字是关键 —— 见下一项。 / 7. MRCRv2 @1M effective / 在 1M 上下文里塞入多个相似但不同的目标，看模型能否精准检索。这一项揭穿"宣称 vs 有效"的鸿沟：一个号称 1M 但在 200K 后就"失忆"的模型，和真能用满 1M 的模型是两个产品。Anthropic 是表里唯一披露这个数字的厂商，这本身就是竞争姿态 —— 把"透明度"作为差异化。 |  | 5 | LMArena Elo (公司) | 1503 [T1-T2] | 1481 [T1-T2] | 1494 [T1-T2] | n/a | Anthropic (+9-22)
 | 第三组（8–9）：经济性 — 谁能规模化 |  | 6 | Context Window 宣称 | 1M [T1] | 1M [T1] | 1M [T1] | 128K [T1] | 平 (前三家)
 | 8. Input 价格 / 9. Output 价格 / 能力差 5% 但价格差 18×，对绝大多数应用而言是后者决定可行性。DeepSeek 比 Opus 便宜 18.5×（input）/ 10.2×（output），意味着同预算下处理量数量级提升。这不只是"便宜"，而是改变了哪些用例成立 —— 大规模数据标注、海量文档处理、低单价 SaaS，只在 DeepSeek 价位下才有商业模型。 / GPT-5.5 用 $1.25/$10 跑出 88.7% SWE-bench，是性价比维度上值得单独注意的位置。 |  | 7 | MRCRv2 @1M effective | 76-78.3% [T1] | UNK [T-] | UNK [T-] | N/A (128K) | Anthropic 唯一披露
 | 第四组（10–12）：架构与生态 — 战略位置 |  | 8 | Input 价格 (USD/M) | $5 [T1] | $1.25 [T1] | $2 [T3] | $0.27 [T1] | DeepSeek (18.5× 便宜 vs Opus)
 | 10. 原生多模态 / text+vision 是基础线，native A/V（音频+视频原生）是下一层。重要性：决定模型能进入哪些产品形态。能听能看的模型才能做语音助手、实时视频理解、陪伴类应用。Gemini 在这里独占一档。 / 11. 推理架构 type / 不同设计哲学： / Hybrid reasoning（Anthropic）：模型自主决定何时"深思考"vs"快回答" / Unified system（OpenAI）：单模型不显式区分模式 / Sparse MoE native（Google）：混合专家，每次只激活部分参数 / MoE + DSA + RL（DeepSeek）：MoE 加动态稀疏注意力加 RL 训练 / 这一项不测当前能力，而暴露未来的扩展路径。Sparse MoE 在大模型上有算力优势；hybrid 让用户在"快"和"准"之间切换；DeepSeek 公开技术细节最多，符合它"开源/透明"的市场身份。 / 12. 企业 API share / B2B 市场份额。技术领先和商业领先是两件事。Anthropic 40% + LMArena 1503 = "既被买单也被偏好"，这种叠加在 CIO 选型决策中是核心信号。DeepSeek 1%（美国）说明：技术/价格优势不自动转换为采购，监管、合规、信任都是真实门槛。 |  | 9 | Output 价格 (USD/M) | $25 [T1] | $10 [T1] | $12 [T3] | $2.45 [T1] | DeepSeek (10.2× 便宜 vs Opus)
 |  |  | 10 | 原生多模态 (audio/video) | text + vision | text + vision | native A/V [T1] | text only [T1] | Google
 |  |  | 11 | 推理架构 type | hybrid reasoning [T1] | unified-system [T1] | sparse MoE native multimodal [T1] | MoE + DSA + RL [T1] | DeepSeek 透明度最高
 |  |  | 12 | 企业 API share (公司) | 40% [T2] | 27% [T2] | 21% [T2] | 1% (US) [T2] | Anthropic