国产大模型选择指南(2026年5月)
参考资料:各家厂商官方发布、BenchLM、CloudMinds、Artificial Analysis 等评测平台公开数据 更新日期:2026-05-31
一、WorkBuddy 可选模型一览
WorkBuddy(CodeBuddy 内)当前支持以下模型系列,涵盖 4 家厂商、13 个模型:
| 厂商 | 可用模型 | 定位 |
|---|---|---|
| 智谱 AI | GLM-5.1、GLM-5.0、GLM-5.0-Turbo、GLM-5v-Turbo、GLM-4.7 | 全能均衡 / 多模态 |
| MiniMax | MiniMax-M2.7、MiniMax-M2.5 | 性价比 / 创意 |
| 月之暗面 | Kimi-K2.6、Kimi-K2.5 | 长文本 / Agent |
| 腾讯混元 | Hy3 preview | 务实推理 / 多模态 |
| 深度求索 | Deepseek-V4-Pro、Deepseek-V4-Flash、DeepSeek-V3.2 | 推理 / 代码最强 |
二、全模型详细对比
2.1 基础参数
| 模型 | 厂商 | 架构 | 总参数 | 激活参数 | 上下文 | 开源 |
|---|---|---|---|---|---|---|
| DeepSeek V4-Pro | 深度求索 | MoE | 1.6T | 49B | 1M | ✅ MIT |
| DeepSeek V4-Flash | 深度求索 | MoE | 284B | 13B | 1M | ✅ MIT |
| DeepSeek V3.2 | 深度求索 | MoE | 685B | 37B | 128K | ✅ MIT |
| GLM-5.1 | 智谱 AI | MoE | ~1T | ~100B+ | 1M+ | ✅ 开源 |
| GLM-5.0 | 智谱 AI | MoE | ~1T | ~100B | 1M | ✅ 开源 |
| GLM-5.0-Turbo | 智谱 AI | MoE | — | — | — | ✅ 开源 |
| GLM-5v-Turbo | 智谱 AI | MoE | — | — | — | ✅ 开源 |
| GLM-4.7 | 智谱 AI | Dense | ~130B | 130B | 128K | ✅ 开源 |
| Kimi K2.6 | 月之暗面 | MoE | ~1T | ~100B | 1M | ✅ 开源 |
| Kimi K2.5 | 月之暗面 | MoE | ~1T | ~100B | 128K | ✅ 开源 |
| MiniMax M2.7 | MiniMax | MoE | 456B | ~45B | 1M | ❌ 闭源 |
| MiniMax M2.5 | MiniMax | MoE | 456B | ~45B | 128K | ❌ 闭源 |
| Hy3 preview | 腾讯混元 | MoE | 295B | 21B | 256K | ✅ 开源 |
| Qwen3.6-35B-A3B | 阿里通义 | MoE | 350B | 30B | 128K | ✅ Apache 2.0 |
| ERNIE 5.1 | 百度 | MoE | ~800B | ~50B | 128K | ❌ 闭源 |
| MiMo-V2-Pro | 小米 | MoE+Hybrid Attn | >1T | 42B | 1M | ❌ 闭源 |
2.2 综合能力评分
| 模型 | 综合评分 | 编码 | 推理/数学 | 长文本 | Agent/工具 | 中文 | 创意写作 |
|---|---|---|---|---|---|---|---|
| DeepSeek V4-Pro | 87 🥇 | 89.8 🥇 | 强 | 强 🥇 | 强 | 强 | 中 |
| GLM-5.1 | 85 🥈 | 83 | 82 | 90 | 88 | 93 🥇 | 80 |
| Kimi K2.6 | 83 🥉 | 85 | 80 | 95 🥇 | 92 🥇 | 90 | 82 |
| DeepSeek V4-Flash | 77 | — | 中 | 强 | 中 | 中 | 中 |
| MiniMax M2.7 | 82 | 78 | 75 | 88 | 82 | 86 | 88 🥇 |
| Hy3 preview | 82 | 81 | 85 | 80 | 88 | 87 | 80 |
| Qwen3.6-35B-A3B | 80 | 85 | 78 | 70 | 75 | 83 | 72 |
| ERNIE 5.1 | 84 | 82 | 82 | 75 | 90 | 88 | 86 |
| MiMo-V2-Pro | 81 | 80 | 78 | 90 | 85 | 82 | 75 |
评分说明:综合评分基于 Benchmark 综合排名,细分维度综合多来源数据。🥇 标记为该项第一。
2.3 API 价格对比
| 模型 | 输入(¥/百万 tokens) | 输出(¥/百万 tokens) | 性价比评级 |
|---|---|---|---|
| DeepSeek V4-Pro | 12.6 | 25.2 | ⭐⭐⭐ |
| DeepSeek V4-Flash | 1.0 | 2.0 | ⭐⭐⭐⭐⭐ |
| GLM-5.1 | 5.0 | 20.0 | ⭐⭐⭐⭐ |
| Kimi K2.6 | 8.0 | 32.0 | ⭐⭐⭐ |
| MiniMax M2.7 | 1.0 | 4.0 | ⭐⭐⭐⭐⭐ |
| Hy3 preview | 1.2 | 4.0 | ⭐⭐⭐⭐⭐ |
| ERNIE 5.1 | 8.0 | 24.0 | ⭐⭐⭐ |
| MiMo-V2-Pro | 7.2~14.4 | 21.6~43.2 | ⭐⭐ |
价格天梯: DeepSeek V4-Flash / MiniMax M2.7 / Hy3 preview 组成"1元级"超低价梯队。
三、厂商与模型专题
3.1 深度求索 — DeepSeek V4 系列
目前国产模型中综合最强,推理和代码能力天花板。
| 维度 | V4-Pro(旗舰) | V4-Flash(轻量) | V3.2(旧版) |
|---|---|---|---|
| 定位 | 「中国最强全场景模型」 | 极致性价比 | 旧款,已落后 |
| 架构 | 混合注意力 MoE 1.6T | 混合注意力 MoE 284B | 传统 MoE 685B |
| 特色 | Hybrid Attention,1M 上下文 FLOPs 仅 V3 的 27% | 1M 上下文 FLOPs 仅 V3 的 10% | — |
| 适用 | 硬核代码、数学推理、长文档分析 | 日常对话、批量调用、个人开发者 | 不推荐新项目使用 |
核心优势: MIT 开源协议,可商用可自部署,社区生态最活跃。V4-Pro 1.6T 参数是目前全球最大开源权重模型。
3.2 智谱 AI — GLM 系列
国产模型中最全面均衡,中文理解最佳,企业级服务最成熟。
| 维度 | GLM-5.1 | GLM-5.0 | GLM-4.7 |
|---|---|---|---|
| 定位 | 最新旗舰 | 基础版 | 上代旗舰 |
| 特色 | 中文理解最强(93分)、综合最均衡 | 稳定可靠 | 成熟稳定 |
| 适用 | 企业应用、中文内容、多模态 | 稳定可靠场景 | 保守选择 |
GLM-5v-Turbo 支持视觉理解(多模态),GLM-5.0-Turbo 为速度优化版。GLM-5.1 在 MMLU(90)、中文理解(93)上均为国产领先水平。
3.3 月之暗面 — Kimi 系列
长文本之王,Agent/工具调用领域最强。
| 维度 | K2.6 | K2.5 |
|---|---|---|
| 定位 | 最新旗舰 | 前代 |
| 特色 | 百万级上下文 + Agent 顶级 | 稳定版 |
| 适用 | 长文档分析、代码审查、复杂 Agent 任务 | 一般对话 |
核心优势: 长上下文理解(95分)和 Agent/工具调用(92分)均为国产最高。1M 上下文窗口稳定可用,实测长文档检索准确率领先。
3.4 MiniMax
性价比之王,创意写作和 C 端体验突出。
| 维度 | M2.7 | M2.5 |
|---|---|---|
| 定位 | 最新旗舰 | 前代 |
| 特色 | 创意写作最强(88分)、价格极低 | 速度优先 |
| 适用 | 内容创作、大规模调用、预算敏感场景 | 轻量任务 |
核心优势: API 价格 ¥1/¥4,不到其他旗舰模型 1/4。创意写作能力突出,适合文案、营销、故事生成等场景。
3.5 腾讯混元 — Hy3 preview
务实推理派,Agent 稳定性和真实场景表现优异。
| 维度 | Hy3 preview |
|---|---|
| 参数 | 295B 总参 / 21B 激活 / 256K 上下文 |
| 发布时间 | 2026-04-23 |
| 开源协议 | 开源 |
| 核心特色 | 快慢思考融合、实战验证(已在腾讯内部 40+ 业务落地) |
核心优势:
- 清华大学数学博士资格考 国内模型最高分
- SWE-Bench / Terminal-Bench 2.0 极强竞争力
- 已在 CodeBuddy & WorkBuddy、腾讯元宝、游戏 AI、腾讯文档等实际业务验证
- 价格仅 ¥1.2/¥4,性价比极高
适用场景: 复杂推理、Agent 工作流、企业内部集成、预算敏感的高质量需求。
3.6 阿里通义千问 — Qwen3 系列
开源生态标杆,覆盖参数范围最广。
| 维度 | Qwen3.6-35B-A3B | Qwen3-235B(建议参数) |
|---|---|---|
| 参数 | 350B 总参 / 30B 激活 | 235B 总参 / 22B 激活 |
| 特点 | 轻量高效,本地可跑 | 开源性能天花板 |
| 适用 | 本地部署、个人开发者 | 企业自部署、高精度场景 |
核心优势: Apache 2.0 开源协议,最友好的商用许可。8B~397B 全系列覆盖,从端侧到云端一体。Qwen3.6-35B-A3B 以 21GB 量化体积即可在本地运行,编程能力出色。
3.7 百度 — 文心 ERNIE 5.1
Agent 和创作能力突出,基于文心 5.0 知识蒸馏。
| 维度 | ERNIE 5.1 |
|---|---|
| 发布时间 | 2026-05-09 |
| 核心特色 | 仅用同规模模型 6% 预训练成本 |
| 优势领域 | Agent(τ³-bench 超越 V4-Pro)、创意写作、搜索 |
亮点数据:
- Arena 搜索榜 全球第 4 / 国内第 1(1223分)
- AIME26(使用工具)99.6 分,仅次于 Gemini 3.1 Pro
- OPD 多阶段强化学习管线,解决能力冲突"跷跷板"效应
- 闭源,通过百度千帆平台调用
3.8 其他值得关注的模型
| 模型 | 厂商 | 特点 | 状态 |
|---|---|---|---|
| MiMo-V2-Pro | 小米 | >1T 总参 / 42B 激活 / 1M 上下文 / 混合注意力 | 已上线 API |
| 阶跃 Step-2 | 阶跃星辰 | 万亿参数 MoE,多模态理解强 | 已发布 |
| 百川 Baichuan | 百川智能 | 知识问答、文本创作 | 运营中,转向 B 端 |
| 零一万物 Yi | 零一万物 | 多智能体方向 | 转型 B 端 |
四、各维度天梯榜
🏆 综合能力 Top 5
| 排名 | 模型 | 综合评分 |
|---|---|---|
| 🥇 | DeepSeek V4-Pro | 87 |
| 🥈 | GLM-5.1 | 85 |
| 🥉 | ERNIE 5.1 | 84 |
| 4 | Kimi K2.6 | 83 |
| 5 | DeepSeek V4-Pro (High) | 83 |
💻 编码能力 Top 5
| 排名 | 模型 | 编码评分 |
|---|---|---|
| 🥇 | DeepSeek V4-Pro | 89.8 |
| 🥈 | Kimi K2.6 | 85 |
| 🥉 | Qwen3.6-35B-A3B | 85 |
| 4 | GLM-5.1 | 83 |
| 5 | ERNIE 5.1 | 82 |
📄 长文本处理 Top 5
| 排名 | 模型 | 上下文 | 长文理解 |
|---|---|---|---|
| 🥇 | Kimi K2.6 | 1M | 95 |
| 🥈 | GLM-5.1 | 1M+ | 90 |
| 🥉 | MiMo-V2-Pro | 1M | 90 |
| 4 | MiniMax M2.7 | 1M | 88 |
| 5 | DeepSeek V4-Pro | 1M | 85 |
🤖 Agent / 工具调用 Top 5
| 排名 | 模型 | Agent 评分 |
|---|---|---|
| 🥇 | Kimi K2.6 | 92 |
| 🥈 | ERNIE 5.1 | 90 |
| 🥉 | GLM-5.1 | 88 |
| 4 | Hy3 preview | 88 |
| 5 | MiMo-V2-Pro | 85 |
💰 性价比 Top 5(输出价格排序)
| 排名 | 模型 | 输出(¥/百万 tokens) |
|---|---|---|
| 🥇 | DeepSeek V4-Flash | 2.0 |
| 🥇 | MiniMax M2.7 | 4.0 |
| 🥇 | Hy3 preview | 4.0 |
| 4 | GLM-5.1 | 20.0 |
| 5 | DeepSeek V4-Pro | 25.2 |
🆓 开源模型 Top 5
| 排名 | 模型 | 开源协议 | 总参数 |
|---|---|---|---|
| 🥇 | DeepSeek V4-Pro | MIT | 1.6T |
| 🥈 | GLM-5.1 | 开源 | ~1T |
| 🥉 | Kimi K2.6 | 开源 | ~1T |
| 4 | Qwen3.6-35B-A3B | Apache 2.0 | 350B |
| 5 | Hy3 preview | 开源 | 295B |
五、场景选型推荐
5.1 按任务类型选择
| 使用场景 | 首选模型 | 备选 | 理由 |
|---|---|---|---|
| 代码生成 / 调试 | DeepSeek V4-Pro | Qwen3.6-35B-A3B | V4-Pro 编码评分最高 |
| 数学 / 逻辑推理 | DeepSeek V4-Pro | Hy3 preview | 推理链深度最强 |
| 中文内容创作 | GLM-5.1 | ERNIE 5.1 | 中文理解和创意写作均强 |
| 长文档分析 | Kimi K2.6 | DeepSeek V4-Pro | 百万级上下文 + Agent 读取 |
| 复杂 Agent / 工具链 | Kimi K2.6 / ERNIE 5.1 | Hy3 preview | Agent 评分最高 |
| 多模态 / 图片理解 | GLM-5v-Turbo / Hy3 preview | — | 原生支持视觉 |
| 高并发低成本调用 | MiniMax M2.7 / DeepSeek V4-Flash | Hy3 preview | 价格仅 ¥1~¥4 |
| 本地自部署 | Qwen3.6-35B-A3B | DeepSeek V4-Flash | 体积小、开源友好 |
| 企业级 API 集成 | GLM-5.1 | DeepSeek V4-Pro | 最均衡,服务成熟 |
5.2 在 WorkBuddy 内如何选
| 你的需求 | 推荐模型 | 切换命令 |
|---|---|---|
| 日常对话、内容写作 | GLM-5.1(当前默认) | — |
| 代码开发、技术分析 | Deepseek-V4-Pro | /model deepseek-v4-pro |
| 快速响应、轻量任务 | Deepseek-V4-Flash | /model deepseek-v4-flash |
| 长文档解读、Agent 任务 | Kimi-K2.6 | /model kimi-k2.6 |
| 图片理解、多模态 | GLM-5v-Turbo | /model glm-5v-turbo |
| 预算敏感、内容生成 | MiniMax-M2.7 | /model minimax-m2.7 |
| 复杂推理、Agent 工作流 | Hy3 preview | /model hy3-preview |
六、模型历史版本关系
2024 2025 2026 Q1 2026 Q2
──┼──────────────────┼───────────────────┼───────────────────┼──
深度求索
V3 V3.1/V3.2 V4-Flash (284B) ★ V4-Pro (1.6T)
V3.2 (旧)
智谱 GLM
GLM-4 GLM-4.7 GLM-5.0 ★ GLM-5.1
GLM-5v-Turbo
月之暗面 Kimi
k1.5 K2 K2.5 ★ K2.6
腾讯混元
混元大模型 混元 Pro Hy3 (内部) ★ Hy3 preview (开源)
阿里通义千问
Qwen2.5 Qwen3 Qwen3.5 ★ Qwen3.6
百度文心
ERNIE 4.0 ERNIE 4.5 ERNIE 5.0 ★ ERNIE 5.1
小米
— MiMo MiMo-V2 ★ MiMo-V2-Pro七、更新与说明
- 数据来源: 各厂商官方发布、BenchLM、Artificial Analysis、CloudMinds、社区评测
- 评分说明: 综合评分以 Artificial Analysis GDPval-AA Elo 为主要基准,细分维度结合多源数据汇总
- 时效性: 国产大模型迭代极快(2026年4~5月密集发布),建议定期关注最新评测
- 免责: Benchmark 数据为参考值,实际体验因场景、Prompts、参数配置等因素而异