国产大模型选择指南（2026年5月）

参考资料：各家厂商官方发布、BenchLM、CloudMinds、Artificial Analysis 等评测平台公开数据更新日期：2026-05-31

一、WorkBuddy 可选模型一览

WorkBuddy（CodeBuddy 内）当前支持以下模型系列，涵盖 4 家厂商、13 个模型：

厂商	可用模型	定位
智谱 AI	GLM-5.1、GLM-5.0、GLM-5.0-Turbo、GLM-5v-Turbo、GLM-4.7	全能均衡 / 多模态
MiniMax	MiniMax-M2.7、MiniMax-M2.5	性价比 / 创意
月之暗面	Kimi-K2.6、Kimi-K2.5	长文本 / Agent
腾讯混元	Hy3 preview	务实推理 / 多模态
深度求索	Deepseek-V4-Pro、Deepseek-V4-Flash、DeepSeek-V3.2	推理 / 代码最强

二、全模型详细对比

2.1 基础参数

模型	厂商	架构	总参数	激活参数	上下文	开源
DeepSeek V4-Pro	深度求索	MoE	1.6T	49B	1M	✅ MIT
DeepSeek V4-Flash	深度求索	MoE	284B	13B	1M	✅ MIT
DeepSeek V3.2	深度求索	MoE	685B	37B	128K	✅ MIT
GLM-5.1	智谱 AI	MoE	~1T	~100B+	1M+	✅ 开源
GLM-5.0	智谱 AI	MoE	~1T	~100B	1M	✅ 开源
GLM-5.0-Turbo	智谱 AI	MoE	—	—	—	✅ 开源
GLM-5v-Turbo	智谱 AI	MoE	—	—	—	✅ 开源
GLM-4.7	智谱 AI	Dense	~130B	130B	128K	✅ 开源
Kimi K2.6	月之暗面	MoE	~1T	~100B	1M	✅ 开源
Kimi K2.5	月之暗面	MoE	~1T	~100B	128K	✅ 开源
MiniMax M2.7	MiniMax	MoE	456B	~45B	1M	❌ 闭源
MiniMax M2.5	MiniMax	MoE	456B	~45B	128K	❌ 闭源
Hy3 preview	腾讯混元	MoE	295B	21B	256K	✅ 开源
Qwen3.6-35B-A3B	阿里通义	MoE	350B	30B	128K	✅ Apache 2.0
ERNIE 5.1	百度	MoE	~800B	~50B	128K	❌ 闭源
MiMo-V2-Pro	小米	MoE+Hybrid Attn	>1T	42B	1M	❌ 闭源

2.2 综合能力评分

模型	综合评分	编码	推理/数学	长文本	Agent/工具	中文	创意写作
DeepSeek V4-Pro	87 🥇	89.8 🥇	强	强 🥇	强	强	中
GLM-5.1	85 🥈	83	82	90	88	93 🥇	80
Kimi K2.6	83 🥉	85	80	95 🥇	92 🥇	90	82
DeepSeek V4-Flash	77	—	中	强	中	中	中
MiniMax M2.7	82	78	75	88	82	86	88 🥇
Hy3 preview	82	81	85	80	88	87	80
Qwen3.6-35B-A3B	80	85	78	70	75	83	72
ERNIE 5.1	84	82	82	75	90	88	86
MiMo-V2-Pro	81	80	78	90	85	82	75

评分说明：综合评分基于 Benchmark 综合排名，细分维度综合多来源数据。🥇 标记为该项第一。

2.3 API 价格对比

模型	输入（¥/百万 tokens）	输出（¥/百万 tokens）	性价比评级
DeepSeek V4-Pro	12.6	25.2	⭐⭐⭐
DeepSeek V4-Flash	1.0	2.0	⭐⭐⭐⭐⭐
GLM-5.1	5.0	20.0	⭐⭐⭐⭐
Kimi K2.6	8.0	32.0	⭐⭐⭐
MiniMax M2.7	1.0	4.0	⭐⭐⭐⭐⭐
Hy3 preview	1.2	4.0	⭐⭐⭐⭐⭐
ERNIE 5.1	8.0	24.0	⭐⭐⭐
MiMo-V2-Pro	7.2~14.4	21.6~43.2	⭐⭐

价格天梯： DeepSeek V4-Flash / MiniMax M2.7 / Hy3 preview 组成"1元级"超低价梯队。

三、厂商与模型专题

3.1 深度求索 — DeepSeek V4 系列

目前国产模型中综合最强，推理和代码能力天花板。

维度	V4-Pro（旗舰）	V4-Flash（轻量）	V3.2（旧版）
定位	「中国最强全场景模型」	极致性价比	旧款，已落后
架构	混合注意力 MoE 1.6T	混合注意力 MoE 284B	传统 MoE 685B
特色	Hybrid Attention，1M 上下文 FLOPs 仅 V3 的 27%	1M 上下文 FLOPs 仅 V3 的 10%	—
适用	硬核代码、数学推理、长文档分析	日常对话、批量调用、个人开发者	不推荐新项目使用

核心优势： MIT 开源协议，可商用可自部署，社区生态最活跃。V4-Pro 1.6T 参数是目前全球最大开源权重模型。

3.2 智谱 AI — GLM 系列

国产模型中最全面均衡，中文理解最佳，企业级服务最成熟。

维度	GLM-5.1	GLM-5.0	GLM-4.7
定位	最新旗舰	基础版	上代旗舰
特色	中文理解最强（93分）、综合最均衡	稳定可靠	成熟稳定
适用	企业应用、中文内容、多模态	稳定可靠场景	保守选择

GLM-5v-Turbo 支持视觉理解（多模态），GLM-5.0-Turbo 为速度优化版。GLM-5.1 在 MMLU（90）、中文理解（93）上均为国产领先水平。

3.3 月之暗面 — Kimi 系列

长文本之王，Agent/工具调用领域最强。

维度	K2.6	K2.5
定位	最新旗舰	前代
特色	百万级上下文 + Agent 顶级	稳定版
适用	长文档分析、代码审查、复杂 Agent 任务	一般对话

核心优势： 长上下文理解（95分）和 Agent/工具调用（92分）均为国产最高。1M 上下文窗口稳定可用，实测长文档检索准确率领先。

3.4 MiniMax

性价比之王，创意写作和 C 端体验突出。

维度	M2.7	M2.5
定位	最新旗舰	前代
特色	创意写作最强（88分）、价格极低	速度优先
适用	内容创作、大规模调用、预算敏感场景	轻量任务

核心优势： API 价格 ¥1/¥4，不到其他旗舰模型 1/4。创意写作能力突出，适合文案、营销、故事生成等场景。

3.5 腾讯混元 — Hy3 preview

务实推理派，Agent 稳定性和真实场景表现优异。

维度	Hy3 preview
参数	295B 总参 / 21B 激活 / 256K 上下文
发布时间	2026-04-23
开源协议	开源
核心特色	快慢思考融合、实战验证（已在腾讯内部 40+ 业务落地）

核心优势：

清华大学数学博士资格考 国内模型最高分
SWE-Bench / Terminal-Bench 2.0 极强竞争力
已在 CodeBuddy & WorkBuddy、腾讯元宝、游戏 AI、腾讯文档等实际业务验证
价格仅 ¥1.2/¥4，性价比极高

适用场景： 复杂推理、Agent 工作流、企业内部集成、预算敏感的高质量需求。

3.6 阿里通义千问 — Qwen3 系列

开源生态标杆，覆盖参数范围最广。

维度	Qwen3.6-35B-A3B	Qwen3-235B（建议参数）
参数	350B 总参 / 30B 激活	235B 总参 / 22B 激活
特点	轻量高效，本地可跑	开源性能天花板
适用	本地部署、个人开发者	企业自部署、高精度场景

核心优势： Apache 2.0 开源协议，最友好的商用许可。8B~397B 全系列覆盖，从端侧到云端一体。Qwen3.6-35B-A3B 以 21GB 量化体积即可在本地运行，编程能力出色。

3.7 百度 — 文心 ERNIE 5.1

Agent 和创作能力突出，基于文心 5.0 知识蒸馏。

维度	ERNIE 5.1
发布时间	2026-05-09
核心特色	仅用同规模模型 6% 预训练成本
优势领域	Agent（τ³-bench 超越 V4-Pro）、创意写作、搜索

亮点数据：

Arena 搜索榜 全球第 4 / 国内第 1（1223分）
AIME26（使用工具）99.6 分，仅次于 Gemini 3.1 Pro
OPD 多阶段强化学习管线，解决能力冲突"跷跷板"效应
闭源，通过百度千帆平台调用

3.8 其他值得关注的模型

模型	厂商	特点	状态
MiMo-V2-Pro	小米	>1T 总参 / 42B 激活 / 1M 上下文 / 混合注意力	已上线 API
阶跃 Step-2	阶跃星辰	万亿参数 MoE，多模态理解强	已发布
百川 Baichuan	百川智能	知识问答、文本创作	运营中，转向 B 端
零一万物 Yi	零一万物	多智能体方向	转型 B 端

四、各维度天梯榜

🏆 综合能力 Top 5

排名	模型	综合评分
🥇	DeepSeek V4-Pro	87
🥈	GLM-5.1	85
🥉	ERNIE 5.1	84
4	Kimi K2.6	83
5	DeepSeek V4-Pro (High)	83

💻 编码能力 Top 5

排名	模型	编码评分
🥇	DeepSeek V4-Pro	89.8
🥈	Kimi K2.6	85
🥉	Qwen3.6-35B-A3B	85
4	GLM-5.1	83
5	ERNIE 5.1	82

📄 长文本处理 Top 5

排名	模型	上下文	长文理解
🥇	Kimi K2.6	1M	95
🥈	GLM-5.1	1M+	90
🥉	MiMo-V2-Pro	1M	90
4	MiniMax M2.7	1M	88
5	DeepSeek V4-Pro	1M	85

🤖 Agent / 工具调用 Top 5

排名	模型	Agent 评分
🥇	Kimi K2.6	92
🥈	ERNIE 5.1	90
🥉	GLM-5.1	88
4	Hy3 preview	88
5	MiMo-V2-Pro	85

💰 性价比 Top 5（输出价格排序）

排名	模型	输出（¥/百万 tokens）
🥇	DeepSeek V4-Flash	2.0
🥇	MiniMax M2.7	4.0
🥇	Hy3 preview	4.0
4	GLM-5.1	20.0
5	DeepSeek V4-Pro	25.2

🆓 开源模型 Top 5

排名	模型	开源协议	总参数
🥇	DeepSeek V4-Pro	MIT	1.6T
🥈	GLM-5.1	开源	~1T
🥉	Kimi K2.6	开源	~1T
4	Qwen3.6-35B-A3B	Apache 2.0	350B
5	Hy3 preview	开源	295B

五、场景选型推荐

5.1 按任务类型选择

使用场景	首选模型	备选	理由
代码生成 / 调试	DeepSeek V4-Pro	Qwen3.6-35B-A3B	V4-Pro 编码评分最高
数学 / 逻辑推理	DeepSeek V4-Pro	Hy3 preview	推理链深度最强
中文内容创作	GLM-5.1	ERNIE 5.1	中文理解和创意写作均强
长文档分析	Kimi K2.6	DeepSeek V4-Pro	百万级上下文 + Agent 读取
复杂 Agent / 工具链	Kimi K2.6 / ERNIE 5.1	Hy3 preview	Agent 评分最高
多模态 / 图片理解	GLM-5v-Turbo / Hy3 preview	—	原生支持视觉
高并发低成本调用	MiniMax M2.7 / DeepSeek V4-Flash	Hy3 preview	价格仅 ¥1~¥4
本地自部署	Qwen3.6-35B-A3B	DeepSeek V4-Flash	体积小、开源友好
企业级 API 集成	GLM-5.1	DeepSeek V4-Pro	最均衡，服务成熟

5.2 在 WorkBuddy 内如何选

你的需求	推荐模型	切换命令
日常对话、内容写作	GLM-5.1（当前默认）	—
代码开发、技术分析	Deepseek-V4-Pro	`/model deepseek-v4-pro`
快速响应、轻量任务	Deepseek-V4-Flash	`/model deepseek-v4-flash`
长文档解读、Agent 任务	Kimi-K2.6	`/model kimi-k2.6`
图片理解、多模态	GLM-5v-Turbo	`/model glm-5v-turbo`
预算敏感、内容生成	MiniMax-M2.7	`/model minimax-m2.7`
复杂推理、Agent 工作流	Hy3 preview	`/model hy3-preview`

六、模型历史版本关系

2024                2025                2026 Q1               2026 Q2
──┼──────────────────┼───────────────────┼───────────────────┼──
                         深度求索
  V3                    V3.1/V3.2          V4-Flash (284B)    ★ V4-Pro (1.6T)
                                                               V3.2 (旧)
                         智谱 GLM
  GLM-4                GLM-4.7            GLM-5.0             ★ GLM-5.1
                                                               GLM-5v-Turbo
                         月之暗面 Kimi
  k1.5                 K2                  K2.5               ★ K2.6
                         腾讯混元
  混元大模型            混元 Pro            Hy3 (内部)         ★ Hy3 preview (开源)
                         阿里通义千问
  Qwen2.5              Qwen3              Qwen3.5             ★ Qwen3.6
                         百度文心
  ERNIE 4.0            ERNIE 4.5          ERNIE 5.0          ★ ERNIE 5.1
                         小米
  —                    MiMo               MiMo-V2             ★ MiMo-V2-Pro

七、更新与说明

数据来源： 各厂商官方发布、BenchLM、Artificial Analysis、CloudMinds、社区评测
评分说明： 综合评分以 Artificial Analysis GDPval-AA Elo 为主要基准，细分维度结合多源数据汇总
时效性： 国产大模型迭代极快（2026年4~5月密集发布），建议定期关注最新评测
免责： Benchmark 数据为参考值，实际体验因场景、Prompts、参数配置等因素而异

国产大模型选择指南（2026年5月） ​

一、WorkBuddy 可选模型一览 ​

二、全模型详细对比 ​

2.1 基础参数 ​

2.2 综合能力评分 ​

2.3 API 价格对比 ​

三、厂商与模型专题 ​

3.1 深度求索 — DeepSeek V4 系列 ​

3.2 智谱 AI — GLM 系列 ​

3.3 月之暗面 — Kimi 系列 ​

3.4 MiniMax ​

3.5 腾讯混元 — Hy3 preview ​

3.6 阿里通义千问 — Qwen3 系列 ​

3.7 百度 — 文心 ERNIE 5.1 ​

3.8 其他值得关注的模型 ​

四、各维度天梯榜 ​

🏆 综合能力 Top 5 ​

💻 编码能力 Top 5 ​

📄 长文本处理 Top 5 ​

🤖 Agent / 工具调用 Top 5 ​

💰 性价比 Top 5（输出价格排序） ​

🆓 开源模型 Top 5 ​

五、场景选型推荐 ​

5.1 按任务类型选择 ​

5.2 在 WorkBuddy 内如何选 ​

六、模型历史版本关系 ​

七、更新与说明 ​