跳转到内容

国产大模型选择指南(2026年5月)

参考资料:各家厂商官方发布、BenchLM、CloudMinds、Artificial Analysis 等评测平台公开数据 更新日期:2026-05-31


一、WorkBuddy 可选模型一览

WorkBuddy(CodeBuddy 内)当前支持以下模型系列,涵盖 4 家厂商、13 个模型

厂商可用模型定位
智谱 AIGLM-5.1、GLM-5.0、GLM-5.0-Turbo、GLM-5v-Turbo、GLM-4.7全能均衡 / 多模态
MiniMaxMiniMax-M2.7、MiniMax-M2.5性价比 / 创意
月之暗面Kimi-K2.6、Kimi-K2.5长文本 / Agent
腾讯混元Hy3 preview务实推理 / 多模态
深度求索Deepseek-V4-Pro、Deepseek-V4-Flash、DeepSeek-V3.2推理 / 代码最强

二、全模型详细对比

2.1 基础参数

模型厂商架构总参数激活参数上下文开源
DeepSeek V4-Pro深度求索MoE1.6T49B1M✅ MIT
DeepSeek V4-Flash深度求索MoE284B13B1M✅ MIT
DeepSeek V3.2深度求索MoE685B37B128K✅ MIT
GLM-5.1智谱 AIMoE~1T~100B+1M+✅ 开源
GLM-5.0智谱 AIMoE~1T~100B1M✅ 开源
GLM-5.0-Turbo智谱 AIMoE✅ 开源
GLM-5v-Turbo智谱 AIMoE✅ 开源
GLM-4.7智谱 AIDense~130B130B128K✅ 开源
Kimi K2.6月之暗面MoE~1T~100B1M✅ 开源
Kimi K2.5月之暗面MoE~1T~100B128K✅ 开源
MiniMax M2.7MiniMaxMoE456B~45B1M❌ 闭源
MiniMax M2.5MiniMaxMoE456B~45B128K❌ 闭源
Hy3 preview腾讯混元MoE295B21B256K✅ 开源
Qwen3.6-35B-A3B阿里通义MoE350B30B128K✅ Apache 2.0
ERNIE 5.1百度MoE~800B~50B128K❌ 闭源
MiMo-V2-Pro小米MoE+Hybrid Attn>1T42B1M❌ 闭源

2.2 综合能力评分

模型综合评分编码推理/数学长文本Agent/工具中文创意写作
DeepSeek V4-Pro87 🥇89.8 🥇强 🥇
GLM-5.185 🥈8382908893 🥇80
Kimi K2.683 🥉858095 🥇92 🥇9082
DeepSeek V4-Flash77
MiniMax M2.782787588828688 🥇
Hy3 preview82818580888780
Qwen3.6-35B-A3B80857870758372
ERNIE 5.184828275908886
MiMo-V2-Pro81807890858275

评分说明:综合评分基于 Benchmark 综合排名,细分维度综合多来源数据。🥇 标记为该项第一。


2.3 API 价格对比

模型输入(¥/百万 tokens)输出(¥/百万 tokens)性价比评级
DeepSeek V4-Pro12.625.2⭐⭐⭐
DeepSeek V4-Flash1.02.0⭐⭐⭐⭐⭐
GLM-5.15.020.0⭐⭐⭐⭐
Kimi K2.68.032.0⭐⭐⭐
MiniMax M2.71.04.0⭐⭐⭐⭐⭐
Hy3 preview1.24.0⭐⭐⭐⭐⭐
ERNIE 5.18.024.0⭐⭐⭐
MiMo-V2-Pro7.2~14.421.6~43.2⭐⭐

价格天梯: DeepSeek V4-Flash / MiniMax M2.7 / Hy3 preview 组成"1元级"超低价梯队。


三、厂商与模型专题

3.1 深度求索 — DeepSeek V4 系列

目前国产模型中综合最强,推理和代码能力天花板。

维度V4-Pro(旗舰)V4-Flash(轻量)V3.2(旧版)
定位「中国最强全场景模型」极致性价比旧款,已落后
架构混合注意力 MoE 1.6T混合注意力 MoE 284B传统 MoE 685B
特色Hybrid Attention,1M 上下文 FLOPs 仅 V3 的 27%1M 上下文 FLOPs 仅 V3 的 10%
适用硬核代码、数学推理、长文档分析日常对话、批量调用、个人开发者不推荐新项目使用

核心优势: MIT 开源协议,可商用可自部署,社区生态最活跃。V4-Pro 1.6T 参数是目前全球最大开源权重模型。


3.2 智谱 AI — GLM 系列

国产模型中最全面均衡,中文理解最佳,企业级服务最成熟。

维度GLM-5.1GLM-5.0GLM-4.7
定位最新旗舰基础版上代旗舰
特色中文理解最强(93分)、综合最均衡稳定可靠成熟稳定
适用企业应用、中文内容、多模态稳定可靠场景保守选择

GLM-5v-Turbo 支持视觉理解(多模态),GLM-5.0-Turbo 为速度优化版。GLM-5.1 在 MMLU(90)、中文理解(93)上均为国产领先水平。


3.3 月之暗面 — Kimi 系列

长文本之王,Agent/工具调用领域最强。

维度K2.6K2.5
定位最新旗舰前代
特色百万级上下文 + Agent 顶级稳定版
适用长文档分析、代码审查、复杂 Agent 任务一般对话

核心优势: 长上下文理解(95分)和 Agent/工具调用(92分)均为国产最高。1M 上下文窗口稳定可用,实测长文档检索准确率领先。


3.4 MiniMax

性价比之王,创意写作和 C 端体验突出。

维度M2.7M2.5
定位最新旗舰前代
特色创意写作最强(88分)、价格极低速度优先
适用内容创作、大规模调用、预算敏感场景轻量任务

核心优势: API 价格 ¥1/¥4,不到其他旗舰模型 1/4。创意写作能力突出,适合文案、营销、故事生成等场景。


3.5 腾讯混元 — Hy3 preview

务实推理派,Agent 稳定性和真实场景表现优异。

维度Hy3 preview
参数295B 总参 / 21B 激活 / 256K 上下文
发布时间2026-04-23
开源协议开源
核心特色快慢思考融合、实战验证(已在腾讯内部 40+ 业务落地)

核心优势:

  • 清华大学数学博士资格考 国内模型最高分
  • SWE-Bench / Terminal-Bench 2.0 极强竞争力
  • 已在 CodeBuddy & WorkBuddy、腾讯元宝、游戏 AI、腾讯文档等实际业务验证
  • 价格仅 ¥1.2/¥4,性价比极高

适用场景: 复杂推理、Agent 工作流、企业内部集成、预算敏感的高质量需求。


3.6 阿里通义千问 — Qwen3 系列

开源生态标杆,覆盖参数范围最广。

维度Qwen3.6-35B-A3BQwen3-235B(建议参数)
参数350B 总参 / 30B 激活235B 总参 / 22B 激活
特点轻量高效,本地可跑开源性能天花板
适用本地部署、个人开发者企业自部署、高精度场景

核心优势: Apache 2.0 开源协议,最友好的商用许可。8B~397B 全系列覆盖,从端侧到云端一体。Qwen3.6-35B-A3B 以 21GB 量化体积即可在本地运行,编程能力出色。


3.7 百度 — 文心 ERNIE 5.1

Agent 和创作能力突出,基于文心 5.0 知识蒸馏。

维度ERNIE 5.1
发布时间2026-05-09
核心特色仅用同规模模型 6% 预训练成本
优势领域Agent(τ³-bench 超越 V4-Pro)、创意写作、搜索

亮点数据:

  • Arena 搜索榜 全球第 4 / 国内第 1(1223分)
  • AIME26(使用工具)99.6 分,仅次于 Gemini 3.1 Pro
  • OPD 多阶段强化学习管线,解决能力冲突"跷跷板"效应
  • 闭源,通过百度千帆平台调用

3.8 其他值得关注的模型

模型厂商特点状态
MiMo-V2-Pro小米>1T 总参 / 42B 激活 / 1M 上下文 / 混合注意力已上线 API
阶跃 Step-2阶跃星辰万亿参数 MoE,多模态理解强已发布
百川 Baichuan百川智能知识问答、文本创作运营中,转向 B 端
零一万物 Yi零一万物多智能体方向转型 B 端

四、各维度天梯榜

🏆 综合能力 Top 5

排名模型综合评分
🥇DeepSeek V4-Pro87
🥈GLM-5.185
🥉ERNIE 5.184
4Kimi K2.683
5DeepSeek V4-Pro (High)83

💻 编码能力 Top 5

排名模型编码评分
🥇DeepSeek V4-Pro89.8
🥈Kimi K2.685
🥉Qwen3.6-35B-A3B85
4GLM-5.183
5ERNIE 5.182

📄 长文本处理 Top 5

排名模型上下文长文理解
🥇Kimi K2.61M95
🥈GLM-5.11M+90
🥉MiMo-V2-Pro1M90
4MiniMax M2.71M88
5DeepSeek V4-Pro1M85

🤖 Agent / 工具调用 Top 5

排名模型Agent 评分
🥇Kimi K2.692
🥈ERNIE 5.190
🥉GLM-5.188
4Hy3 preview88
5MiMo-V2-Pro85

💰 性价比 Top 5(输出价格排序)

排名模型输出(¥/百万 tokens)
🥇DeepSeek V4-Flash2.0
🥇MiniMax M2.74.0
🥇Hy3 preview4.0
4GLM-5.120.0
5DeepSeek V4-Pro25.2

🆓 开源模型 Top 5

排名模型开源协议总参数
🥇DeepSeek V4-ProMIT1.6T
🥈GLM-5.1开源~1T
🥉Kimi K2.6开源~1T
4Qwen3.6-35B-A3BApache 2.0350B
5Hy3 preview开源295B

五、场景选型推荐

5.1 按任务类型选择

使用场景首选模型备选理由
代码生成 / 调试DeepSeek V4-ProQwen3.6-35B-A3BV4-Pro 编码评分最高
数学 / 逻辑推理DeepSeek V4-ProHy3 preview推理链深度最强
中文内容创作GLM-5.1ERNIE 5.1中文理解和创意写作均强
长文档分析Kimi K2.6DeepSeek V4-Pro百万级上下文 + Agent 读取
复杂 Agent / 工具链Kimi K2.6 / ERNIE 5.1Hy3 previewAgent 评分最高
多模态 / 图片理解GLM-5v-Turbo / Hy3 preview原生支持视觉
高并发低成本调用MiniMax M2.7 / DeepSeek V4-FlashHy3 preview价格仅 ¥1~¥4
本地自部署Qwen3.6-35B-A3BDeepSeek V4-Flash体积小、开源友好
企业级 API 集成GLM-5.1DeepSeek V4-Pro最均衡,服务成熟

5.2 在 WorkBuddy 内如何选

你的需求推荐模型切换命令
日常对话、内容写作GLM-5.1(当前默认)
代码开发、技术分析Deepseek-V4-Pro/model deepseek-v4-pro
快速响应、轻量任务Deepseek-V4-Flash/model deepseek-v4-flash
长文档解读、Agent 任务Kimi-K2.6/model kimi-k2.6
图片理解、多模态GLM-5v-Turbo/model glm-5v-turbo
预算敏感、内容生成MiniMax-M2.7/model minimax-m2.7
复杂推理、Agent 工作流Hy3 preview/model hy3-preview

六、模型历史版本关系

2024                2025                2026 Q1               2026 Q2
──┼──────────────────┼───────────────────┼───────────────────┼──
                         深度求索
  V3                    V3.1/V3.2          V4-Flash (284B)    ★ V4-Pro (1.6T)
                                                               V3.2 (旧)
                         智谱 GLM
  GLM-4                GLM-4.7            GLM-5.0             ★ GLM-5.1
                                                               GLM-5v-Turbo
                         月之暗面 Kimi
  k1.5                 K2                  K2.5               ★ K2.6
                         腾讯混元
  混元大模型            混元 Pro            Hy3 (内部)         ★ Hy3 preview (开源)
                         阿里通义千问
  Qwen2.5              Qwen3              Qwen3.5             ★ Qwen3.6
                         百度文心
  ERNIE 4.0            ERNIE 4.5          ERNIE 5.0          ★ ERNIE 5.1
                         小米
  —                    MiMo               MiMo-V2             ★ MiMo-V2-Pro

七、更新与说明

  • 数据来源: 各厂商官方发布、BenchLM、Artificial Analysis、CloudMinds、社区评测
  • 评分说明: 综合评分以 Artificial Analysis GDPval-AA Elo 为主要基准,细分维度结合多源数据汇总
  • 时效性: 国产大模型迭代极快(2026年4~5月密集发布),建议定期关注最新评测
  • 免责: Benchmark 数据为参考值,实际体验因场景、Prompts、参数配置等因素而异