万象城AWC

万象城AWC

新闻详情

模型测评 | 国产AI编程大模型哪个更香？

2025年10月31日

年初，Claude 3.5 仅凭一句提示词就生成了精致的天气动画卡片，这一案例瞬间点燃了 AI 氛围编程的热情。而在这股由国际模型掀起的 AI 编程热潮中，国产大模型的表现同样亮眼。

据 LiveCodeBench 基准测评数据显示：国产大模型代表“深度求索 DeepSeek 、通义千问 Qwen 3、智谱 GLM、月之暗面 Kimi K2 ”等系列，AI 编程性能已接近 GPT - 5（high）、Grok 4 等国际顶尖模型水平，且成本控制优势显著（如DeepSeek V3.2 Exp 的评估成本仅为 5，不到 Claude 4 等国际模型的2%），彰显了国产大模型在编程领域的硬核实力与经济效益。

图 | Artificial Analysis 基准测试

随着大模型技术持续演进，AI 编程已从 “简单代码生成” 升级为能理解复杂任务、独立搭建项目、实现前后端协同的 “开发者” 角色。基于此，我们客观拆解 4 款最新国产大模型的真实编程能力，一探究竟。

参赛选手

编程实力

✅ 游戏制作

不得不说，最新的就是最好的。在本轮制作黄金矿工小游戏的测试中，智谱GLM-4.6、DeepSeek V3.2 Exp 仅一次抽卡便完成任务，两款游戏界面设计别具一格、规则玩法介绍清晰。

图 | 智谱 GLM-4.6

区别在于游戏环节，智谱放下的钩子回收时能顺利获得速度变化反应出物品的重量，其他模型则一视同仁。

图 | DeepSeek V3.2 Exp

反观 Qwen3 Max，文字信息直接遮挡了游戏画面，影响游戏视觉体验；Kimi K2 0905的游戏界面则略显朴素，且多次优化抽卡容易导致出错。

图 | Qwen3 Max

图 | Kimi K2 0905

综合来看，智谱 GLM-4.6 对于这场限时淘金游戏的理解、功能呈现可以说是一步到位！

✅ 物理模拟

在旋转六边形内进行小球弹力、重力的物理模拟测试中，以上模型都顺利完成了任务。其中，智谱 GLM-4.6、DeepSeek V3.2 Exp 为用户给予了更多详细的参数设置；而 Qwen3 Max、Kimi K2 0905 则继续保持极简风格，快速完成任务。

图 | GLM-4.6

图 | DeepSeek V3.2 Exp

图 | Qwen3 Max

图 | Kimi K2 0905

✅ 网页设计

最近外卖大战打得火热，不妨也让 AI 来搅局。在本次外卖平台的设计中，4 款模型均输出了适配外卖场景属性的应用界面 UI。

图 | 智谱 GLM-4.6

智谱 GLM-4.6 的生成效果，从搜索框、导航栏这类核心交互模块，到卡券、商家列表这类场景化功能，不仅保证了页面元素的精致度与完整性，还进一步实现了体验与设计的良好平衡。

图 | DeepSeek V3.2 Exp

图 | Qwen3 Max

反观 DeepSeek V3.2 Exp 与 Qwen3 Max，两者在顶部导航栏设计上出现了共性问题：放入了大量细分类目，导致导航内容不得不折叠显示。此外，DeepSeek V3.2 Exp 的滚动条设置也影响了应用的整体美观度。

Kimi K2 0905 则给出了更优解，顺利获得简单的换行设计，避免了导航折叠的情况。综合来看，你更喜欢哪款模型的设计风格呢？

图 | Kimi K2 0905

现在，DeepSeek 、通义千问 Qwen 3、月之暗面 Kimi K2 等系列最新模型已登陆万象城AWC算力云平台，我们将持续跟进主流模型技术，为开发者和企业给予最新最全的模型及 API 服务。

万象城AWC算力云上线通义万相Wan2.5，声色俱全!

实测！Qwen-image-edit 2509 Nunchaku版

业务咨询