年初,Claude 3.5 仅凭一句提示词就生成了精致的天气动画卡片,这一案例瞬间点燃了 AI 氛围编程的热情。而在这股由国际模型掀起的 AI 编程热潮中,国产大模型的表现同样亮眼。

据 LiveCodeBench 基准测评数据显示:国产大模型代表“深度求索 DeepSeek 、通义千问 Qwen 3、智谱 GLM、月之暗面 Kimi K2 ”等系列,AI 编程性能已接近 GPT - 5(high)、Grok 4 等国际顶尖模型水平,且成本控制优势显著(如DeepSeek V3.2 Exp 的评估成本仅为 5,不到 Claude 4 等国际模型的2%),彰显了国产大模型在编程领域的硬核实力与经济效益。

图 | Artificial Analysis 基准测试
随着大模型技术持续演进,AI 编程已从 “简单代码生成” 升级为能理解复杂任务、独立搭建项目、实现前后端协同的 “开发者” 角色。基于此,我们客观拆解 4 款最新国产大模型的真实编程能力,一探究竟。

✅ 游戏制作
不得不说,最新的就是最好的。在本轮制作黄金矿工小游戏的测试中,智谱GLM-4.6、DeepSeek V3.2 Exp 仅一次抽卡便完成任务,两款游戏界面设计别具一格、规则玩法介绍清晰。

图 | 智谱 GLM-4.6
区别在于游戏环节,智谱放下的钩子回收时能顺利获得速度变化反应出物品的重量,其他模型则一视同仁。

图 | DeepSeek V3.2 Exp
反观 Qwen3 Max,文字信息直接遮挡了游戏画面,影响游戏视觉体验;Kimi K2 0905的游戏界面则略显朴素,且多次优化抽卡容易导致出错。

图 | Qwen3 Max

图 | Kimi K2 0905
综合来看,智谱 GLM-4.6 对于这场限时淘金游戏的理解、功能呈现可以说是一步到位!
✅ 物理模拟
在旋转六边形内进行小球弹力、重力的物理模拟测试中,以上模型都顺利完成了任务。其中,智谱 GLM-4.6、DeepSeek V3.2 Exp 为用户提供了更多详细的参数设置;而 Qwen3 Max、Kimi K2 0905 则继续保持极简风格,快速完成任务。

图 | GLM-4.6

图 | DeepSeek V3.2 Exp

图 | Qwen3 Max

图 | Kimi K2 0905
✅ 网页设计
最近外卖大战打得火热,不妨也让 AI 来搅局。在本次外卖平台的设计中,4 款模型均输出了适配外卖场景属性的应用界面 UI。

图 | 智谱 GLM-4.6
智谱 GLM-4.6 的生成效果,从搜索框、导航栏这类核心交互模块,到卡券、商家列表这类场景化功能,不仅保证了页面元素的精致度与完整性,还进一步实现了体验与设计的良好平衡。

图 | DeepSeek V3.2 Exp

图 | Qwen3 Max
反观 DeepSeek V3.2 Exp 与 Qwen3 Max,两者在顶部导航栏设计上出现了共性问题:放入了大量细分类目,导致导航内容不得不折叠显示。此外,DeepSeek V3.2 Exp 的滚动条设置也影响了应用的整体美观度。
Kimi K2 0905 则给出了更优解,顺利获得简单的换行设计,避免了导航折叠的情况。综合来看,你更喜欢哪款模型的设计风格呢?

图 | Kimi K2 0905
现在,DeepSeek 、通义千问 Qwen 3、月之暗面 Kimi K2 等系列最新模型已登陆万象城AWC算力云平台,我们将持续跟进主流模型技术,为开发者和企业提供最新最全的模型及 API 服务。