阿里Qwen3.7-Plus实测:屏幕理解碾压GPT-5.4,11小时全自动开发App

5月底阿里云峰会上的 Qwen3.7-Max 发布已经让业界震动,但真正让开发者圈子沸腾的,是6月2日上线的 Qwen3.7-Plus

如果说 Max 是秀肌肉的参数怪兽(万亿参数),那 Plus 就是真正能干活的生产力工具。

一个模型,四件事

阿里的官方描述极其直白:“一个模型,能看、能想、能写代码、能行动。”

这不是 PPT 画饼。过去一个月里,基于 Qwen3.7-Plus 构建的 Hybrid-Agent 系统完成了几件硬核的事。

11小时无干预开发App

千问官方博客披露,Hybrid-Agent 系统在 Qwen3.7-Plus 驱动下,曾连续稳定运行 11小时以上,全自动完成了一款英语单词学习 App 的完整研发闭环:

  • 从产品需求分析到 UI 设计
  • 从前端代码到后端 API
  • 从数据库 schema 到部署脚本

全程零人工介入。模型自主规划任务、调用工具、检查输出、修复 bug。

高保真复刻 macOS Stocks

另一个令人印象深刻的案例:系统自主完成了macOS原生Stocks股市应用的高保真复刻。这不是简单的”抄布局”,而是包含了数据源对接、实时行情渲染、图表交互等完整功能栈。

屏幕理解跑分:79

这是最能体现多模态能力的硬指标。在屏幕理解基准测试中,Qwen3.7-Plus 得分 79超过 GPT-5.4 和 Gemini-3.1 Pro

这意味着什么?你给它一张截图,它能理解界面的布局结构、元素含义、交互逻辑,然后基于这些理解去执行操作或生成代码。这不再是”看图片描述”,而是”看屏幕执行”。

全域思考模式

Qwen3.7 系列最大的技术突破是 All-field Thinking(全域思考模式)。这是业界首次在同一个模型内实现文本+图像+代码的统一推理链

之前的模型要么强文本弱代码,要么强代码弱图像。Qwen3.7 把三条推理链合并为一条——模型在推理时,文本理解、图像分析和代码生成共享同一个思维过程,而不是各自独立的模块拼凑。

Agentic Coding:国产第一

在 SWE-bench Verified 上,Qwen3.7-Max 得分 72.3%国产第一、全球前三。这个成绩超过了 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1。

Agentic Coding 能力意味着模型不再是”等待你逐行写完再给建议”的被动工具,而是能够:

  • 理解高层需求描述
  • 自主探索代码库
  • 规划修改方案
  • 执行多文件修改
  • 运行测试并迭代修复

定价与可用性

Qwen3.7-Plus 的 API 已上线阿里云百炼平台。定价策略延续了千问一贯的高性价比路线:输入 $0.4/百万Token,输出 $1.2/百万Token,1M上下文窗口。

相比之下,同等能力的 GPT-5.4 定价约贵 3-5 倍。

我的看法

Qwen3.7-Plus 最值得关注的点不是”跑分又涨了”,而是它真正把多模态 Agent 做到了能用、好用、可复现

11小时全自动开发 App、自主复刻完整应用——这些不再是一个演示 demo,而是可验证的产出。对于独立开发者和小团队来说,这意味着一个人 + 一个 Agent 就能覆盖从前端到后端的全栈交付。

国产模型的 Agent 能力,这次真的追上来了。


← Back to blog