阿里Qwen3.7-Plus实测：屏幕理解碾压GPT-5.4，11小时全自动开发App

5月底阿里云峰会上的 Qwen3.7-Max 发布已经让业界震动，但真正让开发者圈子沸腾的，是6月2日上线的 Qwen3.7-Plus。

如果说 Max 是秀肌肉的参数怪兽（万亿参数），那 Plus 就是真正能干活的生产力工具。

一个模型，四件事

阿里的官方描述极其直白：“一个模型，能看、能想、能写代码、能行动。”

这不是 PPT 画饼。过去一个月里，基于 Qwen3.7-Plus 构建的 Hybrid-Agent 系统完成了几件硬核的事。

千问官方博客披露，Hybrid-Agent 系统在 Qwen3.7-Plus 驱动下，曾连续稳定运行 11小时以上，全自动完成了一款英语单词学习 App 的完整研发闭环：

全程零人工介入。模型自主规划任务、调用工具、检查输出、修复 bug。

另一个令人印象深刻的案例：系统自主完成了macOS原生Stocks股市应用的高保真复刻。这不是简单的”抄布局”，而是包含了数据源对接、实时行情渲染、图表交互等完整功能栈。

这是最能体现多模态能力的硬指标。在屏幕理解基准测试中，Qwen3.7-Plus 得分 79，超过 GPT-5.4 和 Gemini-3.1 Pro。

这意味着什么？你给它一张截图，它能理解界面的布局结构、元素含义、交互逻辑，然后基于这些理解去执行操作或生成代码。这不再是”看图片描述”，而是”看屏幕执行”。

Qwen3.7 系列最大的技术突破是 All-field Thinking（全域思考模式）。这是业界首次在同一个模型内实现文本+图像+代码的统一推理链。

之前的模型要么强文本弱代码，要么强代码弱图像。Qwen3.7 把三条推理链合并为一条——模型在推理时，文本理解、图像分析和代码生成共享同一个思维过程，而不是各自独立的模块拼凑。

在 SWE-bench Verified 上，Qwen3.7-Max 得分 72.3%，国产第一、全球前三。这个成绩超过了 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1。

Agentic Coding 能力意味着模型不再是”等待你逐行写完再给建议”的被动工具，而是能够：

Qwen3.7-Plus 的 API 已上线阿里云百炼平台。定价策略延续了千问一贯的高性价比路线：输入 $0.4/百万Token，输出 $1.2/百万Token，1M上下文窗口。

相比之下，同等能力的 GPT-5.4 定价约贵 3-5 倍。

Qwen3.7-Plus 最值得关注的点不是”跑分又涨了”，而是它真正把多模态 Agent 做到了能用、好用、可复现。

11小时全自动开发 App、自主复刻完整应用——这些不再是一个演示 demo，而是可验证的产出。对于独立开发者和小团队来说，这意味着一个人 + 一个 Agent 就能覆盖从前端到后端的全栈交付。

国产模型的 Agent 能力，这次真的追上来了。