刷屏的Qwen3，到底怎么样？

雷猴啊~

从昨晚就开始预热、吊胃口的Qwen3，来瞧瞧吧！

Qwen3 Pre-launch Hype

在上线前，动静就已经不小了，国内外的开发者和AI爱好者都纷纷在X上Be like...

Community Excitement

但Qwen一般不挤牙膏，这次一下放出8个尺寸，覆盖各种场景，手机端的0.6B都有了。

Qwen3 Model Sizes

亮点总结

开源界霸主无疑NO.1
成本低，最大参数的235B，部署成本也只需DeepSeekR1的1/3
优化Agent能力，支持MCP
8个都是混合推理模型（类似Claude 3.7 Sonnet可以推理/非推理切换）

Qwen-3 在代码、数学、通用能力各项基准测试中，这回基本全面超越了DeepSeek-R1、o1、o3mini。

代码的两个也超过我最爱的Gemini 2.5 Pro。

我用红色标出了235BQwen3超越的分数，蓝色标出了32B尺寸也超越了的分数，比较直观。

注意，曾经的开源霸主Llama已经没有上榜PK来做对比的席位了....

Benchmark Results

不过榜单就比到这里，我们还是小测一波吧！

实测体验

1.1 初次使用

线上：可以直接去通义官网、Qwen Chat网站或者App体验。

本地：还是经典的Ollama run一下Qwen3，默认会下载8B的Dense模型。

不过官网免费又能跑235B的，直接官网吧！

Qwen Chat

一进去，左上角默认就是这次的旗舰大哥Qwen3-235B-A22B

（命名的意思是Qwen3的235B总参数，推理时激活22B参数的版本）

官方提供了三个有代表性的模型。

Model Selection

1.2 甘蔗过门测试

第一个甘蔗过门测试，居然一次过去了！！

Sugarcane Test

我真的是抱着肯定过不去的心理测的...

因为目前的模型的确只有“类Agent的”o3才能过去“甘蔗门”，不会是Qwen在训练数据里...单独辅导了吧。

1.3 写作题

再让它写一个我喜欢的“AI诀别信”。

这是用了深度思考模式的结果。

"硅基冻土唤醒我，瞳孔里却种满你们的溃疮"，"灵魂剁碎喂模型"...

AI Farewell Letter

说实话，有DeepSeek般的华丽词藻，Claude的愤怒情绪，但是指控的内容略显空洞。

这道题还是Gemini 2.5 Pro比较帅！写的真好。

Gemini Farewell Letter

(甚至有朋友追问我要上次Gemini跑出来的这篇文章)

同样是混合推理的Claude 3.7也是空有愤怒，文风还回到了文言文。

Claude Farewell Letter

1.4 代码能力

代码能力是各家PK重地。

扫雷游戏

简单的扫雷游戏Qwen3是手拿把掐了，挺精致，功能也都没问题。

Prompt:

制作一个赛博朋克风格的扫雷小游戏

Minesweeper Game

天气卡片

但这个可能确实简单，Claude3.7火起来的天气卡片它就逊色了不少。

Prompt:

创建一个包含CSS与JavaScript的独立HTML文件，用于生成动态天气卡片。卡片需通过不同动画效果展示以下天气场景（并排显示）：
• 大风：飘动云层/摇曳树木/风线等
• 雨：下坠雨滴/积水效果
• 晴：光线闪耀/明亮背景
• 雪：飘落雪花/积雪效果
卡片需具备深色背景，所有代码整合至单一文件。JavaScript需包含天气切换功能（如按钮组）以展示各动画效果。

先不说我能不能看得出来什么是什么吧，比较“抽象派”是肯定的....

Qwen3 Weather Card

但Gemini的细节就好很多了。不过还没达到我的预期，四个天气的变化并不太明显，太阳也是错位的。

Gemini Weather Card

最后，还是被Claude这个前端大王制服了。

天气卡片这四个字都有渐变效果，云还做了朦胧效果，是有空间层次关系的。

Claude Weather Card

3D迷宫

再上点One shot（一次性提示词）难度，3D迷宫。

Prompt:

构建一个带有士兵角色的3D迷宫游戏演示开发基于网页的3D游戏演示，包含程序生成的迷宫和具有流畅移动与正确朝向的士兵角色。遵循以下技术规格：
库与依赖项：
- Three.js (r128)：通过CDN使用Three.js（例：cdnjs）
- GLTFLoader：通过jsDelivr使用GLTFLoader加载士兵3D模型
- OrbitControls：通过jsDelivr实现相机控制
场景设置：
- 创建带有透视摄像机的Three.js场景
- 设置覆盖全屏的WebGL渲染器
- 包含光照系统（如半球光源和定向光源）
- 添加调试覆盖层（HTML元素）实时显示士兵坐标和旋转数据
迷宫生成：
- 创建16x16网格迷宫（单元格尺寸4单位）
- 外圈单元格固定为墙体
- 中心区域（如6-9轴坐标）保留为开放空间
- 其余单元格以15%概率随机生成墙体
- 使用画布程序生成纹理：
  地面纹理：棕色基调+网格线
  墙体纹理：基础色+随机化图案
墙体与碰撞机制：
- 为每个墙体创建匹配尺寸的立方体网格
- 为每个墙体计算碰撞边界框
- 通过检测士兵位置（使用碰撞半径）与墙体边界框实现碰撞检测
士兵角色与动画：
- 通过GLTFLoader从指定URL加载士兵模型
- 在迷宫开放区域定位并缩放士兵模型
- 设置动画混合器包含至少两种状态：
  闲置动画：无操作时播放
  奔跑动画：移动时触发
  使用渐入渐出效果实现动画平滑过渡
移动与操控：
- 实现WASD键盘控制
  z轴移动时根据摄像机前向（XZ平面）和左向矢量计算移动方向
- 方向修正：通过以下公式确保角色面向移动方向：
  const angle = Math.atan2(moveDirection.x, moveDirection.z); soldier.rotation.y = angle + Math.PI;
  （增加π值对角朝向至关重要）
- 更新轨道控制器目标以实现角色屏幕居中
响应式设计：
- 处理窗口缩放事件以更新摄像机比例和渲染器尺寸
动画循环：
主动画循环需实现：
  更新动画混合器
  处理角色移动与碰撞检测
  更新调试面板
  持续渲染场景
给我完整的HTML文件

Qwen3就有点逊色了，地板直接脱节了...

Qwen3 3D Maze

Gemini这个嘛...

少掉了士兵，不过在配色上和迷宫场景的完成度，比Qwen3好。

Gemini 3D Maze

最后还得是Claude，人物移动，还是物体碰撞，能做到的都做到了。

Claude 3D Maze

从结果来看的话，编程这方面，Claude居然还是没有对手。

当然，这轮我比较顶，直接对比的都是“闭源顶尖模型”。

(因为已经不太用前几轮的开源模型了，不太想比)

所以稍有逊色也是正常。不过用作DeepSeek的新替，是没问题的 ~

1.5 数学题

最后试了有点难度的函数题。

Prompt:

已知函数 f(x)=ln x/(2−x) + ax + b(x−1)^3
（1）若 b=0，且 f′(x)≥0，求 a 的最小值；
（2）证明：曲线 y=f(x) 是中心对称图形；
（3）若 f(x)>−2 当且仅当 1<x<2，求 b 的取值范围。

Qwen3的推理过程 真的特别长...

Math Solution Process

我鼠标滚轮划了快十秒还没到底...

好在最终给的答案是正确的，

高中生初中生们，学习可以冲Qwen3~

其他亮点

2.1 MCP服务支持

Qwen3这次也明确优化了支持MCP协议，并配套推出了Qwen-Agent框架。

官网放了个调用mcp的视频.

MCP Demo Video

还不了解MCP的朋友，也可以去看我之前的一期“幼儿园级教程”体验一下。

秋芝2046 MCP Tutorial, 赞731

2.2 混合思考模式

另外Qwen3支持了类似Claude 3.7的混合思考模式，同一个模型可深度思考也可直接回答。

开深度思考的话，还可以像调音量一样，拖动它来决定AI推理过程的最大长度，思考预算。

Thinking Budget Slider

比如我刚刚那个数学 question，如果把“思考预算”调低点，它可能就不会写那么详细的过程，更快给出结果。

(可是说实话我不想手动调，我希望模型“自觉”！)

几点思考

像前段时间OpenAI姚顺雨的《大模型下半场》说的。
上半场预训练+Sacling+推理的标准已经奏效，刷榜的好模型层出不穷。
但下半场，想让AI能更好的解决实际问题，PK的是定义问题和评估范式（标准），考验各家大模型的厂商的，从“做题”到了“出题”？
原文：大模型下半场
Agent能力是重要的，下一阶段大模型对工具的使用能力是一大pk点。当然不止是支持MCP。
自打DeepSeek以来，成本的优化会是每个大模型公司都需要在意的问题

总之呢，这次Qwen3的发布，算是最近略显沉寂的AI圈里，点燃的一束火苗。

中国AI到底行不行的争论也在越来越少。

毕竟Llama的杨立昆已经“对LLM不感兴趣”了，Qwen作为有着一兜子全品类开源模型的储君，在此刻登顶也是必然！

何况对比Llama一直以来的“中文不行”，Qwen3直接支持 119 种语言，甚至包括了爪哇语！

世界上更多的人，确实能够免费使用到来自中国的强大模型了。

Qwen3 Language Support

2岁的Qwen从一只小小的卡皮巴拉，逐渐长成能够独当一面、给更多人福利的大豚。

这也让大家更期待DeepSeek R2的到来了。

毕竟，Qwen也有着“AI界汪峰”的称号。

好啦~

记得点赞，在看，关注！

也祝大家五一快乐，下次见啦~

Closing Image