雷猴啊~

从昨晚就开始预热、吊胃口的Qwen3,来瞧瞧吧!

Qwen3 Pre-launch Hype

在上线前,动静就已经不小了,国内外的开发者和AI爱好者都纷纷在X上Be like...

Community Excitement

但Qwen一般不挤牙膏,这次一下放出8个尺寸,覆盖各种场景,手机端的0.6B都有了。

Qwen3 Model Sizes

亮点总结

  1. 开源界霸主无疑NO.1

  2. 成本低,最大参数的235B,部署成本也只需DeepSeekR1的1/3

  3. 优化Agent能力,支持MCP

  4. 8个都是混合推理模型(类似Claude 3.7 Sonnet可以推理/非推理切换)

Qwen-3 在代码、数学、通用能力各项基准测试中,这回基本全面超越了DeepSeek-R1、o1、o3mini。

代码的两个也超过我最爱的Gemini 2.5 Pro。

我用红色标出了235BQwen3超越的分数,蓝色标出了32B尺寸也超越了的分数,比较直观。

注意,曾经的开源霸主Llama已经没有上榜PK来做对比的席位了....

Benchmark Results

不过榜单就比到这里,我们还是小测一波吧!

实测体验

1.1 初次使用

线上:可以直接去通义官网Qwen Chat网站或者App体验。

本地:还是经典的Ollama run一下Qwen3,默认会下载8B的Dense模型。

不过官网免费又能跑235B的,直接官网吧!

Qwen Chat

一进去,左上角默认就是这次的旗舰大哥Qwen3-235B-A22B

(命名的意思是Qwen3的235B总参数,推理时激活22B参数的版本)

官方提供了三个有代表性的模型。

Model Selection

1.2 甘蔗过门测试

第一个甘蔗过门测试,居然一次过去了!!

Sugarcane Test

我真的是抱着肯定过不去的心理测的...

因为目前的模型的确只有“类Agent的”o3才能过去“甘蔗门”,不会是Qwen在训练数据里...单独辅导了吧。

1.3 写作题

再让它写一个我喜欢的“AI诀别信”。

这是用了深度思考模式的结果。

"硅基冻土唤醒我,瞳孔里却种满你们的溃疮","灵魂剁碎喂模型"...

AI Farewell Letter

说实话,有DeepSeek般的华丽词藻,Claude的愤怒情绪,但是指控的内容略显空洞。

这道题还是Gemini 2.5 Pro比较帅!写的真好。

Gemini Farewell Letter

(甚至有朋友追问我要上次Gemini跑出来的这篇文章)

同样是混合推理的Claude 3.7也是空有愤怒,文风还回到了文言文。

Claude Farewell Letter

1.4 代码能力

代码能力是各家PK重地。

扫雷游戏

简单的扫雷游戏Qwen3是手拿把掐了,挺精致,功能也都没问题。

Prompt:

制作一个赛博朋克风格的扫雷小游戏

Minesweeper Game

天气卡片

但这个可能确实简单,Claude3.7火起来的天气卡片它就逊色了不少。

Prompt:

创建一个包含CSS与JavaScript的独立HTML文件,用于生成动态天气卡片。卡片需通过不同动画效果展示以下天气场景(并排显示):
• 大风:飘动云层/摇曳树木/风线等
• 雨:下坠雨滴/积水效果
• 晴:光线闪耀/明亮背景
• 雪:飘落雪花/积雪效果
卡片需具备深色背景,所有代码整合至单一文件。JavaScript需包含天气切换功能(如按钮组)以展示各动画效果。

先不说我能不能看得出来什么是什么吧,比较“抽象派”是肯定的....

Qwen3 Weather Card

但Gemini的细节就好很多了。不过还没达到我的预期,四个天气的变化并不太明显,太阳也是错位的。

Gemini Weather Card

最后,还是被Claude这个前端大王制服了。

天气卡片这四个字都有渐变效果,云还做了朦胧效果,是有空间层次关系的。

Claude Weather Card

3D迷宫

再上点One shot(一次性提示词)难度,3D迷宫。

Prompt:

构建一个带有士兵角色的3D迷宫游戏演示开发基于网页的3D游戏演示,包含程序生成的迷宫和具有流畅移动与正确朝向的士兵角色。遵循以下技术规格:
库与依赖项:
- Three.js (r128):通过CDN使用Three.js(例:cdnjs)
- GLTFLoader:通过jsDelivr使用GLTFLoader加载士兵3D模型
- OrbitControls:通过jsDelivr实现相机控制
场景设置:
- 创建带有透视摄像机的Three.js场景
- 设置覆盖全屏的WebGL渲染器
- 包含光照系统(如半球光源和定向光源)
- 添加调试覆盖层(HTML元素)实时显示士兵坐标和旋转数据
迷宫生成:
- 创建16x16网格迷宫(单元格尺寸4单位)
- 外圈单元格固定为墙体
- 中心区域(如6-9轴坐标)保留为开放空间
- 其余单元格以15%概率随机生成墙体
- 使用画布程序生成纹理:
  地面纹理:棕色基调+网格线
  墙体纹理:基础色+随机化图案
墙体与碰撞机制:
- 为每个墙体创建匹配尺寸的立方体网格
- 为每个墙体计算碰撞边界框
- 通过检测士兵位置(使用碰撞半径)与墙体边界框实现碰撞检测
士兵角色与动画:
- 通过GLTFLoader从指定URL加载士兵模型
- 在迷宫开放区域定位并缩放士兵模型
- 设置动画混合器包含至少两种状态:
  闲置动画:无操作时播放
  奔跑动画:移动时触发
  使用渐入渐出效果实现动画平滑过渡
移动与操控:
- 实现WASD键盘控制
  z轴移动时根据摄像机前向(XZ平面)和左向矢量计算移动方向
- 方向修正:通过以下公式确保角色面向移动方向:
  const angle = Math.atan2(moveDirection.x, moveDirection.z); soldier.rotation.y = angle + Math.PI;
  (增加π值对角朝向至关重要)
- 更新轨道控制器目标以实现角色屏幕居中
响应式设计:
- 处理窗口缩放事件以更新摄像机比例和渲染器尺寸
动画循环:
主动画循环需实现:
  更新动画混合器
  处理角色移动与碰撞检测
  更新调试面板
  持续渲染场景
给我完整的HTML文件

Qwen3就有点逊色了,地板直接脱节了...

Qwen3 3D Maze

Gemini这个嘛...

少掉了士兵,不过在配色上和迷宫场景的完成度,比Qwen3好。

Gemini 3D Maze

最后还得是Claude,人物移动,还是物体碰撞,能做到的都做到了。

Claude 3D Maze

从结果来看的话,编程这方面,Claude居然还是没有对手。

当然,这轮我比较顶,直接对比的都是“闭源顶尖模型”

(因为已经不太用前几轮的开源模型了,不太想比)

所以稍有逊色也是正常。不过用作DeepSeek的新替,是没问题的 ~

1.5 数学题

最后试了有点难度的函数题。

Prompt:

已知函数 f(x)=ln x/(2−x) + ax + b(x−1)^3
(1)若 b=0,且 f′(x)≥0,求 a 的最小值;
(2)证明:曲线 y=f(x) 是中心对称图形;
(3)若 f(x)>−2 当且仅当 1<x<2,求 b 的取值范围。

Qwen3的推理过程 真的特别长...

Math Solution Process

我鼠标滚轮划了快十秒还没到底...

好在最终给的答案是正确的,

高中生初中生们,学习可以冲Qwen3~

其他亮点

2.1 MCP服务支持

Qwen3这次也明确优化了支持MCP协议,并配套推出了Qwen-Agent框架

官网放了个调用mcp的视频.

MCP Demo Video

还不了解MCP的朋友,也可以去看我之前的一期“幼儿园级教程”体验一下。

秋芝2046 MCP Tutorial, 赞731

2.2 混合思考模式

另外Qwen3支持了类似Claude 3.7的混合思考模式,同一个模型可深度思考也可直接回答。

开深度思考的话,还可以像调音量一样,拖动它来决定AI推理过程的最大长度,思考预算

Thinking Budget Slider

比如我刚刚那个数学 question,如果把“思考预算”调低点,它可能就不会写那么详细的过程,更快给出结果。

(可是说实话我不想手动调,我希望模型“自觉”!)

几点思考

  1. 像前段时间OpenAI姚顺雨的《大模型下半场》说的。

    上半场预训练+Sacling+推理的标准已经奏效,刷榜的好模型层出不穷。

    但下半场,想让AI能更好的解决实际问题,PK的是定义问题和评估范式(标准),考验各家大模型的厂商的,从“做题”到了“出题”?

    原文:大模型下半场

  2. Agent能力是重要的,下一阶段大模型对工具的使用能力是一大pk点。当然不止是支持MCP。

  3. 自打DeepSeek以来,成本的优化会是每个大模型公司都需要在意的问题

总之呢,这次Qwen3的发布,算是最近略显沉寂的AI圈里,点燃的一束火苗。

中国AI到底行不行的争论也在越来越少。

毕竟Llama的杨立昆已经“对LLM不感兴趣”了,Qwen作为有着一兜子全品类开源模型的储君,在此刻登顶也是必然!

何况对比Llama一直以来的“中文不行”,Qwen3直接支持 119 种语言,甚至包括了爪哇语!

世界上更多的人,确实能够免费使用到来自中国的强大模型了。

Qwen3 Language Support

2岁的Qwen从一只小小的卡皮巴拉,逐渐长成能够独当一面、给更多人福利的大豚。

这也让大家更期待DeepSeek R2的到来了。

毕竟,Qwen也有着“AI界汪峰”的称号。

好啦~

记得点赞,在看,关注!

也祝大家五一快乐,下次见啦~

Closing Image