
Gemini 2.5 Pro 强势来袭!
模型概述
Gemini 2.5 Pro 是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。谷歌称,它是 世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的 Gemini 所有功能(长上下文、工具等)。
它在多个基准测试中达到了 SOTA 水平,并且以显著的优势在 LMArena 上排名第一。
排行榜表现
Arena 排行榜:Gemini 2.5 Pro 已登顶第一位,创下历史最大分数飞跃,比 Grok-3/GPT-4.5 高出 40 分!
“Nebula” 测试:横扫所有类别夺得第一,独揽以下五大领域冠军:
数学
创意写作
指令遵循
长查询
多轮对话
困难提示词和编程:与 Grok-3/GPT-4.5 并列冠军,并在其他比拼中以微弱优势胜出,问鼎榜首!
视觉竞技场(Vision Arena):成功登顶排行榜榜首!
网页开发竞技场(WebDev Arena):斩获亚军宝座!
它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的 Gemini 更是实现了质的飞跃。
谷歌的模型展现出巨大飞跃,OpenAI、Anthropic、DeepSeek 等竞争对手能在多久时间内赶上?
可用性和定价
目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 应用 中向 Gemini Advanced 用户 开放,并将很快在 Vertex AI 上推出。
定价方案将在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。
用户反馈
网友实测后发现,Gemini 2.5 Pro 实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。
技术背景
谷歌表示,在 AI 领域,系统的「推理」能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。
长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让 AI 更智能、更具推理能力的方法。
Gemini 2.0 Flash Thinking:谷歌于 2 月推出的第一个思考模型。
Gemini 2.5:结合显著增强的基础模型和改进的后期训练,达到新的性能水平。
推理和代码能力大幅提升
基准测试表现
Gemini 2.5 Pro 展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。
在各类需要高级推理能力的基准测试中,它都达到了 SOTA 水平:
GPQA 和 AIME 2025:无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro 就能表现卓越。
人类最后的考试:在不使用任何外部工具的条件下,取得了 18.8% 的准确率,达到业界领先。
编程能力
Gemini 2.5 相比 2.0 版本实现了质的飞跃:
网页应用和 AI 智能体:在创建视觉精美的网页应用和 AI 智能体代码应用方面表现卓越。
代码转换和编辑:同样实力出色。
SWE-Bench Verified:在智能体代码评估的行业标准测试中,使用自定义智能体配置,获得 63.8% 的优异成绩。
代码生成 Demo
以下展示了 Gemini 2.5 Pro 如何通过一行提示词生成可执行代码,创建完整的动画和游戏:
宇宙鱼场景 根据提示词,生成了一段 p5js 交互式动画,展示「宇宙鱼」场景,并显示鱼们的想法。
无限恐龙跑酷游戏 根据提示词,生成像素化的恐龙图像和有趣的游戏背景。
分形可视化 创建精细分形图案的模拟程序,展现神奇的 曼德布洛特集合。
交互式气泡图 直观展示每个大陆的经济与健康指标随时间的变化。
旋转六边形动画 用交互式的 Javascript 动画,展示旋转六边形内多彩的人工生命群体,呈现「超新星星云」的感觉。
粒子系统模拟 提供一个 HTML 文件,创造出反射星云的沉浸式交互模拟场景。
原生多模态和超长上下文
Gemini 2.5 继承并发扬了 Gemini 模型的优势——原生多模态能力 和 超长上下文长度。
上下文窗口:自发布之初支持 100 万 token(200 万 token 即将推出!),性能显著超越前代模型。
应用场景:能够理解海量数据集,处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。
总结与展望
谷歌已推出地表最强模型,下一篇将介绍 OpenAI 的最新发布。
参考资料
- 感谢你赐予我前进的力量