模型概述

Gemini 2.5 Pro 是一个「思考」模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。谷歌称,它是 世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的 Gemini 所有功能(长上下文、工具等)。

它在多个基准测试中达到了 SOTA 水平,并且以显著的优势在 LMArena 上排名第一。

排行榜表现

  • Arena 排行榜:Gemini 2.5 Pro 已登顶第一位,创下历史最大分数飞跃,比 Grok-3/GPT-4.5 高出 40 分

    Image

  • “Nebula” 测试:横扫所有类别夺得第一,独揽以下五大领域冠军:

    • 数学

    • 创意写作

    • 指令遵循

    • 长查询

    • 多轮对话

    Image

  • 困难提示词和编程:与 Grok-3/GPT-4.5 并列冠军,并在其他比拼中以微弱优势胜出,问鼎榜首!

  • 视觉竞技场(Vision Arena):成功登顶排行榜榜首!

    Image

  • 网页开发竞技场(WebDev Arena):斩获亚军宝座!

    Image

它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的 Gemini 更是实现了质的飞跃。

Image

谷歌的模型展现出巨大飞跃,OpenAI、Anthropic、DeepSeek 等竞争对手能在多久时间内赶上?

可用性和定价

目前,Gemini 2.5 Pro 已在 Google AI StudioGemini 应用 中向 Gemini Advanced 用户 开放,并将很快在 Vertex AI 上推出。

定价方案将在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。

用户反馈

网友实测后发现,Gemini 2.5 Pro 实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。

Image


技术背景

谷歌表示,在 AI 领域,系统的「推理」能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。

长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让 AI 更智能、更具推理能力的方法。

  • Gemini 2.0 Flash Thinking:谷歌于 2 月推出的第一个思考模型。

  • Gemini 2.5:结合显著增强的基础模型和改进的后期训练,达到新的性能水平。


推理和代码能力大幅提升

基准测试表现

Gemini 2.5 Pro 展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。

Image

在各类需要高级推理能力的基准测试中,它都达到了 SOTA 水平

  • GPQA 和 AIME 2025:无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro 就能表现卓越。

  • 人类最后的考试:在不使用任何外部工具的条件下,取得了 18.8% 的准确率,达到业界领先。

    Image

编程能力

Gemini 2.5 相比 2.0 版本实现了质的飞跃:

  • 网页应用和 AI 智能体:在创建视觉精美的网页应用和 AI 智能体代码应用方面表现卓越。

  • 代码转换和编辑:同样实力出色。

  • SWE-Bench Verified:在智能体代码评估的行业标准测试中,使用自定义智能体配置,获得 63.8% 的优异成绩。

代码生成 Demo

以下展示了 Gemini 2.5 Pro 如何通过一行提示词生成可执行代码,创建完整的动画和游戏:

  1. 宇宙鱼场景 根据提示词,生成了一段 p5js 交互式动画,展示「宇宙鱼」场景,并显示鱼们的想法。

    Image

    Image

  2. 无限恐龙跑酷游戏 根据提示词,生成像素化的恐龙图像和有趣的游戏背景。

    Image

    Image

  3. 分形可视化 创建精细分形图案的模拟程序,展现神奇的 曼德布洛特集合

    Image

  4. 交互式气泡图 直观展示每个大陆的经济与健康指标随时间的变化。

    Image

  5. 旋转六边形动画 用交互式的 Javascript 动画,展示旋转六边形内多彩的人工生命群体,呈现「超新星星云」的感觉。

    Image

  6. 粒子系统模拟 提供一个 HTML 文件,创造出反射星云的沉浸式交互模拟场景。

    Image


原生多模态和超长上下文

Gemini 2.5 继承并发扬了 Gemini 模型的优势——原生多模态能力超长上下文长度

  • 上下文窗口:自发布之初支持 100 万 token(200 万 token 即将推出!),性能显著超越前代模型。

  • 应用场景:能够理解海量数据集,处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。

Image


总结与展望

谷歌已推出地表最强模型,下一篇将介绍 OpenAI 的最新发布。

参考资料

图片