作者:Tulsee Doshi,产品管理高级总监,代表 Gemini 团队
今年 3 月,我们发布了迄今为止最智能的模型 Gemini 2.5 Pro,两周前,我们提前为您带来了 I/O 更新,以便开发者构建出色的网络应用。今天,我们分享 Gemini 2.5 模型系列的更多更新:
这一显著进展是 Google 各团队不懈努力的结果,旨在改进我们的技术,并安全负责地开发和发布它们。下面让我们从以下方面深入了解。
2.5 Pro 表现更胜以往
我们最近更新了 2.5 Pro,以帮助开发者构建更丰富、更具交互性的网络应用。非常高兴看到用户和开发者的积极反响,同时我们正在根据用户反馈不断改进。
除了在学术基准测试中的出色表现外,新的 2.5 Pro 现在正领跑流行的编码排行榜 WebDev Arena,ELO 分数为 1415。它还在 LMArena 排行榜的所有类别中处于领先地位,该排行榜评估人类在不同维度上的偏好。而且,凭借其百万级令牌的上下文窗口,2.5 Pro 拥有最先进的长上下文和视频理解性能。
自从融入了与教育专家合作构建的学习模型系列 LearnLM 以来,2.5 Pro 现已成为领先的学习模型。在对其教学法和有效性进行的直接比较中,教育工作者和专家在各种场景下都更青睐 Gemini 2.5 Pro,而非其他模型。并且,在构建用于辅助学习的 AI 系统的学习科学的五项原则中,它在每一项上都超越了顶级模型。
Deep Think
通过探索 Gemini 思维能力的边界,我们开始测试 Deep Think 的增强推理模式,它采用新的研究技术,使模型能够在回应之前考虑多种假设。
2.5 Pro Deep Think 在目前最难的数学基准之一 2025 USAMO 上取得了令人印象深刻的分数。它还在一个针对竞赛级编程的难度基准—— LiveCodeBench 上处于领先地位,并在测试多模态推理的 MMMU 上取得了 84.0% 的分数。
由于 2.5 Pro DeepThink 是一项非常前沿的技术,我们正在额外花费时间进行更多的前沿安全评估,并从安全专家那里获得进一步的反馈。作为其中的一部分,我们将在广泛发布之前,通过 Gemini API 将其提供给受信任的测试人员,以获取他们的反馈。
更优秀的 2.5 Flash
2.5 Flash 是我们最高效的主力模型,专为速度和低成本而设计——现在它在很多维度上都更优秀了。它在推理、多模态、代码和长上下文的关键基准测试中都得到了改进,同时效率更高,在我们的评估中使用的令牌数量减少了 20-30%。
新的 2.5 Flash 现在已在 Google AI Studio 中向开发者、在 Vertex AI 中向企业用户以及在 Gemini 应用中向所有人提供预览版。6 月初,它将全面上线可用。
Gemini 2.5 新功能
原生音频输出和 Live API 的改进
今天,Live API 正在推出视听输入和原生音频输出对话的预览版,这样您就可以直接构建更自然、更富有表现力的 Gemini 对话体验。
它还允许用户控制其说话的语调、口音和风格。例如,您可以告诉模型在讲故事时使用戏剧性的声音。该模型现在还支持工具使用,以便能够代表您进行搜索。
您可以体验以下一些早期功能:
情感对话(Affective Dialogue):模型能够检测用户声音中的情感并作出适当回应。
主动音频(Proactive Audio):模型将忽略背景对话并知道何时回应。
Live API 中的模型推理能力(Thinking in the Live API):模型利用 Gemini 的模型推理能力来支持更复杂的任务。
我们还在发布 2.5 Pro 和 2.5 Flash 的文本转语音新预览版。这些版本首次支持多位说话人,能够通过原生音频输出实现两种声音的文本转语音。
与原生音频对话一样,文本转语音富有表现力,可以捕捉非常微妙的细微差别,例如耳语。它支持超过 24 种语言,并可以在它们之间无缝切换。
这项文本转语音功能现已在 Gemini API 中可用。
计算机使用功能
我们正在将 Project Mariner 的计算机使用功能引入 Gemini API 和 Vertex AI。像 Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 和 Cartwheel 这样的公司正在探索其潜力,我们很高兴能在今年夏天更广泛地推出它,供开发者进行实验。
更高的安全性
我们还显著增强了对例如间接提示词注入攻击等安全威胁的防护。间接提示词注入攻击是指将恶意指令嵌入到 AI 模型检索的数据中。我们的新安全方法有助于显著提高 Gemini 在使用过程中对抗间接提示词注入攻击的防护率,使 Gemini 2.5 成为我们迄今为止最安全的模型系列。
增强的开发者体验
模型推理摘要
2.5 Pro 和 Flash 现在将在 Gemini API 和 Vertex AI 中包含模型推理摘要。模型推理摘要会将模型的原始模型推理组织成清晰的格式,包含标题、关键细节以及有关模型操作的信息,例如何时使用工具。
我们希望通过更结构化、更精简的模型推理过程格式,开发者和用户会发现与 Gemini 模型的交互更容易理解和调试。
模型推理预算
我们推出了带有模型推理预算的 2.5 Flash,通过平衡延迟和质量,让开发者更好地控制成本。我们将此功能扩展到 2.5 Pro。这允许您控制模型在响应前用于模型推理的令牌数量,甚至可以关闭其模型推理能力。
带有预算功能的 Gemini 2.5 Pro 将在未来几周内与我们全面发布的模型一起,正式用于稳定生产环境。
MCP 支持
我们在 Gemini API 中添加了对模型上下文协议(Model Context Protocol, MCP)定义的原生 SDK 支持,以便更轻松地与开源工具集成。我们还在探索部署 MCP 服务器和其他托管工具的方法,让您更容易构建智能体应用。
我们一直在探索新的方法来改进我们的模型和开发者体验,包括使其更高效且性能更强,并持续响应开发者的反馈,所以请继续提出宝贵意见!同时,我们持续在基础研究的广度和深度上加倍投入——包括推动 Gemini 能力的边界。更多内容即将推出。