作者:Tulsee Doshi,产品管理高级总监,代表 Gemini 团队
今年 3 月,我们发布了迄今为止最智能的模型 Gemini 2.5 Pro,两周前,我们提前为您带来了 I/O 更新,以便开发者构建出色的网络应用。今天,我们分享 Gemini 2.5 模型系列的更多更新:
除了 2.5 Pro 在学术基准测试中令人难以置信的性能外,它现在还是 WebDev Arena 和 LMArena 排行榜上的全球领先模型,并且在帮助人们学习方面表现出色。
我们正在为 2.5 Pro 和 2.5 Flash 带来新功能:用于更自然对话体验的原生音频输出、更高的安全防护,以及 Project Mariner 的计算机使用功能。2.5 Pro 还将通过 Deep Think,一种用于高度复杂的数学和编程的实验性增强推理模式,进一步升级。
我们继续投资于开发者体验,在 Gemini API 和 Vertex AI 中引入了模型推理摘要以提高透明度,将模型推理预算扩展到 2.5 Pro 以实现更多控制,并在 Gemini API 和 SDK 中添加了对 MCP 工具的支持,以便访问更多开源工具。
2.5 Flash 现在已在 Gemini 应用中向所有人开放,我们将在 6 月初在 Google AI Studio 中向开发者以及在 Vertex AI 中向企业全面提供更新版本,2.5 Pro 也将紧随其后。
这一显著进展是 Google 各团队不懈努力的结果,旨在改进我们的技术,并安全负责地开发和发布它们。下面让我们从以下方面深入了解。
2.5 Pro 表现更胜以往
我们最近更新了 2.5 Pro,以帮助开发者构建更丰富、更具交互性的网络应用。非常高兴看到用户和开发者的积极反响,同时我们正在根据用户反馈不断改进。
除了在学术基准测试中的出色表现外,新的 2.5 Pro 现在正领跑流行的编码排行榜 WebDev Arena,ELO 分数为 1415。它还在 LMArena 排行榜的所有类别中处于领先地位,该排行榜评估人类在不同维度上的偏好。而且,凭借其百万级令牌的上下文窗口,2.5 Pro 拥有最先进的长上下文和视频理解性能。
自从融入了与教育专家合作构建的学习模型系列 LearnLM 以来,2.5 Pro 现已成为领先的学习模型。在对其教学法和有效性进行的直接比较中,教育工作者和专家在各种场景下都更青睐 Gemini 2.5 Pro,而非其他模型。并且,在构建用于辅助学习的 AI 系统的学习科学的五项原则中,它在每一项上都超越了顶级模型。
Deep Think
通过探索 Gemini 思维能力的边界,我们开始测试 Deep Think 的增强推理模式,它采用新的研究技术,使模型能够在回应之前考虑多种假设。
2.5 Pro Deep Think 在目前最难的数学基准之一 2025 USAMO 上取得了令人印象深刻的分数。它还在一个针对竞赛级编程的难度基准—— LiveCodeBench 上处于领先地位,并在测试多模态推理的 MMMU 上取得了 84.0% 的分数。
由于 2.5 Pro DeepThink 是一项非常前沿的技术,我们正在额外花费时间进行更多的前沿安全评估,并从安全专家那里获得进一步的反馈。作为其中的一部分,我们将在广泛发布之前,通过 Gemini API 将其提供给受信任的测试人员,以获取他们的反馈。
更优秀的 2.5 Flash
2.5 Flash 是我们最高效的主力模型,专为速度和低成本而设计——现在它在很多维度上都更优秀了。它在推理、多模态、代码和长上下文的关键基准测试中都得到了改进,同时效率更高,在我们的评估中使用的令牌数量减少了 20-30%。
新的 2.5 Flash 现在已在 Google AI Studio 中向开发者、在 Vertex AI 中向企业用户以及在 Gemini 应用中向所有人提供预览版。6 月初,它将全面上线可用。
Gemini 2.5 新功能
原生音频输出和 Live API 的改进
今天,Live API 正在推出视听输入和原生音频输出对话的预览版,这样您就可以直接构建更自然、更富有表现力的 Gemini 对话体验。
它还允许用户控制其说话的语调、口音和风格。例如,您可以告诉模型在讲故事时使用戏剧性的声音。该模型现在还支持工具使用,以便能够代表您进行搜索。
您可以体验以下一些早期功能:
情感对话(Affective Dialogue):模型能够检测用户声音中的情感并作出适当回应。
主动音频(Proactive Audio):模型将忽略背景对话并知道何时回应。
Live API 中的模型推理能力(Thinking in the Live API):模型利用 Gemini 的模型推理能力来支持更复杂的任务。
我们还在发布 2.5 Pro 和 2.5 Flash 的文本转语音新预览版。这些版本首次支持多位说话人,能够通过原生音频输出实现两种声音的文本转语音。
与原生音频对话一样,文本转语音富有表现力,可以捕捉非常微妙的细微差别,例如耳语。它支持超过 24 种语言,并可以在它们之间无缝切换。
这项文本转语音功能现已在 Gemini API 中可用。
计算机使用功能
我们正在将 Project Mariner 的计算机使用功能引入 Gemini API 和 Vertex AI。像 Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 和 Cartwheel 这样的公司正在探索其潜力,我们很高兴能在今年夏天更广泛地推出它,供开发者进行实验。
更高的安全性
我们还显著增强了对例如间接提示词注入攻击等安全威胁的防护。间接提示词注入攻击是指将恶意指令嵌入到 AI 模型检索的数据中。我们的新安全方法有助于显著提高 Gemini 在使用过程中对抗间接提示词注入攻击的防护率,使 Gemini 2.5 成为我们迄今为止最安全的模型系列。
增强的开发者体验
模型推理摘要
2.5 Pro 和 Flash 现在将在 Gemini API 和 Vertex AI 中包含模型推理摘要。模型推理摘要会将模型的原始模型推理组织成清晰的格式,包含标题、关键细节以及有关模型操作的信息,例如何时使用工具。
我们希望通过更结构化、更精简的模型推理过程格式,开发者和用户会发现与 Gemini 模型的交互更容易理解和调试。
模型推理预算
我们推出了带有模型推理预算的 2.5 Flash,通过平衡延迟和质量,让开发者更好地控制成本。我们将此功能扩展到 2.5 Pro。这允许您控制模型在响应前用于模型推理的令牌数量,甚至可以关闭其模型推理能力。
带有预算功能的 Gemini 2.5 Pro 将在未来几周内与我们全面发布的模型一起,正式用于稳定生产环境。
MCP 支持
我们在 Gemini API 中添加了对模型上下文协议(Model Context Protocol, MCP)定义的原生 SDK 支持,以便更轻松地与开源工具集成。我们还在探索部署 MCP 服务器和其他托管工具的方法,让您更容易构建智能体应用。
我们一直在探索新的方法来改进我们的模型和开发者体验,包括使其更高效且性能更强,并持续响应开发者的反馈,所以请继续提出宝贵意见!同时,我们持续在基础研究的广度和深度上加倍投入——包括推动 Gemini 能力的边界。更多内容即将推出。
作者:Demis Hassabis,Google DeepMind CEO
在过去的十年中,我们为现代 AI 时代奠定了许多基础,从率先提出所有大型语言模型赖以构建的 Transformer 架构,到开发 AlphaGo 和 AlphaZero 等可以学习和规划的智能体系统。
我们已将这些技术应用于量子计算、数学、生命科学和算法发现领域的突破。我们继续在基础研究的广度和深度上加倍投入,致力于发明实现通用人工智能 (AGI) 所必需的下一个重大突破 。
正因如此,我们正努力拓展我们最强的多模态基础模型 Gemini 2.5 Pro,使其成为一个能够通过理解和模拟世界的各个方面来制定计划和构想新体验的“世界模型”,就像大脑一样。
我们在这方面已经取得了长足的进步,从训练智能体掌握围棋和星际争霸(StarCraft)等复杂游戏的开创性工作,到可基于单个图像提示生成可交互 3D 模拟环境的 Genie 2。
我们已经可以看到,这些能力正在显现,体现在 Gemini 利用世界知识和推理来表示和模拟自然环境的能力,Veo 对直观物理的深刻理解,以及 Gemini Robotics 教导机器人抓取、遵循指令和即时调整的方式中。
将 Gemini 打造成一个世界模型,是开发一种新型、更通用、更有用的 AI——通用 AI 助手的关键一步。这是一种智能的 AI,能够理解您所处的上下文,并根据您的请求跨任何设备代表您规划和采取行动。
将 Project Astra 的实时功能引入我们的产品中
我们的终极愿景是将 Gemini 应用转型为一款通用 AI 助手,它将为我们执行日常任务、处理我们繁琐的行政事务、呈现令人满意的新推荐,从而提高我们的生产力并丰富我们的生活。
这一进程的起点,是我们去年在研究原型 Project Astra 中首次实践的功能,包括视频理解、屏幕共享和记忆等。
在过去的一年中,我们已将这些功能整合到 Gemini Live 中以便让更多人今天就能体验。我们继续在最前沿领域不懈地改进和探索新的创新。例如,我们升级了语音输出,使其通过原生音频输出听起来更自然;我们改进了记忆功能并增加了计算机控制。
我们正在收集受信任测试人员关于这些新功能的反馈,并致力于将它们引入 Gemini Live、搜索中的新体验、面向开发者的 Live API 以及眼镜等新型设备。
在此过程的每一步,安全和责任都是我们工作的核心。我们最近进行了一项大型研究项目,探讨了围绕高级 AI 助手的伦理问题,这项工作将继续指导我们的研究、开发和部署。
构建能够为您处理多任务的 AI
通过 Project Mariner,我们还在探索智能体的能力如何帮助人们处理多任务。这是一个研究原型,旨在从浏览器入手,探索人与智能体交互的未来。
自去年 12 月推出 Project Mariner 以来,我们一直与一群受信任的测试人员密切合作,收集反馈并改进其实验性功能。
Project Mariner 现在包含一个智能体系统,可以同时完成多达十项不同的任务。这些智能体可以帮助您查找信息、进行预订、购买物品、进行研究等等——所有这些都可以同时进行。
美国的 Google AI Ultra 订阅用户已可以使用更新后的 Project Mariner。我们正在将其计算机使用功能引入 Gemini API,并且我们计划在今年内将更多功能引入 Google 产品。
通过这项工作以及我们所有开创性的工作,我们正在构建更个性化、更主动、更强大的 AI,这将丰富我们的生活,加速科学进步,并迎来一个发现和惊叹的新黄金时代。
编者按:以下是 Google CEO Sundar Pichai 在 Google I/O 2025 大会上的讲话编辑稿,经调整以包含更多在舞台上宣布的内容。
通常,在 I/O 大会的前几周,我们不会透露太多信息,因为我们会把最重磅的模型留到大会上发布。但在 Gemini 时代,我们很可能在三月某个周二已经推出最智能的模型,或者提前一周公布像 AlphaEvolve 这样令人振奋的突破。
我们希望尽快将最出色的模型交付给大家,并尽快融入到我们的产品中。因此,我们的发布速度比以往任何时候都更快。
模型的持续迭代
模型的迅速发展令我尤为兴奋。Elo 等级分,作为衡量模型进步的一项重要机制,自第一代模型 Gemini Pro 发布以来至今已经提高了 300 多分。如今,Gemini 2.5 Pro 在 LMArena 排行榜的所有类别中都占据首位。
模型的进步得益于我们世界领先的基础设施。我们第七代 TPU Ironwood,是首款专为大规模支持思考型和推理型 AI 工作负载而设计的。它的性能比上一代提升了 10 倍,每个 pod (计算单元)的计算能力达到了令人难以置信的 42.5 exaflops——这简直令人惊叹。
正是我们深入到 TPU 的整体基础设施的优势,帮助我们在模型价格显著下降的同时,依然能够交付速度更快、性能更为卓越的模型。我们一次又一次地以最具性价比的方式提供了最出色的模型。Google 不仅在帕累托前沿上保持领先,更从根本上拓展了这一前沿。
世界正在拥抱 AI
更多的智能正变得触手可及,惠及每个人,遍及每个角落。全球各地也正在以前所未有的速度响应、拥抱AI。以下是一些重要的进展:
去年同期,我们通过不同产品和 API 每月处理 9.7 万亿个令牌。而现在,这一数字已超过 480 万亿——足足增长了 50 多倍。
超过 700 万开发者正在利用 Gemini 进行构建,比去年同期多了五倍。同时,Vertex AI 上 Gemini 的使用量增长了 40倍。
Gemini 应用目前的月活跃用户已超过 4 亿。我们看到,尤其是 2.5 系列模型的使用增长强劲和用户参与度很高。其中,Gemini 应用中 2.5 Pro 的使用量更是增长了 45%。
从研究到现实
所有这些进展都昭示着我们正处于 AI 平台转变的新阶段。这意味着几十年的研究,如今正真正地成为世界各地的人们、企业和社区的现实。
Project Starline → Google Beam + 语音翻译
几年前,我们在 I/O 大会上首次展示了 突破性的 3D 视频技术——Project Starline,这项技术旨在创造身临其境的感觉,即使相隔遥远,也能让人感觉置身同一房间。
我们持续取得技术进步。今天,我们将要介绍它的新篇章:Google Beam,一个全新的 AI 为先的视频通信平台。Beam 利用最先进的视频模型,通过一个由六个摄像头组成的阵列并结合 AI 技术,将 2D 视频流转换为逼真的 3D 体验,并融合视频流在 3D 光场显示器上呈现用户形象。它实现了近乎完美的头部追踪,精确到毫米,并能以每秒 60 帧的速度实时呈现。最终呈现的是更自然、更具沉浸感的对话体验。与惠普合作,首批 Google Beam 设备将于今年晚些时候向早期客户发售。
多年来,我们还在 Google Meet 中创造更具沉浸感的体验。这包括将一项通过语音翻译帮助人们打破语言障碍的技术应用于 Google Meet。它能近乎实时地匹配说话者的声音、语调,甚至表情,使跨语言交流更加自然流畅。英语和西班牙语的翻译功能正在向 Google AI Pro 和 Ultra 订阅者推出 Beta 版,更多语言将在未来几周内推出。今年,这项功能也将向 Workspace 企业客户提供早期测试。
Project Astra → Gemini Live另一个在 I/O 大会上首次亮相的令人兴奋的研究项目是 Project Astra,它旨在探索一个能够理解周围世界的通用 AI 助手。现在,Gemini Live 已整合 Project Astra 的摄像头和屏幕共享功能。人们正以有趣的方式使用它,从面试准备到马拉松训练。这项功能已向所有 Android 用户开放,并将于今天开始向 iOS 用户推出。我们还会将这些功能引入到搜索等产品中。
Project Mariner → Agent Mode
我们认为智能体(agents)是将高级 AI 模型的智能与工具调用能力相结合的系统,因此它们可以在您的控制下代表您执行操作。我们的早期研究原型 Project Mariner,是智能体在计算机使用能力方面的早期尝试,它可以与网络互动并为您完成任务。我们在去年 12 月发布了它的早期研究原型。此后,我们在新的多任务处理能力方面取得了很大进展,并引入了一种名为“教学与重复”的方法,即您只需向它展示一次任务,它就能学习计划未来类似的任务。我们正在通过 Gemini API 将 Project Mariner 的计算机使用功能提供给开发者。像 Automation Anywhere 和 UiPath 这样的受信任测试者已经开始使用它进行开发,今年夏天,它将在更大范围内推出。
智能体生态系统的蓬勃发展,需要我们构建一套更广泛的工具,而计算机使用是其中一部分。
例如,我们开放的 Agent2Agent 协议,旨在实现智能体之间的相互对话。此外,Anthropic 引入的模型上下文协议(Model Context Protocol),则允许智能体访问其他服务。今天,我们很高兴地宣布,我们的 Gemini API 和 SDK 现已兼容 MCP 工具。
我们还开始将智能体功能引入 Chrome、搜索和 Gemini 应用中。例如,Gemini 应用中新增的 Agent Mode 将帮助您完成更多任务。如果您正在寻找公寓,它将帮助您在 Zillow 等网站上找到符合您条件的房源,调整过滤器,并使用 MCP 访问房源,甚至为您安排看房。Gemini 应用中 Agent Mode 的实验版本将很快向订阅者推出。这对 Zillow 这样的公司来说非常有利,可以带来新客户并提高转化率。
这是一个新兴领域,我们很高兴能探索如何最好地将智能体的益处更广泛地带给用户和整个生态系统。
个性化的力量
将研究变为现实的最佳途径,是让它在您自己的现实生活中真正发挥作用。这正是个性化的强大之处。我们正在通过被称为“个人上下文”(personal context)的技术来实现这一点。在您的许可下,Gemini 模型可以以私密、透明且完全由您控制的方式,在您的 Google 应用中使用相关的个人上下文。
其中一个例子就是我们 Gmail 中新推出的个性化智能回复(Smart Replies)。如果您的朋友给您发邮件向你咨询关于您过去旅行的建议,Gemini 可以搜索您过去的邮件和 Google Drive 中的文件,例如您在 Google Docs 中创建的行程,从而建议一个包含具体细节的回复。它将匹配您典型的问候语,捕捉您的语调、风格甚至喜欢用的词语,最终生成一个更贴切、更像您本人风格的回复。个性化智能回复将于今年晚些时候向订阅者提供。不难想象,个人上下文将在搜索、Gemini 等更多产品中发挥巨大的实用价值。
搜索中的 AI Mode
我们的 Gemini 模型正在助力 Google 搜索变得更智能、更具智能体能力、更个性化。
自去年推出以来,AI Overviews 已覆盖超过 15 亿用户,目前已在 200 个国家和地区推出。随着人们使用 AI Overviews,我们发现他们对结果更满意,搜索频率也更高。在我们最大的市场,如美国和印度,AI Overviews 功能使显示该功能的查询增长超过 10%,而且这种增长还在持续。
这无疑是搜索过去十年中最成功的发布之一。
对于那些希望获得端到端 AI 搜索体验的用户,我们正在推出全新的 AI Mode。这是对搜索的彻底重塑。凭借更高级的推理能力,您可以使用 AI Mode 提出更长、更复杂的查询。事实上,早期测试者提出的查询长度是传统搜索的两到三倍,而且您可以进一步提出后续问题。这将作为新标签页直接在搜索中提供。
我一直在大量使用它,它完全改变了我使用搜索的方式。我很高兴地宣布,AI Mode 将从今天开始在美国向所有用户推出。凭借我们最新的 Gemini 模型,我们 AI 回复的质量和准确性达到了您对搜索的期望,并且是业内最快的。从本周开始,Gemini 2.5 也将登陆美国地区的搜索。
推进我们最智能的模型: Gemini 2.5
我们强大高效的主力模型 Gemini 2.5 Flash 凭借其速度和低成本深受开发者欢迎。新版 2.5 Flash 在几乎所有方面都得到了改进,在推理、多模态、代码和长上下文等关键基准测试中均有提升。它在 LMArena 排行榜上仅次于 2.5 Pro。
我们正在通过引入一种我们称之为 Deep Think 的增强推理模式,使 2.5 Pro 变得更强大。它运用了我们在思维和推理方面的最新前沿研究,包括并行思维技术。
更个性化、更主动、更强大的 Gemini 应用
我们正在让 Deep Research 更具个性化,允许您上传自己的文件,并很快连接到 Google Drive 和 Gmail,从而增强其生成定制化研究报告的能力。我们还将其与 Canvas 集成,点击一下即可创建动态信息图表、测验,甚至多种语言的播客。除此之外,我们欣喜地看到 Canvas 在氛围编程(vibe coding)方面被广泛采用,这让更多人只需通过与 Gemini 聊天,就能轻松创建功能性应用。
对于深受用户喜爱的 Gemini Live 功能,我们正在免费向所有人开放摄像头和屏幕共享功能,包括 iOS 用户。未来,它还将很快连接到您喜爱的 Google 应用,提供更无缝的帮助。
我们在生成式媒体模型方面的进展
我们推出了我们最新最先进的视频模型 Veo 3,它现在具备了原生音频生成功能。同时,我们还推出了 Imagen 4,我们最新最强大的图像生成模型。这两款模型都可以在 Gemini 应用中使用,为创意开启了一个全新的世界。
我们还将这些可能性带给电影制作人,推出了一款名为 Flow 的新工具。您可以使用它创建电影片段,并将短片扩展为更长的场景。
改善生活的机会AI 带来的机遇确实影响深远。确保其惠及尽可能多的人,将取决于我们这一代开发者、技术专家和致力于解决问题的人。尤其令人振奋的是,想到我们今天正在进行的各项研究——从机器人技术到量子计算、AlphaFold 再到 Waymo——都将成为未来现实的基石。
我深知改善生活的机遇来之不易。最近的一次亲身经历,更是让我对此有了更深刻的感触。当时,我和我的父母在旧金山。他们做的第一件事,就是想体验一下 Waymo。我这才了解到,这正逐渐成为当地最受欢迎的旅游项目之一。我以前也坐过 Waymo,但我 80 多岁的父亲完全被震撼了;那一刻,我对这项进步有了全新的体悟。
这提醒了我,技术拥有令人难以置信的力量,能够激励、震撼并推动我们前进。我迫不及待地想看到我们接下来将共同创造的精彩。