Google 黑板报: Gemini 2.0: 我们智能体时代的最新 AI 模型

Gemini 2.0: 我们智能体时代的最新 AI 模型

2024年12月12日

Sundar Pichai 寄语

Google 和 Alphabet CEO

信息是人类进步的基石。26 年来，我们始终专注于我们的使命 —— 整合全球信息，供大众使用，让人人受益。这也是我们持续拓展人工智能前沿领域的原因。我们整合来自世界各地的信息，并通过多样化的输出方式，让这些信息触手可及，真正为您所用。

正是基于这个愿景，我们在去年年底推出了 Gemini 1.0。作为首个原生多模态模型，Gemini 1.0 和 1.5 在多模态和长上下文处理方面取得了重大进展，能够理解跨越文本、视频、图像、音频和代码等多种形式的信息，并处理更为庞大的信息。

现在，数百万开发者正在基于 Gemini 进行开发。Gemini 也正在帮助我们自己重新构想所有的产品——包括我们拥有 20 亿用户的 7 款产品——并打造新的产品。NotebookLM 就是个很好的例子，它展示了多模态和长上下文能够为人们带来什么，以及为什么如此受大家喜爱。

在过去一年里，我们在持续开发更多智能体模型，这也意味着它们可以更好地理解周围的世界，提前思考多个步骤，并在您的监督下代表您行动。

今天，我们很高兴推出了为新智能体时代构建的下一代模型：Gemini 2.0，这是我们迄今为止最强大的模型。凭借在多模态方面的新进展——例如原生图像和原生音频的输出以及原生工具使用—— Gemini 2.0 使我们能够构建新的 AI 智能体，从而让我们离构建通用助手的愿景更进一步。

今天，我们将 2.0 开放给开发者以及受信任的测试人员。我们也正在积极推进将其整合到我们的产品中，率先从 Gemini 和 Search 开始。从今天开始，Gemini 2.0 Flash 体验版模型将对所有 Gemini 用户开放。同时，我们还推出了 Deep Research 的新功能，它运用高级推理和长上下文处理能力，承担研究助手的角色，帮助您探索复杂的主题并撰写报告。该功能自今日起对 Gemini Advanced 用户开放。

Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今，AI Overviews 已触达 10 亿用户，该功能使用户能够提出全新的问题类型，迅速成为 Search 有史以来最受欢迎的功能之一。接下来，我们会将 Gemini 2.0 的高级推理能力融入 AI Overviews，以攻克更复杂的主题和多步骤问题，包括高等数学方程、多模态查询和编码。我们本周已经在小范围进行了测试，并计划于明年年初在更大范围推出。同时，我们还计划明年将 AI Overviews 功能面向更多国家开放，适配更多语言。

2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入。它基于我们定制的

硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持，今天 Trillium 也全面向用户开放，以便他们能够基于此进行开发。

如果说 Gemini 1.0 是整合和理解信息，那么 Gemini 2.0 能够让信息更加有用。我非常期待 Gemini 2.0 时代的无限可能！

介绍 Gemini 2.0: 我们智能体时代的最新 AI 模型

作者：

Demis Hassabis, Google DeepMind CEO

Koray Kavukcuoglu, Google DeepMind CTO

代表 Gemini 团队

在过去一年中，我们在人工智能领域取得了巨大进步。今天，我们发布 Gemini 2.0 系列模型中的第一个模型：Gemini 2.0 Flash 的体验版。这是我们的主力模型，具有低延迟特性，而且在我们大规模技术前沿中展现了卓越的性能。

同时，我们还通过展示基于 Gemini 2.0 原生多模态功能的原型来分享我们关于智能体的前沿研究。

Gemini 2.0 Flash

Gemini 2.0 Flash 是建立在 1.5 Flash 的成功基础之上，而 1.5 Flash 是我们迄今为止最受开发者欢迎的版本。与 1.5 Flash 相比，Gemini 2.0 Flash 在同样快速的响应时间下性能进一步增强。值得一提的是，2.0 Flash 在关键基准测试中甚至超越了 1.5 Pro，其速度是 1.5 Pro 的两倍。同时 2.0 Flash 还具有新功能，除了能够支持图片、视频和音频等多模态输入，2.0 Flash 现在还可以支持多模态输出，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

我们的目标是让人们能够更安全、快速地使用我们的模型。在过去一个月，我们分享了 Gemini 2.0 的早期体验版，并得到了开发者的积极反馈。

作为提供给开发者的体验版模型，Gemini 2.0 Flash 现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 获取，所有开发者均可使用多模态输入和文本输出，抢先体验的合作伙伴可使用原生文本转语音和图像生成功能。该产品将于 1 月份全面上市，届时将推出更多型号。

为了帮助开发者构建动态和交互式应用程序，我们还发布了新的 Multimodal Live API，它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息，请参阅我们的开发者博客。

Gemini 2.0 应用于我们 AI 助手 Gemini app

同样从今天开始，全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择，来开启基于2.0 Flash 体验版优化后的聊天对话，并且该版本将很快在 Gemini 移动应用中推出。同时，基于这个新模型，用户还可以体验到更加有用的 Gemini 助手。

明年初，我们还会将 Gemini 2.0 扩展到更多 Google 产品中。

解锁 Gemini 2.0 智能互动新体验

Gemini 2.0 Flash 的原生用户界面操作能力，以及多模态推理、长文本理解、复杂指令跟随和规划能力、组合函数的调用，原生工具使用以及延迟优化等一系列优化改进，共同促进了全新的、更智能化的交互体验。

AI 智能体在现实中的应用是一个令人振奋且充满可能性的研究领域。我们正在探索这个全新的领域，开发出了一系列原型，这些原型能够帮助人们完成任务，达成相应的目标。其中包括： Project Astra 的升级版，用于探索未来通用 AI 助手能力的研究原型；全新的 Project Mariner，从浏览器入手，探索人与智能体交互的未来发展； Jules，能够帮助开发者的 AI 驱动的编码智能体。

目前，我们仍处于开发初期，但我们非常期待看到受信任的测试人员来使用这些新功能，并从他们的反馈中汲取经验，不断完善，进而帮助我们在未来将新功能应用到更广泛的产品中。

Project Astra：使用多模态理解现实世界的智能体

自从在 Google I/O 大会上推出 Project Astra 以来，我们一直向那些在 Android 手机上使用它的受信任的测试人员收集反馈。这些大量且宝贵的意见帮助我们更深入地理解通用 AI 助手在现实应用中的表现，包括在安全和伦理方面可能面临的挑战。基于 Gemini 2.0 版本，我们在以下方面进行了改进;

更流畅的对话：Project Astra 现在可以在多种语言和混合语言之间进行对话，并且能够更好地理解不同口音和生僻单词。
新工具的使用：借助 Gemini 2.0，Project Astra 可以使用 Google Search、Google Lens 和 Google Maps，从而在日常生活中更好地发挥助手作用。
更强的记忆力：我们增强了 Project Astra 的记忆能力，同时确保你可以掌控对话。现在，它最多可以记住长达 10 分钟的会话内容，并且可以回忆起过去与它进行的更多对话，以便为您提供更好的个性化服务。
更低的延迟：借助新的流式处理技术和原生音频理解能力，该智能体能够以近于人类对话的延迟来理解语言。

我们正在将这些功能应用于 Google 的产品中，例如我们的 AI 助手 Gemini app 以及智能眼镜等其他设备。除此之外，我们将逐步扩大受信任的测试群体范围，其中的一小部分受信任的测试人员将很快能够开始测试 Project Astra 在原型智能眼镜上的表现。

Project Mariner：帮您完成复杂任务的智能体

Project Mariner 是使用 Gemini 2.0 构建的早期研究原型，旨在从您的浏览器开始，探索人机交互的未来。作为研究原型，它能够理解和推理浏览器页面中的信息，包括像素和文本、代码、图像和表单等网页元素，然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。

在 WebVoyager 基准测试（该测试针对智能体在端到端的真实世界网页任务的性能）中，Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率，达到了最先进的水平。

虽然目前 Project Mariner 的运行并非总是准确，且完成任务的速度较慢，但它仍处于早期阶段，并且随着时间的推移将迅速改善。

为了安全、负责任地构建这一系统，我们正在积极研究新型风险和应对措施，始终保持有人类的参与和监督。例如，Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击，而它在采取某些敏感操作（如购买某物）之前，会要求用户进行最终确认。

受信任的测试人员现在正开始使用实验性的 Chrome 扩展程序测试 Project Mariner，同时，我们正与网络生态系统展开合作。

Jules：面向开发者的智能体

接下来，我们会探索人工智能智能体如何通过 Jules（一种实验性的 AI 代码智能体，它可以直接集成到 GitHub 工作流程中）来协助开发者。它可以解决问题、制定并执行计划，所有这些都在开发者指导和监督下进行。这项工作是我们长期目标的一部分，即构建可在所有领域（包括编码）中提供帮助的 AI 智能体。

关于此实验的更多信息，请参阅我们的开发者博客文章 developer blog post。

游戏和其他领域的智能体

Google DeepMind 一直以来都在利用游戏来帮助人工智能模型更好地遵守规则，进行规划，并运用逻辑思维。比如就在上周，我们推出了 Genie 2，这是一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。基于这一传统，我们使用 Gemini 2.0 构建了智能体，它们可以帮助您在电子游戏中做出更明智的决策。这些智能体可以根据屏幕上的实时画面，分析游戏情况，并为您提供下一步行动建议。

我们正在与 Supercell 等顶尖的游戏开发团队合作，探索智能体在游戏领域的应用。我们通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现，来评估它们理解游戏规则、应对挑战的能力。

除了做虚拟游戏伙伴之外，这些智能体还可以通过 Google Search 让您接触到丰富的游戏相关的知识。

除了探索虚拟世界的智能体能力外，我们还将 Gemini 2.0 的空间推理能力应用于机器人领域，尝试让智能体在现实世界中提供帮助。虽然这项研究仍处于初期阶段，但我们对智能体在现实环境中的应用前景感到非常兴奋。

关于这些研究原型和实验的更多信息，请您查阅 labs.google。

在智能体时代负责任地进行构建

通过 Gemini 2.0 Flash 和我们的研究原型，我们能够不断测试和迭代 AI 研究的前沿新功能，这些新功能最终将提升 Google 产品的实用性。

在开发这些新技术的同时，我们深知其所带来的责任，也意识到 AI 智能体在安全方面可能引发的诸多问题。正因如此，我们采取探索性和渐进式的开发方式。我们对多个原型进行深入研究，不断迭代地实施安全培训，与受信任的测试人员和外部专家合作，并进行全面的风险评估和安全性测评。

例如：

作为我们安全管理流程的一部分，我们一直与内部审查小组，责任与安全委员会 (RSC) 积极合作，以识别和评估潜在风险。
借助 Gemini 2.0 强大的推理能力，我们在 AI 辅助的红队测试中取得了重大进展。除了能检测潜在风险，还能够自动生成评估报告和训练数据来帮助我们减少风险，从而让我们可以更有效地大规模优化模型，提升安全性。
随着 Gemini 2.0 多模态能力的增强，潜在输出的复杂性也随之增加。为了应对这种复杂性，我们将持续评估和训练模型处理图像和音频的输入输出，提升模型的安全性。
通过 Project Astra，我们正在积极探索可能有效的措施，防止用户无意中将敏感信息泄露给 AI 智能体，并且我们已经内置了隐私控制功能，用户可以轻松删除会话。我们还在继续研究如何确保 AI 智能体作为可靠的信息来源，同时避免执行未经授权的操作。
通过 Project Mariner，我们尝试确保模型能够优先处理用户指令，并有效抵御外部尝试输入的提示词，从而识别外部来源的潜在恶意指令并防止滥用。这有助于保护用户免受隐藏在电子邮件、文档或网站中的恶意指令的侵害，降低用户遭受欺诈和网络钓鱼攻击的风险。

我们深信，AI 的构建必须从一开始就秉持高度的责任感。我们将始终将安全和责任置于模型开发过程的优先位置，不断完善我们的模型和智能体。

Gemini 2.0、AI 智能体以及更多

今天的发布标志着 Gemini 模型迈入了新的发展阶段。随着 Gemini 2.0 Flash 以及一系列探索 AI 智能体可能性的研究原型的推出，我们非常开心在 Gemini 时代达到了一个重要的里程碑。我们也期待着继续安全地探索所有的可能性，向构建通用人工智能（AGI）不断迈进。

中国的博客，走近我们的产品、技术和文化

Gemini 2.0: 我们智能体时代的最新 AI 模型

標籤

博客归档

Feed