在过去的十年中,我们为现代 AI 时代奠定了许多基础,从率先提出所有大型语言模型赖以构建的 Transformer 架构,到开发 AlphaGo 和 AlphaZero 等可以学习和规划的智能体系统。
我们已将这些技术应用于量子计算、数学、生命科学和算法发现领域的突破。我们继续在基础研究的广度和深度上加倍投入,致力于发明实现通用人工智能 (AGI) 所必需的下一个重大突破 。
正因如此,我们正努力拓展我们最强的多模态基础模型 Gemini 2.5 Pro,使其成为一个能够通过理解和模拟世界的各个方面来制定计划和构想新体验的“世界模型”,就像大脑一样。
我们在这方面已经取得了长足的进步,从训练智能体掌握围棋和星际争霸(StarCraft)等复杂游戏的开创性工作,到可基于单个图像提示生成可交互 3D 模拟环境的 Genie 2。
我们已经可以看到,这些能力正在显现,体现在 Gemini 利用世界知识和推理来表示和模拟自然环境的能力,Veo 对直观物理的深刻理解,以及 Gemini Robotics 教导机器人抓取、遵循指令和即时调整的方式中。
将 Gemini 打造成一个世界模型,是开发一种新型、更通用、更有用的 AI——通用 AI 助手的关键一步。这是一种智能的 AI,能够理解您所处的上下文,并根据您的请求跨任何设备代表您规划和采取行动。
将 Project Astra 的实时功能引入我们的产品中
我们的终极愿景是将 Gemini 应用转型为一款通用 AI 助手,它将为我们执行日常任务、处理我们繁琐的行政事务、呈现令人满意的新推荐,从而提高我们的生产力并丰富我们的生活。
这一进程的起点,是我们去年在研究原型 Project Astra 中首次实践的功能,包括视频理解、屏幕共享和记忆等。
在过去的一年中,我们已将这些功能整合到 Gemini Live 中以便让更多人今天就能体验。我们继续在最前沿领域不懈地改进和探索新的创新。例如,我们升级了语音输出,使其通过原生音频输出听起来更自然;我们改进了记忆功能并增加了计算机控制。
我们正在收集受信任测试人员关于这些新功能的反馈,并致力于将它们引入 Gemini Live、搜索中的新体验、面向开发者的 Live API 以及眼镜等新型设备。
在此过程的每一步,安全和责任都是我们工作的核心。我们最近进行了一项大型研究项目,探讨了围绕高级 AI 助手的伦理问题,这项工作将继续指导我们的研究、开发和部署。
构建能够为您处理多任务的 AI
通过 Project Mariner,我们还在探索智能体的能力如何帮助人们处理多任务。这是一个研究原型,旨在从浏览器入手,探索人与智能体交互的未来。
自去年 12 月推出 Project Mariner 以来,我们一直与一群受信任的测试人员密切合作,收集反馈并改进其实验性功能。
Project Mariner 现在包含一个智能体系统,可以同时完成多达十项不同的任务。这些智能体可以帮助您查找信息、进行预订、购买物品、进行研究等等——所有这些都可以同时进行。
美国的 Google AI Ultra 订阅用户已可以使用更新后的 Project Mariner。我们正在将其计算机使用功能引入 Gemini API,并且我们计划在今年内将更多功能引入 Google 产品。
通过这项工作以及我们所有开创性的工作,我们正在构建更个性化、更主动、更强大的 AI,这将丰富我们的生活,加速科学进步,并迎来一个发现和惊叹的新黄金时代。