来源:有新Newin
5 月 15 日凌晨,Google I/O 开发者大会正式召开,以下是长达 2 小时发布会内容总结:
Gmail 用户将能够使用 Gemini AI 技术搜索、总结和起草电子邮件。它还能够对电子邮件采取行动以执行更复杂的任务,例如通过搜索收件箱、查找收据和填写在线表格来帮助你处理电商退货。
另一个升级是 Gemini 现在可以分析比以前更长的文档、代码库、视频和音频记录。谷歌目前的旗舰机型 Gemini 1.5 Pro 新版本的私人预览中,据透露,它最多可以容纳 200 万 token。这是之前的两倍,新版 Gemini 1.5 Pro支持所有商用型号中最大的输入。
对于要求较低的应用,谷歌推出了公共预览版 Gemini 1.5 Flash,这是 Gemini 1.5 Pro 的“精炼”版本,是专为“窄”、“高频”生成 AI 工作负载而构建的小型高效模型。Flash 拥有多达 200 万个 token 上下文窗口,与 Gemini 1.5 Pro 一样是多模式的,这意味着它可以分析音频、视频和图像以及文本。
此外,超过 150 个国家/地区和超过 35 种语言的 Gemini Advanced 用户可以利用 Gemini 1.5 Pro 的更大上下文,让聊天机器人分析、总结和回答有关长文档(最多 1,500 页)的问题。
Gemini Advanced 用户可以从今天开始与 Gemini 1.5 Pro 进行交互,还可以从 Google Drive 导入文档或直接从移动设备上传文档。
在接下来的几个月中,Gemini Advanced 将获得一种新的“规划体验”,可以根据提示创建自定义旅行行程。考虑到飞行时间(来自用户 Gmail 收件箱中的电子邮件)、膳食偏好和当地景点信息(来自 Google 搜索和地图数据)以及这些景点之间的距离等因素,Gemini 将生成自动更新的行程以反映任何变化。
在不久的将来,Gemini Advanced 用户将能够创建 Gems,这是由 Google Gemini 模型提供支持的自定义聊天机器人。沿着 OpenAI 的 GPT 的思路,Gems 可以从自然语言描述生成 - 例如,“你是我的跑步教练。给我一个每日跑步计划”——并与他人分享或保密。
很快,Gems 和 Gemini 将能够利用与 Google 服务的扩展集成,包括 Google 日历、任务、Keep 和 YouTube Music,以完成各种省力任务。
谷歌预览了 Gemini 中名为 Gemini Live 的新体验,它可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。
用户可以在聊天机器人说话时打断 Gemini,提出澄清问题,它会实时适应他们的语音模式。Gemini 可以通过智能手机摄像头拍摄的照片或视频来查看用户的周围环境并对其做出反应。
谷歌表示,它利用生成式 AI 新技术来提供卓越的、不易出错的图像分析,并将这些技术与增强的语音引擎相结合,以实现更一致、情感表达和现实的多轮对话。
从某种程度上来说,Gemini Live 是Google Lens(谷歌长期用于分析图像和视频的计算机视觉平台)和 Google Assistant(谷歌跨手机、智能音箱和电视的人工智能驱动、语音生成和识别虚拟助手)的演变 。
DeepMind 首席科学家 Oriol Vinyals 表示,这是一个实时语音界面,具有极其强大的多模式功能和长上下文。
推动 Live 的技术创新部分源于 Project Astra,这是 DeepMind 内部的一项新举措,旨在创建 AI 驱动的应用和智能体,以实现实时、多模式理解。
DeepMind CEO Demis Hassabis 表示,谷歌一直希望打造一款在日常生活中有用的通用智能体,想象一下代理可以看到和听到我们所做的事情,更好地了解我们所处的环境并在对话中快速做出反应,从而使交互的速度和质量感觉更加自然。
据悉,Gemini Live 直到今年晚些时候才会推出,它可以回答有关智能手机摄像头视野内(或最近视野内)事物的问题,例如用户可能位于哪个社区或损坏的自行车上的某个部件的名称。指向计算机代码的一部分,Live 可以解释该代码的作用。或者,当被问及一副眼镜可能在哪里时,Live 可以说出它最后一次“看到”眼镜的位置。
Live 还被设计为某种虚拟教练,帮助用户排练活动、集思广益等。例如,Live 可以建议在即将到来的工作或实习面试中强调哪些技能,或者提供公开演讲建议。
新的 ChatGPT 和 Gemini Live 之间的一个主要区别是 Gemini Live 不是免费的。一旦推出,Live 将是 Gemini Advanced 的专属版本,Gemini Advanced 是 Gemini 的更复杂版本,受 Google One AI Premium Plan 保护,价格为每月 20 美元。
谷歌还从 Chrome 126 开始,将最小的 AI 模型 Gemini Nano 直接构建到 Chrome 桌面客户端中。谷歌表示,这将使开发人员能够使用设备上的模型来支持自己的 AI 功能。例如,谷歌计划利用这一新功能来支持 Gmail 中 Workspace Lab 现有的“帮助我写作”工具等功能。
谷歌 Chrome 产品管理总监 Jon Dahlke 指出,谷歌正在与其他浏览器供应商进行谈判,以便在他们的浏览器中启用此功能或类似功能。
谷歌在 Android 上的 Gemini 是 Google Assistant 的 AI 替代品,很快将利用其与 Android 移动操作系统和谷歌应用程序深度集成的能力。
用户将能够将 AI 生成的图像直接拖放到他们的 Gmail、Google Messages 和其他应用程序中。
谷歌表示,与此同时,YouTube 用户将能够点击“询问此视频”,从该 YouTube 视频中查找特定信息。
购买升级版 Gemini Advanced的用户还可以使用“询问此 PDF”选项,让您无需阅读所有页面即可从文档中获得答案。Gemini Advanced 订阅者每月支付 19.99 美元即可访问 AI,并获得 2TB 存储空间以及其他 Google One 福利。
谷歌表示,Android 版 Gemini 的最新功能将在未来几个月内推广到数亿受支持的设备。随着时间的推移,Gemini 将不断发展,提供与屏幕上的内容相关的其他建议。
与此同时,Android 设备上的基础模型 Gemini Nano 将升级以包含多模态。这意味着它将能够处理文本输入以及其他处理信息的方式,包括视觉、声音和口语。
从 Places API 开始,Gemini 模型功能将登陆 Google 地图平台供开发者使用。开发人员可以在自己的应用程序和网站中显示地点和区域的生成 AI 摘要。这些摘要是基于 Gemini 对 Google 地图社区超过 3 亿贡献者的见解分析而创建的。
这些摘要是基于 Gemini 对 Google 地图社区超过 3 亿贡献者的见解分析而创建的。借助这项新功能,开发人员将不再需要编写自己的自定义地点描述。
例如,如果开发人员有一个餐厅预订应用程序,这项新功能将帮助用户了解哪家餐厅最适合他们。当用户在应用程序中搜索餐厅时,他们将能够快速查看所有最重要的信息,例如餐厅特色菜、欢乐时光优惠和餐厅氛围。
新的摘要适用于多种类型的场所,包括餐馆、商店、超市、公园和电影院。谷歌还将 AI 驱动的上下文搜索结果引入 Places API。当用户在开发者的产品中搜索地点时,开发者现在可以显示与其搜索相关的评论和照片。
谷歌推出了下一代——确切地说是第六代——TPU AI 芯片。它们被称为 Trillium,将于今年晚些时候推出。如果您还记得的话,宣布下一代 TPU 已成为 I/O 大会上的一项传统,尽管这些芯片仅在今年晚些时候推出。
与第五代相比,这些新型 TPU 的每芯片计算性能将提高 4.7 倍。Trillium 具有第三代 SparseCore,谷歌将其描述为“用于处理高级排名和推荐工作负载中常见的超大型嵌入的专用加速器。
Pichai 将新芯片描述为谷歌迄今为止“最节能”的 TPU,随着对 AI 芯片的需求持续呈指数级增长,这一点尤其重要。
他表示,过去六年,行业对 ML 计算的需求增长了 100 万倍,每年大约增长十倍,如果不投资降低这些芯片的功耗需求,这是不可持续的。谷歌承诺,新型 TPU 的能效比第五代芯片高 67%。
此外,谷歌在 Gemma 2 中添加一个新的 270 亿参数模型。下一代谷歌 Gemma 模型将于 6 月推出。谷歌表示,这个尺寸经过 Nvidia 优化,可以在下一代 GPU 上运行,并且可以在单个 TPU 主机和顶点 AI 上高效运行。
谷歌推出了 Imagen 模型的最新产品 —— Imagen 3。DeepMind CEO Demis Hassabis 表示,与前身 Imagen 2 相比,Imagen 3 能够更准确地理解翻译成图像的文本提示,并且比前几代产品更加富有创意和细致。
为了减轻人们对深度伪造的可能性的担忧,谷歌表示 Imagen 3 将使用SynthID,这是 DeepMind 开发的一种方法,可将不可见的加密水印应用于媒体。
谷歌的 ImageFX 工具可以注册 Imagen 3 的私人预览版,谷歌表示,该模型将“很快”提供给使用谷歌企业生成式 AI 开发平台 Vertex AI 的开发人员和企业客户。
谷歌正在瞄准 OpenAI 的 Sora with Veo,这是一种 AI 模型,可以根据文本提示创建大约一分钟长的 1080p 视频剪辑。Veo 可以捕捉不同的视觉和电影风格,包括风景和延时镜头,并对已生成的镜头进行编辑和调整。
它还建立在谷歌在四月份预览的视频生成方面的初步商业工作的基础上,该工作利用该公司的 Imagen 2 系列图像生成模型来创建循环视频剪辑。
Demis Hassabis 表示,谷歌正在探索故事板和生成更长场景等功能,以了解 Veo 的功能,谷歌在视频方面取得了令人难以置信的进步。
Veo 接受了大量镜头的训练。这就是生成式 AI 模型的工作原理:输入某种形式数据的一个又一个示例,模型会拾取数据中的模式,使它们能够生成新数据——在 Veo 的例子中是视频。
然而,谷歌已经向选定的创作者提供了 Veo,其中包括 Donald Glover(又名 Childish Gambino)和他的创意机构 Gilga。
谷歌推出了 LearnLM,这是一个针对学习进行“微调”的新生成 AI 模型系列。这是谷歌 DeepMind AI 研究部门和谷歌研究院之间的合作。谷歌表示,LearnLM 模型旨在“对话式”辅导学生一系列科目。
LearnLM 已经在 Google 的多个平台上可用,且正在通过 Google Classroom 的试点项目来使用 LearnLM。谷歌表示,LearnLM 可以帮助教师发现新的想法、内容和活动,或者找到适合特定学生群体需求的材料。
YouTube 的新功能是 AI 生成的测验。这种新的对话式 AI 工具允许用户在观看教育视频时象征性地“举起”手。观众可以提出澄清问题、获得有用的解释或就主题进行测验。
由于 Gemini 模型的长上下文功能,这对于那些必须观看较长教育视频(例如讲座或研讨会)的人来说会有所缓解,这些新功能正在向美国部分 Android 用户推出。
Project IDX 是谷歌下一代、以 AI 为中心、基于浏览器的开发环境,现已进入公开测试阶段。
谷歌副总裁兼 Developer X 总经理兼负责人 Jeanine Banks 表示,随着 AI 变得越来越普遍,部署所有这些技术所带来的复杂性确实变得越来越困难、越来越大,谷歌希望帮助解决这一挑战。开发商关系,这就是构建 Project IDX 的原因。
IDX 是一种多平台开发体验,可以让构建应用程序变得快速、轻松,你可以通过 Next.js、Astro、Flutter、Dart、Angular、Go 等易于使用的模板轻松使用您喜欢的框架或语言。
此外,Google 将与 Google Maps Platform 的集成添加到 IDE 中,帮助向其应用程序添加地理定位功能,并与 Chrome 开发工具和 Lighthouse 集成以帮助调试应用程序。很快,谷歌还将支持将应用程序部署到 Cloud Run,这是 Google Cloud 的无服务器平台,用于运行前端和后端服务。
该开发环境还将与谷歌 AI 驱动的合规平台 Checks 集成,该平台本身将于周二从测试版转为正式版。当然,IDX 不仅仅是构建支持 AI 的应用程序,它还涉及在编码过程中使用 AI。
为了实现这一点,IDX 包括许多现已成为标准功能的功能,例如代码完成和聊天助手侧边栏,以及创新功能,例如突出显示代码片段的功能,以及类似于 Photoshop 中的生成填充功能,询问 Google 的 Gemini 模型更改代码片段。
每当 Gemini 建议代码时,它都会链接回原始来源及其相关许可证。Project IDX 是 Google 以开源 Visual Studio Code 为核心构建的,它还与 GitHub 集成,可以轻松地与现有工作流程集成。在 IDX 的最新版本之一中,Google 还在IDE 中为移动开发人员添加了内置 iOS 和 Android 模拟器。
谷歌搜索主管 Liz Reid 表示,谷歌为搜索构建了定制的 Gemini 模型,将实时信息、谷歌排名、长上下文和多模态特征结合在一起。
谷歌正在其搜索中添加更多 AI ,缓解了人们对该公司正在将市场份额输给 ChatGPT 和 Perplexity 等竞争对手的疑虑。
谷歌正在向美国用户推出 AI 驱动的概述。此外,该公司还希望使用 Gemini 作为旅行计划等事务的智能体。
谷歌计划使用生成式 AI 来组织某些搜索结果的整个搜索结果页面。这是对现有 AI 概述功能的补充,该功能会创建一个简短的片段,其中包含有关您正在搜索的主题的聚合信息。经过谷歌 AI 实验室计划的一段时间后, AI 概述功能将于周二全面开放。
自去年以来,谷歌一直在通过其搜索生成体验(SGE)测试 AI 驱动的概述。现在,它将于本周在美国向“数亿用户”推出,目标是在今年年底前向超过 10 亿人提供服务。
她还表示,在其 AI 概述功能的测试期间,谷歌观察到人们点击了更加多样化的网站。当传统搜索足以提供结果时,用户将看不到 AI 概述,该功能对于比较复杂、信息分散的查询更有用。
此外,谷歌还希望使用 Gemini 作为智能体 Agent 来完成膳食或旅行计划等任务。用户可以输入诸如“为四口之家计划三天的膳食”之类的查询,并获取这三天的链接和食谱。
由 AI 驱动的“圈搜索”功能允许 Android 用户使用转圈等手势立即获得答案,现在将能够解决更复杂的心理学和数学应用题。
它的设计目的是让用户在手机上的任何地方都可以更自然地通过一些操作(例如圈选、突出显示、涂鸦或点击)来使用 Google 搜索。
谷歌预览了一项功能,它认为该功能将在通话过程中提醒用户注意潜在的诈骗。
该功能将内置于 Android 的未来版本中,它利用 Gemini Nano,这是 Google 生成式 AI 产品的最小版本,可以完全在设备上运行。该系统有效地实时监听“通常与诈骗相关的对话模式”。
谷歌举了一个假装是“银行代表”的例子。密码请求和礼品卡等常见的诈骗策略也会触发该系统。这些都是众所周知的从你身上榨取钱财的方式,但世界上有很多人仍然容易受到此类骗局的侵害。一旦启动,它会弹出一条通知,提示用户可能会成为令人讨厌的角色的牺牲品。
谷歌照片正在注入 AI ,推出了一项实验性功能“Ask Photos”,该功能由谷歌的 Gemini AI 模型提供支持。今年夏天晚些时候推出的新功能将允许用户使用自然语言查询来搜索他们的 Google 照片集,这些查询利用了 AI 对其照片内容和其他元数据的理解。
虽然在用户可以搜索照片中的特定人物、地点或事物之前,借助自然语言处理, AI 升级将使找到正确的内容更加直观,减少手动搜索过程。
Firebase 平台新增了一个名为 Firebase Genkit 的功能,旨在让开发人员更轻松地使用 JavaScript/TypeScript 构建 AI 驱动的应用,并且即将推出对 Go 的支持。
它是一个开源框架,使用 Apache 2.0 许可证,使开发人员能够快速将 AI 构建到新的和现有的应用程序中。
此外,谷歌重点介绍 Genkit 的一些用例,包括许多标准 GenAI 用例:内容生成和摘要、文本翻译和生成图像。
Google Play 凭借新的应用发现功能、获取用户的新方式、Play Points 更新以及面向开发者的工具(例如 Google Play SDK Console 和 Play Integrity API 等)的其他增强功能而受到了一些关注。
开发人员特别感兴趣的是名为 Engage SDK 的东西,它将为应用程序制造商引入一种方式,以针对个人用户的个性化全屏、沉浸式体验向用户展示其内容。不过,谷歌表示,用户目前无法看到这个表面。