与Seedance 2.0一样,Omni也能多种参考素材来生成视频,图片、视频、音频、音乐皆可成为输入。
Search可给你生成一名自定义dashboard或tracker,以后你可延续回来用。
此次谷歌发布之Gemini 3.5系列,首发之为Gemini 3.5 Flash,3.5 Pro还于内部用,谋划下名月推出。
另外,谷歌还把Antigravity与Gemini 3.5 Flash之编码本领带进之Search。
谷歌说,AI Mode上线一年后,月活已超过10亿,查询量每名季度翻倍。
Gemini App还有一名较量易被忽略之更新:macOS桌面版。
前景几周,谷歌还会把它通过API敞开给掘发者与企业主顾。
模型层,谷歌发布Gemini 3.5与Gemini Omni。
Spark需用户选择为否开启、连接哪些App;涉及花钱、发邮件等高险情动作时,会先询问用户。
用户可给Agent设定严格边界,比如只能买哪些品牌、哪些货品、最多花多少钱。
Project Genie + Street View:全球模型始连接确凿街景 购物也为此次大会之大更新之一。
第一批为information agents,讯息型Agent。
它不再只为一名App,而为Google货品体系里之一统智能层。
Search此次还有一名更Agent化之本领:Search agents。
景海鹏。当然,今第一步还为视频。
3.5 Flash面向之为编码、智能体差事与确凿工流,已进入Gemini App、Google Search之AI Mode、Google Antigravity、Gemini API、Android Studio,以及企业平台。
information agents本年炎夏先给Google AI Pro与Ultra用户推出。
二者结合,意味之谷歌可把确凿街景变成可交互之模拟氛围。
第四,为Daily Brief。
更进一步,Search还可为延续性差事生成mini apps。
输出速度上,比其它前沿模型快4倍,于者工智能剖析指数中位列右上象限——意思为又快又强。
更繁一点,它还能把论文、课程视频变成互动式修习卡片与可视化页面,甚至于Google搜索里,根据用户之疑难现场生成图表、模拟器与沉浸式解释界面。
一年一度之谷歌I/O大会,重磅来袭。
此就为Gemini 3.5 Flash之位置。
Search agents订阅之为“你之意图”。
除之Gemini 3.5,此次谷歌还发布之一名更偏创作之新模型:Gemini Omni。
甚多确凿工生于本地:文书夹、桌面软件、浏览器、多窗口、多文档之间。
安康方面,Omni支用户创建自己之数术分身,也就为用自己之声响与形象生成视频。
谷歌还提到Agent Payments Protocol,AP2。
也就为说,它可于你授权下,延续帮你做事。
商品一加入购物车,它就会于后台始工:找优惠、追踪价码降、查看价码史册、提醒补货。
掘发者侧,最重要之为Google Antigravity 2.0。
此些generative UI本领本年炎夏会免费敞开给所有Search用户。
要点于于,本年不仅有模型本领之提升,谷歌还把Gemini塞到之各种地方。
macOS版Gemini:始进入桌面工流 比如你想体谅天体物理,或者想看手表内部怎么运转,Search可实时组装交互视觉、表格、图表、模拟器。
Gemini App:大更新 比如你可让它定期解析每月信用卡账单,找出新增订阅或者隐藏费用;或者教它查验孩子校邮件,把重要日期提取出来,每天发一份简报给你与伴侣;再比如,你可让它从邮件与聊天记载里之集会笔记中提炼讯息,整理成Google Docs,再起草一封课题启动邮件。
谷歌还格外强调,Omni背后接之为Gemini之全球学识。
它运行于Gemini 3.5上,用Antigravity harness,并且深度连接Gmail、Docs、Slides等器物。
官方还提到,用户可从已有素材出发:用草图作为动作参考,把它变成确凿影像;例如用视频里之鲸鱼游动动作,迁移到一种反光流体材料上;或者保留房间架构不变,只把植物变成半透明之发光植物,并让萤火虫与声响节奏互动。
Gemini Omni:谷歌版全模态生成模型 吾等之前写过一篇文章,说PC才为agent时代之头号硬件,谷歌之前于The Android Show上发布之种种更随顺确凿工流之软硬件货品,与此件事也为互通之。
谷歌对它之定位为:can create anything from any input(从任何输入,生成任何实质)。
只要用户愿意授权,Gemini可触达之名者上下文,将成为一名极其庞大之性命。
硬件侧最值得关注之为智能眼镜。
虽不好说实际用效果如何,但此次至少避开之Google Glass当年之几名坑: 此次大会之一名明显趋势为,谷歌正把Gemini改造成Google性命之操作体系。
Coze。定价上,3.5 Flash输入$1.50/百万token,输出$9.00/百万token,比3 Flash贵之3倍,比3.1 Pro廉40%。
不再把眼镜当成微型手机,核心不为通知与小屏幕,而为Gemini对现状全球之体谅与差事执行;不再一上来押注重AR,先推音频眼镜,降低硬件难度与社接受门槛;不再忽视外观,找Gentle Monster与Warby Parker,承认眼镜为时尚耗费品,不为纯科技货品。
作为。跑分方面,Gemini 3.5 Flash于编码本领、Agent本领、器物调用本领上比3.1 Pro强之不少,但于Humanity's Last Exam与ARC-AGI-2上还为有所不足。
它不像爬虫彼样只看某名词有没有现,而为体谅你到底要什么,然后跨网页、新闻、社交、购物、竞技、钱庄等讯息源监控变化。
浴火重生。但今谷歌要表达之为,前景之Agent不或每一步皆调用最贵、最慢之大模型。
此次I/O大会发布之Antigravity 2.0桌面应用、Gemini API里之Managed Agents,以及AI Studio之原生Android vibe coding。
大智若愚。此极其像一名新之货品形态:搜索结局不再为网页,变成之临时生成之小器物。
此个人验已于桌面与移动端全球上线。
繁概念、格致历程、教学实质,皆可被转成更直观之视频。
全球模型可提供虚拟操练场;而Street View则为谷歌独有之数据资产。
用户可上传手机相册里之素材,用模板、提示词、底色替换、电影感变焦等方式做视频。
它对重力、动能、流体此些物理效果有更好之体谅,也可把繁概念做成解释视频。
Daily Brief从美国始,面向Google AI Plus、Pro、Ultra用户推出。
界面会更动态,有流体动画、更鲜明之色彩、新字体、触觉回馈。
Gemini 3.5:迄今为最强之编码、智能体模型 场景也更清楚之。
Google Antigravity 2.0:掘发者侧之Agent工台 也就为说,Genie 之生成本领始与Google近20年街景图像结合,让模型生成之氛围可锚定确凿全球。
宗旨为让搜索结局不再只为文本、图片、表格,而为根据你之疑难即时生成合适之交互界面。
之后谷歌还谋划支图片、音频等更多输出样貌。
谷歌欲证验,自己仍然有把AI变成日常入口之最大性命。
它可于不到一分钟里生成6名不同之支付页面,也可一次做出64名分形图案变体;用户只要用书契描述一名想法,它就能生成可互动之网页组件。
从搜索框,到购物车,再到智能眼镜……谷歌正用AI接管一切。
谷歌提到,Nike、Sephora、Target、Ulta Beauty、Walmart、Wayfair,以及Shopify 上之Fenty、Steve Madden 等品牌会参与相关结账本领。
谷歌把它称为agent-first development platform。
此外,Search还于扩展agentic booking,也就为帮你成预订类差事。
陈祥榕。此与Google Alerts甚像,但更智能。
前者面向行动与 Agent,后者面向全模态生成与视频编辑。
它还会加入新之语音本领:用户可对之屏幕说一段并不完整、夹杂之停顿与口头禅之话,Gemini能根据屏幕上下文,把它整理成更准确之文本,并直接放到光标所于位置。
也就为说,它不为寻常 IDE 插件,而为一名以Agent为中心之掘发平台。
它之意图为让Agent代表用户安康付款。
第二,推出新之设计言辞Neural Expressive。
新之搜索框不再只为输入枢纽词之小框,变成之一名AI入口。
导航、翻译、识别眼前事物、小结消息、拍照编辑、叫车点单,此些皆更接近“我为什么要戴它”。
此对创作者甚重要。
换句话说,谷歌想表达之为,AI视频不为只能做炫酷短片,也可变成一种学识表达器物。
于Gemini 3强盛之多模态根基之上,3.5 Flash可生成更丰富、更具交互性之Web用户界面与图象。
它不只为小结,还会按你之宗旨排序,并建议下一步。
它可把书契、图片、音频、视频一起作为输入,然后生成一段完整视频,并且支对话式视频编辑。
另外,AI Overview 也可更自地接入AI Mode。
雨后春笋。它像一名早晨简报Agent,你授权之后,它会于后台看你之 Gmail、Calendar,把紧急邮件、接下来之日程、需跟进之事项整理成一名早间摘要。
先来看备受关注之底层模型。
谷歌给它之定位为24/7 personal AI agent。
第三,Gemini App接入Gemini Omni,可直接生成与编辑视频。
Google Glass像为把手机通知、拍照、导航此些功能,硬塞到眼前,但此次之Gemini智能眼镜更像为:让AI随时看见你看到之东西、听见你听到之东西,然后帮你体谅与办理。
而且因它为云端Agent,故你关掉电脑、锁上手机,它也可续于后台工。
Omni不为一名单纯之文生视频模型。
比如你于搬家、筹备婚礼、管康谋划,不为一次搜索就终,而为一名长期课题。
但谷歌强调,其他涉及改音频、改语音之本领还于测试中,需更谨慎地推出。
甚至可创建自己之数术分身。
本年I/O之发布看起来格外多、格外散:搜索、购物、办公、视频、眼镜、掘发、科研,几乎每条线皆于讲AI,它们指向之其实为同一件事: 虽3.5 Flash名字里还为Flash,但它之定位已不只为“快”与“廉”,可说,它为谷歌此次所有Agent货品之发动机。
此与Codex、Claude Code、Cursor角逐之为同一条赛道。
Google Search:搜索框25年来最大改版 此为典型之Agent叙事:帮你跨应用成一串动作。
行动会产生后果,氛围会对事件做出反应,叙事会按逻辑演进。
吾等整理之此次大会上最值得关注之10名新东西,一起来看: 谷歌发布之Universal Cart,一名跨效劳、跨商家之智能购物车。
过往AI编程器物之核心为“帮你补代码、写函数、解释报错”,今谷歌想做之为“从prompt到制造就绪app”,也就为你给一名宗旨,AI就能筹划、拆差事、调用器物、跑测试、修bug、部署,并且或让多名子Agent并行工。
当然,谷歌也于强调权限与安康。
Gemini Spark为此次最值得单独介绍之货品之一。
智能眼镜:Google Glass之AI时代重启 过往之Google,为一名你主动用之器物箱,你可用它搜索、发邮件、写文档……今,谷歌想让Gemini站于此些器物之上,体谅你之意图,调用此些器物,替你成一串动作。
此些本领本年炎夏于美国面向所有用户推出。
Gemini Live也被直接整顿到Gemini,用户可从打字自切到语音对话。
整名历程为一轮一轮接之改,而不为每次推倒重来。
也就为说,它不再只为“戴于脸上之小屏幕”,变成之一名更自之AI入口。
此名新设计从今日起于Web、Android、iOS全球推出。
功能上,它可通过“Hey Google”或者轻触镜腿唤起Gemini。
它还会用推演本领提前发觉疑难,比如你于不同零售商彼里买电脑配件,它会提醒你哪些零件不兼容,并推荐替代预案。
本年Google I/O不为一名单点发布会,而为一次性命铺开。
Google Search:搜索框25年来最大改版 昔大家对Flash类模型之印象为:廉、快、适合轻量差事。
谷歌还说,Gemini以后不只为给你一堵书契墙,而为会根据疑难实时生成更适合之回答样貌,比如图片、交互光阴线、旁白视频、动态图象等。
此一功能本周先面向trusted testers,下周谋划作为Beta推给美国Google AI Ultra用户。
毕竟当初Google Glass长此样: 智能眼镜分为两种:一种为音频眼镜,可于你之耳朵里提供语音帮;另一种为显示眼镜,可于你需之时候立即显示所需讯息。
眼镜也可连接 Uber、Mondly等手机应用,并同时支Android与iOS。
Gemini Spark:谷歌版24小时名者Agent Universal Cart:谷歌想做AI购物车 Google Alerts只能按枢纽词订阅。
它可现于Search、Gemini、YouTube、Gmail里。
另一名偏前沿之货品为Project Genie。
第一,接入Gemini 3.5 Flash。
科学。第五,也为最重要之,为Gemini Spark。
它们可24小时于后台监控你关之讯息,然后于合适之时候给你一份统合更新。
今,谷歌把Gemini 3.5 Flash作为AI Mode之默认模型,并宣布对搜索框进行25年来最大晋级。
谷歌说,本年对Gemini App来说为“硕果累累之一年”。
但它不为寻常之购物车。
此次 Gemini App 之更新主要有几名: 因它基于Google Wallet,还能体谅你之支付方式权益、会员讯息、商家优惠,帮你找到隐藏折扣或者积分机会。
用户可让它保留某张图里之角色,借用一段视频里之动作,再让画面跟随音乐节奏变化,最后生成一段新之完整视频。
首名上线之为Gemini Omni Flash,已向Google AI Plus、Pro与Ultra订阅用户敞开,可于Gemini App与Google Flow 中用;YouTube Shorts与YouTube Create App也会免费接入。
此两种眼镜皆能让你解放双手,专注于其他事情,只需开口询问,即可得Gemini之帮。
此次最有象征意义之货品,还为Search。
所有Omni生成之视频皆会带有不可见之SynthID数术水印,用户可通过Gemini以及Google搜索来验证实质为否由Gemini Omni生成。
谷歌之优势于于它不只有模型,还有Android、Firebase、Cloud、Workspace、Play Store、Search、Chrome 等完整性命。
SQLite。谷歌说,此可为AI agents或机器者提供虚拟氛围,让它们于其中导航、互动、修习现状全球之繁性。
此次与当年Google Glass最大之不同为货品逻辑换之。
比如你要找一名周五夜晚、能坐6名者、供应夜宵之私者KTV房间,Search会统合价码与可用性,并给你直接成预订之入口。
音频眼镜会先上市,本年金秋推出。
结账时,Universal Commerce Protocol会让用户用Google Pay快速成购买,或者把商品转到商家网站续下单。
真正能规模化跑起来之Agent,需一名速度、本金与本领皆较量均衡之模型。
官方还展示之一名连续修改之例子:先生成一名小提琴手演奏之视频,然后把小提琴手放进另一张图片里之氛围,再把小提琴变成透明,最后把镜头角度改成从小提琴手肩膀后方看。
用户于搜索商品、与Gemini聊天、看YouTube、读Gmail之时候,皆可把商品加入同一名购物车。
谷歌把Spark带到macOS,其实就为于往桌面Agent之方位走。
谷歌说,AP2会于前景几名月进入Google货品,首先从Gemini Spark始。
不过……购物也就算之,谁会想让AI帮你一键付款呢。
用户可直接对AI Overview续追问,搜索会带之上下文进入对话。
官方给之几名典型场景:比如掘发应用、维护代码库、准备财务文书、整理非架构化资产、把旧代码库迁移到Next.js,甚至让两名agent协作,把AlphaZero论文读完,再做出一名可玩之游戏。
AP2会于用户、商家、支付办理方之间创建可验证之记载,让Agent之购买举止有边界、有凭据、有追踪。
此件事看起来小,但也值得注意,因Agent最终不或只于网页里工。
部分品类,比如家政维修、美容、宠物护理,用户甚至可让Google代为给商家打电话。
货品层,Gemini被塞进Search、Workspace、Shopping、Flow、AI Studio、智能眼镜。
简点说,Omni想让用户能够“把各种素材、风格、动作与声响,重新机构成一名新视频”。
淡泊明志。谷歌官方此次一口气发布之24篇I/O相关公告,讯息量甚大,但主线并不繁:底层模型更新到Gemini 3.5,并推出面向视频与多模态创作之Gemini Omni;用户入口上,Gemini App始往名者助理方位走;搜索始加入更多AI模式与智能体本领;购物、办公、掘发器物也皆被重新接入Gemini;硬件上,谷歌还展示之搭载 Gemini 之智能眼镜。
此也为谷歌最有优势、也最敏感之地方:它手里有Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search。
于本年之I/O大会上,谷歌分享之更多关于智能眼镜之讯息:此种眼镜可于不打断你之情况下,即时提供帮。
昔Google Glass确实做得挺烂之,甚至能算为硅谷硬件史上“技艺甚酷,但货品没想明白”之典型案例。
此次Gemini App也大改。
谷歌说,用户以后可于Search里创建、定制与管多名AI agents。
不过,看社群反应,它用起来并没有Seedance 2.0出色……但此只为Flash版本之一名始,对吧。
用户可问它眼前看到之东西,比如路过一家餐厅,问它评议怎么样;看到一块云,问此为什么云;看到繁停车标志,让它帮你解释。
商业层,谷歌始把Agent落到确凿差事上:帮你盯讯息、订效劳、管购物车、办理邮件、写文档、做App、生成视频、甚至辅助科研。
Genie为Google DeepMind之通用全球模型,可生成多样化、可交互之氛围。
此次之新本领,为把Genie与Google Street View连接起来。
去岁I/O时Gemini App有4亿用户,今已有超过9亿月活,覆盖230多名国与70多种言辞。
谷歌说,Gemini之macOS App已可下载,接下来会把Gemini Spark带到桌面端,让它办理本地文书,并自动化桌面上之工流。
也就为说,搜索不再只为“给我十名链接”,变成之“我有一名疑难、一段材料、一张图、一名网页上下文,你帮我体谅并续往下走”。
经济安全。Universal Cart本年炎夏会先于美国之Search与Gemini App推出,之后进入YouTube与Gmail。
换句话说,Project Genie为谷歌把“地图资产”变成“AI操练氛围”之尝试。
它会动态展开,让你用更自之方式描述疑难;它会根据意图给出AI建议,不只为旧俗自动补全;它支多模态输入,可用文本、图片、文书、视频,甚至Chrome标签页作为输入。
机器者与自动驾驶需大量确凿全球数据,但现状全球测试贵、险恶、慢。
样子看起来,怎么说,挺日常之。
谷歌说,它已成为研讨器物,可让Agent于繁虚拟氛围中修习与推演,也帮Waymo(Alphabet旗下之自动驾驶公司)模拟高确凿度路途氛围。
它还支导航,也可接电话、发短信、小结错过之消息、播放音乐;可拍照与视频,并用Nano Banana做图像编辑,比如拍完照直接说“给每名者戴上搞笑帽子”;还能实时翻译语音与书契,翻译语音时甚至会尽量匹配说话者之语气与音高。
辐射。