
Google 于 5 月 19 日在 Google I/O 2026 上宣布推出 Gemini Omni 系列的首款产品——Gemini Omni Flash,并于 5 月 22 日在官方網站正式发布技术说明,首批整合平台包括 Gemini 应用、Google Flow 和 YouTube Shorts。
Gemini Omni Flash 的已确认核心功能
对话式视频编辑:用户通过自然语言指令编辑视频,每条指令在前一条的基础上累积执行;模型维持角色一致性、可靠的物理效果和场景记忆,支持更改背景、风格、角度或具体细节,无需重新生成整个片段。
进阶物理引擎模拟:Omni 对重力、动能和流体动力学的直观理解强化了场景的真实性,允许用户创建更精确的物理效果,如物体碰撞、液体流动和连锁反应等动态场景。
多模态输入生成:Omni 可将任意输入组合(图像、文字、视频片段、音讯)作为单一指令处理,生成统一的输出内容;初期音讯输入支持语音引用,其他音讯输入类型将将在后续推出。
知识整合与概念可视化:Omni 借鉴 Gemini 对历史、科学和文化背景的知识,超越单纯的模式匹配,可根据简短提示生成解释性内容,例如以黏土动画解释蛋白质折叠等复杂科学概念。
数字虚拟形象(Avatar)功能:用户可创建包含自身声音的数字版本,生成外观和声音均与本人相似的视频;音讯和语音编辑功能仍在测试阶段,尚未面向所有用户开放。
SynthID 浮水印:已确认的 AI 内容透明度机制
所有通过 Gemini Omni 创建的视频均自动嵌入 SynthID 数字浮水印,这是由 Google DeepMind 开发的不可见水印技术,嵌入后不影响视频的视觉品质。用户可通过三个已确认的渠道验证视频是否由 Gemini Omni 生成:Gemini 应用、Chrome 浏览器中的 Gemini、Google 搜索。Google 表示,SynthID 的验证工具旨在帮助用户了解网络上内容的创建和编辑方式,作为其负责的 AI 开发政策的组成部分。
已确认的访问渠道与推出时间表
立即可用:Google AI Plus、Pro 和 Ultra 付费订阅用户,通过 Gemini 应用和 Google Flow
本週内:YouTube Shorts 和 YouTube Create 应用用户,免费提供
数週内:开发者和企业客户,通过 Gemini API 和 Agent Platform API
常见问题
Gemini Omni Flash 中的「世界模型」定位与一般视频生成模型有何技术差异?
Google 将 Gemini Omni 定位为「世界模型」,意指模型不仅执行输入到输出的生成映射,还具备基于 Gemini 训练的真实世界知识库(包括物理规律、文化背景、历史和科学知识)进行因果推断的能力,例如预测场景中物体接下来的行为、应用真实物理引擎效果,以及将语言描述转化为有语义意义的视觉内容。这与纯粹基于模式匹配的视频扩散模型在设计目标上存在架构层面的定位差异。
SynthID 浮水印是否可以被移除或绕过?
Google 的官方说明确认 SynthID 浮水印是不可见的(不影响视频视觉内容),嵌入在视频的数字结构中,可通过 Google 的官方验证工具核实。Google 未在官方文件中披露浮水印的具体技术实现方式,关于 SynthID 的可靠性和抗篡改性的独立技术评估目前尚无公开记录。
Gemini Omni Flash 目前支持哪些输入格式,未来将扩展哪些输出类型?
已确认的输入支持:文字、静态图像、视频片段、语音音讯(初期)。Google 在官方博客确认,其他类型的音讯输入「很快」将作为补充推出。在输出方面,当前 Omni Flash 版本的输出聚焦于视频;Google 表示未来将在 Omni 系列中支持影像和音讯输出模式,但具体推出时间表尚未在本次公告中确认。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复