谷歌发布开源 DiffusionGemma,速度 4 倍但品質落後 Gemma 4

DiffusionGemma

Google DeepMind 於 6 月 10 日正式發布並開源 DiffusionGemma,作為 Gemma 4 開源家族的新成員。DiffusionGemma 採用擴散式文字生成架構,結合混合專家(MoE)設計。所有已公布的公開基準測試中,DiffusionGemma 的分數均低於標準 Gemma 4。

官方速度測試數據與硬體規格

根據 Google 官方公布的確認數字:

速度測試(Google 官方,非第三方驗證)

Nvidia RTX 5090(消費級):約 700 token/秒

Nvidia H100(資料中心級):突破 1,000 token/秒

自評倍率:約為同尺寸自迴歸 Gemma 模型的 4 倍

架構與參數

總參數量:260 億(26B

推論時活躍參數量:38 億(3.8B)

VRAM 需求:可在 18GB VRAM 高階顯示卡上執行(量化版本尤其如此)

最大平行處理:一次最多同時處理 256 個 token

授權:Apache 2.0

生成機制:擴散式與自迴歸的核心差異

標準自迴歸模型按序逐字生成,每個 token 依賴前一個的計算結果,瓶頸在記憶體頻寬——每輸出一個 token 就需要從記憶體讀取一次模型權重。

DiffusionGemma 的流程不同:先在整塊輸出區域鋪上佔位 token,進行多趟去噪,每趟讓所有位置的 token 同時更新互相修正,直到整塊內容收斂為最終輸出。這種算力密集型的平行計算方式,使瓶頸從記憶體頻寬轉向 GPU 算力,更充分利用現代 GPU 的並行能力。

Google 在官方文件中舉例,DiffusionGemma 在解數獨類型的非線性邏輯任務上具有結構性優勢,因為此類任務的正確解答往往涉及複雜的位置間依存關係,自迴歸的線性生成方式天然受限。

基準測試結果:所有已公布測試分數均低於 Gemma 4

Google 在發布資料中確認,所有已公布的公開基準測試中,DiffusionGemma 的分數均低於標準 Gemma 4。這意味著,4 倍的速度提升伴隨著生成品質的系統性下降。BlockTempo 文章指出,此取捨對不同應用情境有截然不同的含義:對延遲敏感或需大批次輸出的場景,速度優勢是實際的;對品質要求較高的任務,標準 Gemma 4 目前仍更可靠。

Google 官方列舉的 DiffusionGemma 適用場景包括:行內編輯(in-line editing)、分子序列生成、數學繪圖,以及涉及複雜邏輯依存關係的非線性任務。

常見問題

DiffusionGemma 和標準自迴歸語言模型在生成機制上有何本質不同?

標準自迴歸模型逐字線性生成,每個 token 依賴前一個的結果。DiffusionGemma 先在整塊輸出區域鋪滿佔位 token,進行多趟去噪,每趟讓所有位置同時更新,最終一次輸出整段定稿,生成邏輯更接近 Stable Diffusion 生成影像的方式。

DiffusionGemma 在本地可以跑在什麼硬體上?

根據 Google 官方說明,DiffusionGemma 可在 18GB VRAM 的高階顯示卡上執行,量化版本尤其如此。Google 官方測試顯示,消費級 Nvidia RTX 5090 可達每秒約 700 個 token,但上述數字為 Google 自評,非第三方獨立驗證。

DiffusionGemma 的速度數字是否已通過第三方驗證?

尚未。BlockTempo 原文明確說明,所有速度測試數字均來自 Google 官方測試,非第三方獨立驗證,不同場景、不同生成長度下的實際倍率可能與官方數字有落差。

免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复

(0)
上一篇 2026年6月11日 下午1:22
下一篇 2026年6月11日 下午1:32

相关推荐

风险提示:理性看待区块链,提高风险意识!