DiffusionGemma: The Developer Guide
Googleが、トークンを逐次生成せず256トークンのブロックを並列に反復修正する実験的モデルDiffusionGemmaの開発者ガイドを公開しました。
26B MoEのうち推論時に3.8Bパラメータを活性化し、量子化すれば18GB VRAM以内でのローカル実行を想定しています。
DiffusionGemmaはGemma 4の26B MoE基盤を使い、256トークン単位の拡散・デノイジングで文章を並列生成します。双方向注意により、生成途中で前の誤りを修正できる点が通常の自己回帰モデルとの違いです。
Googleによる測定では、RTX 5090で毎秒700トークン超、NVIDIA H100 1基で毎秒1,000トークン超とされ、GPU上で最大4倍の高速化をうたっています。
モデルは26Bですが推論時の活性パラメータは3.8Bで、量子化構成では18GB VRAM以内を想定しています。RTX 4090/5090などの消費者向けGPUからHopper、Blackwellまで対象です。
重みはHugging FaceでApache 2.0ライセンスとして公開され、vLLMのOpenAI互換ローカルサーバー、Hugging Face Transformers、SGLang、MLXに対応します。公式ファインチューニングレシピも公開されています。
Google Cloud Model GardenとNVIDIA NIMでも展開できます。記事ではOllama、LM Studio、llama.cppへの対応は明記されていません。
Google AI StudioやGemini APIでの提供は示されておらず、ダウンロード可能な実験的オープンモデルとしての提供が中心です。
通常のGemma利用規約ではなく、公開されたDiffusionGemma重みについて記事はApache 2.0ライセンスと明記しています。