【新芒xAI】谷歌发布DiffusionGemma开源模型！文本生成速度最高提升4倍

新芒xAI 6月11日消息 6月10日，谷歌正式发布实验性开源模型DiffusionGemma，采用创新的文本扩散（Diffusion）架构，基于Gemma 4的26B MoE（混合专家）结构（总参数26B，推理时激活约3.8B）。

该模型以Apache 2.0许可证开源，已上线Hugging Face。

与传统自回归大语言模型相比，DiffusionGemma在专用GPU上文本生成速度最高提升4倍，可并行生成256个token块，实现本地低并发场景下超1000 tokens/s的高速推理（RTX 5090上约700 tokens/s）。模型支持文本、图像、视频输入，256K上下文窗口，多语言能力覆盖35+语言，并原生支持函数调用和结构化输出。

谷歌强调，DiffusionGemma为实验性模型，整体输出质量略低于标准Gemma 4，生产环境仍推荐使用后者。其速度优势主要体现在本地部署和低并发交互场景，高并发云端部署优势有限。

【新芒xAI评论】

DiffusionGemma标志着谷歌在文本生成架构上的重要探索，将图像扩散思想引入LLM，采用并行去噪+块自回归方式，打破传统自回归逐token生成的瓶颈，在本地推理速度上实现显著突破。

这对边缘设备、实时交互应用（如游戏NPC、移动端AI）极具价值，也为开源社区提供了新的技术路径。

然而，作为实验模型，其输出质量和一致性仍有差距，高并发场景优势不明显。未来若能进一步优化质量与速度平衡，或将推动AI推理范式从“序列预测”向“并行扩散”演进。

整体而言，此发布延续了谷歌Gemma系列的开源策略，加速开发者创新，但生产级应用仍需依赖Gemma 4主力模型。

打赏

【新芒xAI】谷歌发布DiffusionGemma开源模型！文本生成速度最高提升4倍

作者: 新芒Group

微信扫一扫关注我们