新芒xAI 6月11日消息 6月10日,谷歌正式发布实验性开源模型DiffusionGemma,采用创新的文本扩散(Diffusion)架构,基于Gemma 4的26B MoE(混合专家)结构(总参数26B,推理时激活约3.8B)。
该模型以Apache 2.0许可证开源,已上线Hugging Face。
与传统自回归大语言模型相比,DiffusionGemma在专用GPU上文本生成速度最高提升4倍,可并行生成256个token块,实现本地低并发场景下超1000 tokens/s的高速推理(RTX 5090上约700 tokens/s)。模型支持文本、图像、视频输入,256K上下文窗口,多语言能力覆盖35+语言,并原生支持函数调用和结构化输出。
谷歌强调,DiffusionGemma为实验性模型,整体输出质量略低于标准Gemma 4,生产环境仍推荐使用后者。其速度优势主要体现在本地部署和低并发交互场景,高并发云端部署优势有限。
【新芒xAI评论】
DiffusionGemma标志着谷歌在文本生成架构上的重要探索,将图像扩散思想引入LLM,采用并行去噪+块自回归方式,打破传统自回归逐token生成的瓶颈,在本地推理速度上实现显著突破。
这对边缘设备、实时交互应用(如游戏NPC、移动端AI)极具价值,也为开源社区提供了新的技术路径。
然而,作为实验模型,其输出质量和一致性仍有差距,高并发场景优势不明显。未来若能进一步优化质量与速度平衡,或将推动AI推理范式从“序列预测”向“并行扩散”演进。
整体而言,此发布延续了谷歌Gemma系列的开源策略,加速开发者创新,但生产级应用仍需依赖Gemma 4主力模型。