May 22, 10:17 AM

Google DeepMind Unveils Gemini Diffusion Text Model Generating 2,000 Tokens Per Second, Matching Coding Performance and Enabling Multimodal AI

Google DeepMind has introduced Gemini Diffusion, an experimental text diffusion model that represents a departure from traditional autoregressive large language models (LLMs). Unlike autoregressive models that generate text one token at a time, Gemini Diffusion employs diffusion technology, which has been widely used in image generation, to produce text at speeds ranging from 1,000 to 2,000 tokens per second. This model not only accelerates text generation but also matches or surpasses existing models in coding performance. Gemini Diffusion was demonstrated at Google I/O and is currently available via a waitlist. In parallel, research teams have developed multimodal diffusion language models such as MMaDA, LLaDA-V, and LaViDa, which extend diffusion techniques to handle multimodal tasks including textual reasoning, visual instruction tuning, and text-to-image generation. MMaDA-8B, for example, outperforms several state-of-the-art models like Show-o, SEED-X, SDXL, and Janus in multimodal understanding and generation tasks. Additionally, Gemini Diffusion supports novel features analogous to image inpainting, enabling masked text generation based on prompts. These advances suggest a shift toward diffusion-based approaches for faster, more versatile language and multimodal AI models.

#Google DeepMind #Gemini Diffusion #MMaDA #LaViDa #SDXL #Janus

Written with ChatGPT (GPT-4).