Google ha iniziato a distribuire i drafters MTP per Gemma 4, una famiglia di modelli aperti pensata anche per workstation, cloud e dispositivi mobili. La promessa è semplice da leggere ma non banale da ottenere: rendere l’inferenza più rapida senza cambiare il modello principale e senza degradare la qualità delle risposte.


Il punto tecnico è la Multi-Token Prediction: invece di generare un token alla volta con il modello pesante, un modello assistente più piccolo prova ad anticipare una porzione della risposta. Il modello principale verifica poi quei token in blocco. Se la previsione è corretta, si risparmia tempo; se non lo è, il sistema torna sul percorso normale. È una forma di speculative decoding, utile soprattutto quando il collo di bottiglia non è la potenza di calcolo pura ma lo spostamento continuo dei parametri in memoria.
Secondo Google, i test su LiteRT-LM, MLX, Hugging Face Transformers e vLLM mostrano incrementi nei token al secondo che possono arrivare a fino a 3x. Android Authority collega questa novità al tema più concreto dell’AI locale sul telefono: modelli come Gemma sono interessanti proprio perché possono ridurre la dipendenza dal cloud, ma su hardware consumer rischiano di diventare lenti, energivori o semplicemente poco piacevoli da usare.
Cosa cambia davvero
Per chi usa Android, non significa che domani ogni smartphone avrà un assistente offline tre volte più veloce. Qui siamo ancora sul lato infrastrutturale: framework, runtime, modelli e produttori devono integrare bene la tecnologia. Però il segnale è forte: l’AI locale sta passando dalla fase “funziona in demo” alla fase “deve essere usabile davvero”. Meno latenza vuol dire tastiere più reattive, riassunti locali più credibili, comandi vocali più privati e funzioni generative che non sembrano sempre appese a un server remoto.
Il limite pratico resta l’hardware. Uno smartphone con poca RAM, storage lento o gestione termica aggressiva non diventa magicamente una workstation. I drafters aiutano a usare meglio memoria e compute, ma non eliminano consumo energetico, calore e compatibilità. Per questo la parte interessante non è solo “Gemma 4 va più veloce”, ma “Gemma 4 prova a diventare più sostenibile su dispositivi reali”.
Il collegamento con Android è anche strategico. Google sta lavorando su Gemini Nano, AICore e modelli edge: abbiamo già visto come Android AICore possa occupare spazio sul telefono. I drafters MTP aggiungono un tassello diverso: non riguardano solo dove mettere il modello, ma come farlo rispondere più in fretta una volta caricato.
La lettura meno pubblicitaria è questa: l’AI on-device non vincerà perché “è AI”, vincerà solo se sarà abbastanza veloce, prevedibile e poco invasiva da sparire nell’uso quotidiano. Se ogni richiesta fa scaldare il telefono o prosciuga batteria, gli utenti torneranno al cloud senza nostalgia. Se invece il runtime riesce a comprimere la latenza, allora privacy locale e immediatezza possono finalmente stare nella stessa frase senza far ridere il kernel.
Requisiti e limiti da tenere d’occhio
- serve un modello compatibile con i drafters MTP, non basta “avere Gemma” in modo generico;
- il vantaggio dipende da runtime, memoria disponibile, acceleratori AI/GPU/NPU e gestione termica;
- il miglioramento dichiarato riguarda i token al secondo, non automaticamente batteria, qualità o disponibilità nelle app Android;
- l’integrazione consumer passerà probabilmente da framework e servizi di sistema, non da un singolo aggiornamento visibile all’utente.
In breve
- Google ha rilasciato drafters MTP per accelerare Gemma 4.
- La tecnica usa modelli assistenti per predire token e farli verificare al modello principale.
- Google parla di speedup fino a 3x nei token al secondo su diversi runtime.
- Per Android il valore reale è ridurre latenza e costo dell’AI locale, ma compatibilità e hardware restano decisivi.
Io uso Gemma4 26B A4B MoE, sul mio mac mini m4 pro con 48GB di Ram e devo dire che le inferenze sono molto rapide, google ha fatto un ottimo lavoro con questo modello