Gemma 4 accelera sul telefono: perché i drafters MTP contano davvero

Google ha iniziato a distribuire i drafters MTP per Gemma 4, una famiglia di modelli aperti pensata anche per workstation, cloud e dispositivi mobili. La promessa è semplice da leggere ma non banale da ottenere: rendere l’inferenza più rapida senza cambiare il modello principale e senza degradare la qualità delle risposte.

Gemma 4 con Multi-Token Prediction drafters: immagine ufficiale Google — Google presenta i drafters MTP per accelerare Gemma 4.

Gemma 4 punta a inferenza locale più rapida anche su hardware consumer.

Il punto tecnico è la Multi-Token Prediction: invece di generare un token alla volta con il modello pesante, un modello assistente più piccolo prova ad anticipare una porzione della risposta. Il modello principale verifica poi quei token in blocco. Se la previsione è corretta, si risparmia tempo; se non lo è, il sistema torna sul percorso normale. È una forma di speculative decoding, utile soprattutto quando il collo di bottiglia non è la potenza di calcolo pura ma lo spostamento continuo dei parametri in memoria.

Secondo Google, i test su LiteRT-LM, MLX, Hugging Face Transformers e vLLM mostrano incrementi nei token al secondo che possono arrivare a fino a 3x. Android Authority collega questa novità al tema più concreto dell’AI locale sul telefono: modelli come Gemma sono interessanti proprio perché possono ridurre la dipendenza dal cloud, ma su hardware consumer rischiano di diventare lenti, energivori o semplicemente poco piacevoli da usare.

Cosa cambia davvero

Per chi usa Android, non significa che domani ogni smartphone avrà un assistente offline tre volte più veloce. Qui siamo ancora sul lato infrastrutturale: framework, runtime, modelli e produttori devono integrare bene la tecnologia. Però il segnale è forte: l’AI locale sta passando dalla fase “funziona in demo” alla fase “deve essere usabile davvero”. Meno latenza vuol dire tastiere più reattive, riassunti locali più credibili, comandi vocali più privati e funzioni generative che non sembrano sempre appese a un server remoto.

Il limite pratico resta l’hardware. Uno smartphone con poca RAM, storage lento o gestione termica aggressiva non diventa magicamente una workstation. I drafters aiutano a usare meglio memoria e compute, ma non eliminano consumo energetico, calore e compatibilità. Per questo la parte interessante non è solo “Gemma 4 va più veloce”, ma “Gemma 4 prova a diventare più sostenibile su dispositivi reali”.

Il collegamento con Android è anche strategico. Google sta lavorando su Gemini Nano, AICore e modelli edge: abbiamo già visto come Android AICore possa occupare spazio sul telefono. I drafters MTP aggiungono un tassello diverso: non riguardano solo dove mettere il modello, ma come farlo rispondere più in fretta una volta caricato.

La lettura meno pubblicitaria è questa: l’AI on-device non vincerà perché “è AI”, vincerà solo se sarà abbastanza veloce, prevedibile e poco invasiva da sparire nell’uso quotidiano. Se ogni richiesta fa scaldare il telefono o prosciuga batteria, gli utenti torneranno al cloud senza nostalgia. Se invece il runtime riesce a comprimere la latenza, allora privacy locale e immediatezza possono finalmente stare nella stessa frase senza far ridere il kernel.

Requisiti e limiti da tenere d’occhio

serve un modello compatibile con i drafters MTP, non basta “avere Gemma” in modo generico;
il vantaggio dipende da runtime, memoria disponibile, acceleratori AI/GPU/NPU e gestione termica;
il miglioramento dichiarato riguarda i token al secondo, non automaticamente batteria, qualità o disponibilità nelle app Android;
l’integrazione consumer passerà probabilmente da framework e servizi di sistema, non da un singolo aggiornamento visibile all’utente.

In breve

Google ha rilasciato drafters MTP per accelerare Gemma 4.
La tecnica usa modelli assistenti per predire token e farli verificare al modello principale.
Google parla di speedup fino a 3x nei token al secondo su diversi runtime.
Per Android il valore reale è ridurre latenza e costo dell’AI locale, ma compatibilità e hardware restano decisivi.

AUTORE

Chiara Porcelluzzi

Storica della scienza e filosofa, osserva la tecnologia come fatto culturale oltre che tecnico. Su AndroidLab firma letture attente su AI, piattaforme digitali, uso quotidiano degli smartphone e rapporto tra innovazione, società e persone: perché ogni funzione nuova porta sempre con sé una visione del mondo.

Vedi tutti gli articoli di Chiara Porcelluzzi

1 thought on “Gemma 4 accelera sul telefono: perché i drafters MTP contano davvero”

Vinicio

Maggio 6, 2026 at 12:41 pm

Io uso Gemma4 26B A4B MoE, sul mio mac mini m4 pro con 48GB di Ram e devo dire che le inferenze sono molto rapide, google ha fatto un ottimo lavoro con questo modello
Rispondi

Cosa cambia davvero

Requisiti e limiti da tenere d’occhio

In breve

Chiara Porcelluzzi

1 thought on “Gemma 4 accelera sul telefono: perché i drafters MTP contano davvero”

Rispondi a Vinicio Annulla risposta