L'AI che gira sul telefono: perché i modelli on-device sono il nuovo trend

Per anni “usare l’AI” ha significato quasi sempre la stessa cosa: mandare una richiesta a un server remoto e aspettare la risposta. Nel 2026 questo schema sta cambiando rapidamente. Smartphone, laptop e perfino alcuni dispositivi indossabili integrano chip pensati apposta per far girare modelli AI compatti direttamente in locale, senza passare dal cloud.

Schermo di un laptop con righe di codice colorato — Sempre più intelligenza si sposta dal data center al dispositivo che hai in mano.

Cosa sono i modelli on-device

Si tratta di versioni “compresse” dei grandi modelli linguistici, ottimizzate per girare con poche centinaia di megabyte di memoria invece dei giga necessari ai modelli da data center. Le tecniche di quantizzazione e distillazione permettono di mantenere buona parte delle capacità del modello originale riducendone drasticamente le dimensioni e il consumo energetico.

Il risultato è un’AI capace di trascrivere audio, riassumere testi, tradurre in tempo reale o suggerire risposte direttamente sul dispositivo, anche in modalità aereo.

Perché sta diventando un argomento così cercato

Privacy. I dati sensibili — messaggi, foto, cronologia — non lasciano mai il dispositivo, un punto di forza enorme in un periodo in cui la fiducia nelle aziende che gestiscono dati personali è sempre più sotto esame.
Latenza quasi nulla. Senza un round-trip verso un server remoto, le risposte arrivano in millisecondi invece che in secondi, rendendo possibili interazioni più naturali in tempo reale.
Funzionamento offline. Funzioni che prima richiedevano connessione continuano a funzionare anche senza rete, un vantaggio concreto per chi viaggia o vive in zone con copertura instabile.
Costi di esercizio più bassi. Per le aziende, ogni richiesta gestita sul dispositivo dell’utente è una richiesta in meno da far girare (e pagare) sui propri server.

I limiti da conoscere

Capacità ridotta rispetto ai modelli cloud. I compiti più complessi — ragionamento articolato, generazione di codice lungo, analisi multimodali avanzate — restano dominio dei modelli più grandi che girano solo su infrastrutture dedicate.
Frammentazione hardware. Non tutti i dispositivi hanno chip abbastanza potenti per sfruttare questi modelli, creando un divario tra chi possiede l’hardware più recente e chi no.
Aggiornamenti meno immediati. Un modello cloud può essere migliorato lato server da un giorno all’altro; un modello on-device richiede un aggiornamento software per essere sostituito.

Suggerimento: se un’app vanta funzioni “AI” che funzionano anche offline, è quasi certamente un modello on-device: un buon segnale per chi è attento alla privacy, perché significa che i tuoi dati restano sul dispositivo.

La direzione del settore

I produttori di chip stanno investendo pesantemente in unità di calcolo dedicate all’AI proprio per rendere questi modelli più capaci senza far esplodere i consumi. È probabile che nei prossimi mesi sempre più funzioni che oggi richiedono il cloud — dagli assistenti vocali alla generazione di immagini semplici — migrino, almeno in parte, direttamente sul dispositivo che abbiamo in tasca.