AI
Tech

Il Futuro dell'IA Agentic è "Small"

09/09/2025

5 min read

I grandi modelli linguistici (LLM) sono stati a lungo acclamati per le loro capacità quasi umane in un'ampia gamma di compiti. Tuttavia, l'ascesa dei sistemi di agentic IA, progettati per eseguire compiti specializzati in modo ripetitivo, sta cambiando le carte in tavola. Un nuovo studio sostiene che il futuro di questa tecnologia non risiede nei modelli più grandi e complessi, ma nei loro cugini più piccoli ed efficienti: i piccoli modelli linguistici SLM.

L'ascesa dell'IA Agentic e il Ruolo degli SLM

I sistemi di IA agentic stanno vivendo una crescita meteorica, con oltre la metà delle grandi imprese IT che li utilizza attivamente. Questi agenti, che si basano su modelli linguistici per prendere decisioni strategiche e controllare operazioni complesse.

Rappresentano un settore in rapida espansione, destinato a raggiungere quasi 200 miliardi di dollari entro il 2034. Attualmente, la maggior parte di questi agenti si affida a LLM ospitati su infrastrutture cloud centralizzate.

Tuttavia, gli autori dello studio sostengono che questo approccio è eccessivo e disallineato con le reali esigenze della maggior parte dei casi d'uso.

Le attività degli agenti sono spesso ripetitive e specifiche, rendendo gli SLM non solo sufficienti, ma preferibili per la loro efficienza, prevedibilità e costi ridotti.

I Vantaggi Chiave dei Piccoli Modelli Linguistici

La tesi a favore degli SLM si basa su tre pilastri fondamentali, che li rendono la scelta naturale per il futuro dell'IA agentic.

1 Potenza Sufficiente per la Maggior Parte dei Compiti

Contrariamente a quanto si possa pensare, gli SLM moderni sono già abbastanza potenti da sostituire gli LLM in molti sistemi agentic. Recenti progressi hanno dimostrato che SLM ben progettati possono eguagliare o superare le prestazioni di modelli molto più grandi in compiti come il ragionamento di senso comune, la generazione di codice e il "tool calling" (l'abilità di interagire con sistemi terzi).

Alcuni esempi includono:

  • La serie Phi di Microsoft: Phi-2 (2,7 miliardi di parametri) raggiunge punteggi di ragionamento e generazione di codice paragonabili a modelli da 30 miliardi di parametri, ma con una velocità 15 volte superiore.
  • La famiglia Nemotron-H di NVIDIA: Questi modelli ibridi raggiungono un'accuratezza nell'esecuzione di istruzioni e nella generazione di codice simile a quella di LLM da 30 miliardi di parametri, ma con una frazione del costo computazionale.
  • Salesforce xLAM-2-8B: Questo modello da 8 miliardi di parametri supera modelli di frontiera come GPT-40 nelle performance di "tool calling".

2 Efficienza Economica e Operativa

Gli SLM offrono vantaggi significativi in termini di costi, adattabilità e flessibilità di implementazione.

  • Efficienza di Inferenza: L'esecuzione di uno SLM da 7 miliardi di parametri è dalle 10 alle 30 volte più economica (in termini di latenza, consumo energetico e operazioni di calcolo) rispetto a un LLM da 70-175 miliardi di parametri15.
  • Agilità nel Fine-Tuning: Adattare o specializzare uno SLM richiede solo poche ore di GPU, non settimane, permettendo iterazioni molto più rapide16.
  • Deployment su Dispositivi Locali (Edge): Gli SLM possono essere eseguiti su hardware di livello consumer, garantendo bassa latenza e maggiore controllo sui dati17.

3 Maggiore Flessibilità e Adattabilità

Le dimensioni ridotte e i costi contenuti rendono gli SLM intrinsecamente più flessibili. È più pratico addestrare e implementare molteplici modelli esperti specializzati per diverse routine, consentendo un'iterazione rapida per rispondere a nuove esigenze degli utenti, requisiti di formattazione o normative locali19. Questa flessibilità favorisce anche la "democratizzazione" dell'IA, permettendo a più attori di sviluppare e perfezionare modelli, stimolando così l'innovazione e riducendo i bias sistemici.

Verso un Ecosistema Ibrido e Modulare

Gli autori non suggeriscono una sostituzione totale, ma un cambio di paradigma verso architetture "SLM-first". In questo modello, gli SLM vengono utilizzati di default per la maggior parte dei compiti, mentre gli LLM sono invocati solo selettivamente per attività che richiedono un ragionamento complesso o un dialogo aperto.

I sistemi agentic si prestano naturalmente a questa eterogeneità23. Un agente può utilizzare diversi modelli di varie dimensioni e capacità, ottimizzando così costi e prestazioni. Ad esempio, un LLM potrebbe gestire l'interazione principale con l'utente, mentre SLM specializzati si occupano dei singoli sotto-compiti.

Un Algoritmo per la Transizione da LLM a SLM

Per facilitare questo passaggio, viene proposto un algoritmo pratico per convertire gli agenti basati su LLM in sistemi che sfruttano gli SLM.
I passaggi includono:

  • Raccolta Dati Sicura: Registrare le interazioni (prompt e risposte) tra il modello e gli strumenti software dell'agente.
  • Cura e Filtraggio dei Dati: Rimuovere informazioni sensibili e preparare i dati per l'addestramento.
  • Clustering dei Compiti: Identificare schemi ricorrenti di richieste per definire i compiti da specializzare.
  • Selezione dello SLM: Scegliere i candidati SLM più adatti per ogni compito.
  • Fine-tuning Specializzato: Addestrare gli SLM scelti sui dati specifici di ogni compito.
  • Iterazione e Miglioramento: Riadattare periodicamente i modelli con nuovi dati per un miglioramento continuo.

In conclusione, sebbene gli LLM abbiano aperto la strada, il futuro dell'IA agentic sembra destinato a essere più piccolo, più efficiente e più specializzato. L'adozione di un approccio che privilegia gli SLM non è solo un'ottimizzazione tecnica, ma un passo necessario per uno sviluppo dell'IA più sostenibile, economico e responsabile.

Fonti: https://arxiv.org/pdf/2506.02153