Tra i concetti più importanti per comprendere l’Intelligenza Artificiale e le possibilità che offre oggi, vi è l’“architettura Transformer”. Capire cos’è un Transformer non solo ci aiuta a comprendere il presente dell’IA, ma anche il suo futuro. Una nuova architettura, chiamata Mamba, sembra infatti poter sostituire i Transformer.
Capire i Transformer
Per capire che cos’è un Transformer è utile ripercorrere alcuni concetti fondamentali.
All’interno della disciplina dell’Intelligenza Artificiale, il Machine Learning è l’ambito che si occupa dello sviluppo di algoritmi e tecniche che consentono alle macchine di imparare. Tra questi vi sono le Reti Neurali Artificiali.
Le Reti Neurali Artificiali sono modelli di apprendimento automatico ispirati al funzionamento del cervello umano. Esse sono costituite da strati di nodi (neuroni) collegati tra loro, dove ogni connessione ha un peso che viene adattato durante l’addestramento. Le Reti Neurali possono essere semplici (con pochi strati) o profonde (con molti strati), quest’ultima categoria è nota come Deep Learning. È il numero di strati, o la loro profondità, che distingue una Rete Neurale Artificiale semplice da un algoritmo di Deep Learning. Infatti, per essere considerata Deep Learning, una Rete Neurale deve avere più di tre strati (da qui il termine “Deep”).
Il Transformer è un’architettura di Rete Neurale. Il termine “architettura” nel contesto delle Reti Neurali e dell’Intelligenza Artificiale si riferisce alla struttura e all’organizzazione del modello di Rete Neurale, ovvero come i diversi componenti del modello sono disposti e interagiscono tra loro. L’architettura definisce elementi e caratteristiche di una Rete Neurale quali: strati, nodi, connessioni e pesi tra neuroni di strati adiacenti, oltre a componenti avanzate che aggiungono funzionalità specifiche all’architettura, come il meccanismo dell’attenzione nei Transformer.
Cosa sono i Transformer
Il Transformer è un’architettura di Rete Neurale progettata per gestire dati sequenziali, come il testo. L’architettura Transformer è stata introdotta nel 2017 da un team di Google Brain (oggi Google DeepMind) che stava lavorando alle traduzioni automatiche, con il famoso paper “Attention is All You Need”. Il titolo è dovuto al fatto che la caratteristica principale dei Transformer è l’utilizzo del meccanismo dell’attenzione.
La grande intuizione avuta dai ricercatori di Google è stata che, per poter tradurre un testo in un’altra lingua, è importante che la Rete Neurale consideri il significato dell’intera frase nel suo complesso e non soltanto delle singole parole. Era fondamentale superare il modello sequenziale che traduceva una singola parola alla volta.
Grazie al meccanismo dell’attenzione, il modello è in grado di valutare l’importanza relativa di ogni parola all’interno della frase, consentendo di catturare meglio le dipendenze tra le parole e il significato complessivo. Questo approccio ha portato non solo a traduzioni molto più accurate, ma ha anche aperto la strada a numerose altre applicazioni, in particolare nell’ambito del Natural Language Processing. La possibilità di comprendere meglio significati e sfumature del linguaggio ha contribuito in maniera significativa allo sviluppo di modelli di linguaggio avanzati e di grandi dimensioni come GPT (in cui la “T” significa proprio “Transformer” – Generative Pre-Trained Transformer).
Le 3 caratteristiche fondamentali dei Transformer
L’architettura Transformer ha tre caratteristiche fondamentali che ne hanno determinato il successo e la portata rivoluzionaria.
- Struttura Encoder-Decoder
Il Transformer assegna a ogni parola ricevuta in input un valore numerico. Questa operazione si chiama “encoding”. Al valore numerico assegnato viene aggiunto un valore dato dalla posizione che una parola ha nella frase. È dalla posizione, infatti, che dipendono i significati. Ad esempio, le frasi “Il cane insegue il gatto” e “Il gatto insegue il cane” hanno le stesse parole, ma non significano la stessa cosa. Quindi, il Transformer, dopo aver trasformato le parole in numeri, assegna un valore alla parola “cane” quando si trova all’inizio della frase e un valore diverso quando si trova alla fine. Nella fase di decoding, il modello utilizza questa rappresentazione per generare l’output. - Meccanismo dell’Attenzione
Il meccanismo dell’attenzione permette alla rete di “prestare attenzione” a diverse parti dell’input, identificando quali parole sono più rilevanti per il contesto di una frase. Questo è particolarmente utile per gestire lunghe sequenze di dati, poiché consente al modello di mantenere le relazioni tra parole anche a grande distanza l’una dall’altra, migliorando la coerenza e la precisione delle traduzioni e di altre applicazioni di elaborazione del linguaggio naturale. - Parallelizzazione
A differenza dei modelli sequenziali tradizionali, che elaborano le parole una alla volta, i Transformer possono elaborare tutti gli elementi della sequenza contemporaneamente grazie alla loro architettura non sequenziale. Questo rende i Transformer estremamente efficienti.
Architettura Mamba
L’architettura Transformer è alla base dell’IA generativa moderna e oggi è fondamentale per il funzionamento delle applicazioni, in particolare degli LLM, che utilizziamo tutti i giorni. Recentemente, a dicembre 2023, è stato pubblicato un paper che descrive un’architettura che potrebbe succedere a quella Transformer. Questa nuova architettura è stata chiamata Mamba.
Mamba presenta diverse caratteristiche interessanti che permetterebbero di superare i punti deboli dell’architettura Transformer, portando maggiore efficienza, riduzione dei costi e rendendo il modello più performante.
I principali vantaggi derivano dal fatto che Mamba sfrutta i modelli state-space (SSM). In particolare, incorpora il modello Structured State Space, che consente al modello di mantenere in una sorta di memoria solo le informazioni più importanti.
Prima di illustrarne le caratteristiche, è bene specificare che l’architettura Mamba, per ora, è stata testata solo su modelli di scala ridotta (con 3 miliardi di parametri), e non è chiaro se queste proprietà rimarrebbero costanti al crescere della dimensione del modello.
Le 3 caratteristiche di Mamba
Le peculiarità di Mamba che fanno ipotizzare possa sostituire l’architettura Transformer sono:
- Minore costo di inferenza
L’architettura Mamba è fino a cinque volte più economica rispetto all’architettura Transformer in termini di velocità e consumo di risorse computazionali durante la fase di inferenza. La fase di inferenza è il processo durante il quale il modello, basandosi sui dati di allenamento, genera l’output, che nel caso degli LLM è costituito da testo.
Oggi i modelli hanno sempre più parametri (GPT-4, ad esempio, ne ha 175 miliardi), e un numero maggiore di parametri comporta un aumento del consumo di risorse computazionali durante la fase di inferenza, richiedendo anche hardware più potenti. Il numero di parametri in un modello basato su Transformer è un fattore cruciale che determina la capacità del modello di apprendere e rappresentare i dati. Sebbene l’architettura Transformer sia progettata per gestire un grande numero di parametri, l’architettura Mamba, grazie all’utilizzo SSM (State Space Models), può decidere in modo efficace se propagare o scartare le informazioni in base alla rilevanza di ciascun token nella sequenza. Questo approccio selettivo si traduce in un’inferenza significativamente più veloce e meno costosa. - Crescita lineare del costo dell’attenzione
L’attenzione è la capacità del modello di focalizzarsi sui punti più rilevanti del testo. Nei Transformer tradizionali, il costo computazionale dell’attenzione cresce in modo quadratico: se il numero di elementi da considerare raddoppia, il costo dell’attenzione quadruplica. Questo significa che, se la finestra di attenzione diventa molto lunga, i requisiti di memoria e calcolo aumentano enormemente, rendendo il modello inefficiente e riducendone le prestazioni. È per questo motivo che GPT e altri modelli possono perdere informazioni importanti e commettere più errori e imprecisioni quando la finestra di attenzione è troppo ampia. Con il modello Mamba, invece, il costo computazionale dell’attenzione cresce linearmente: se la finestra di attenzione raddoppia, il costo dell’attenzione raddoppia (non più quadruplica). - Aumento della finestra di contesto (context window)
Grazie a una gestione dell’attenzione meno costosa, Mamba potrebbe gestire finestre di input di dimensioni molto ampie, fino a un milione di token, circa cinque volte di più rispetto ai modelli attuali con finestre di contesto più ampie, come GPT-4 di OpenAI con 128.000 token e Claude di Anthropic con 200.000 token.
Conclusioni
I Transformer, un’architettura consolidata e ampiamente utilizzata da anni, continuano a rappresentare un punto di riferimento fondamentale nell’ambito dell’Intelligenza Artificiale. Tuttavia, l’emergere della nuova architettura Mamba dimostra come il campo dell’IA sia in costante evoluzione, con continui sforzi per migliorare e superare anche risultati già sorprendenti.