Recentemente si è assistito a una crescente domanda di applicazioni in grado di gestire compiti linguistici complessi (traduzioni, sintesi, recupero di informazioni, interazioni conversazionali, ecc.).
Significativi progressi sono stati osservati nei modelli linguistici, principalmente grazie ai trasformatori, all'aumento delle capacità computazionali e alla disponibilità di ampi set di dati per l'addestramento dei modelli. Questi sviluppi hanno portato a una trasformazione rivoluzionaria, consentendo la creazione di modelli linguistici di grandi dimensioni (LLM) che possono avvicinarsi alle prestazioni umane in vari compiti. D’altro canto hanno anche moltiplicato la complessità.
Il proliferare di nuovi modelli ha reso particolarmente difficile scegliere quale sia il più adatto per lo sviluppo di applicazioni.
In questo articolo, vedremo insieme alcuni dei modelli attualmente in auge, ma invece di concentrarci sui singoli - che potrebbero diventare obsoleti in pochi mesi - abbiamo ritenuto più utile comprendere le principali differenze e le caratteristiche per cui si distinguono. Presenteremo poi una panoramica dei principali framework e servizi offerti dai maggiori provider di cloud computing per lo sviluppo di applicazioni basate sull'Intelligenza Artificiale generativa.
In cosa si distinguono i grandi modelli di linguaggio naturale?
Nonostante le impressionanti prestazioni generali degli LLM, i vari modelli presentano caratteristiche e punti di forza distintivi. Tra le principali peculiarità che distinguono i modelli di linguaggio naturale troviamo:
- la natura open source o proprietaria;
- le performance in termini di velocità ed efficienza;
- la dimensione del modello;
- la capacità di gestire contesti di lunghezza variabile;
- il supporto a diverse lingue e linguaggi di programmazione.
Comprendere a fondo queste peculiarità è fondamentale per selezionare il modello più adatto a soddisfare specifiche esigenze e requisiti applicativi. Inoltre, una solida conoscenza di questi aspetti chiave consentirà di valutare efficacemente anche i nuovi modelli che emergeranno nel futuro, man mano che questa tecnologia continuerà a evolversi.
Open Source o modelli proprietari?
La scelta tra modelli linguistici di grandi dimensioni (LLM) in cloud o implementati localmente riflette spesso la distinzione tra modelli proprietari e open source. I provider di cloud offrono modelli LLM proprietari altamente performanti ma costosi, mentre i modelli open source implementati localmente sono generalmente più piccoli e richiedono maggiori competenze tecniche per l'implementazione.
I modelli proprietari dei principali provider come OpenAI, Google, Anthropic e altri sono disponibili solo tramite API cloud a pagamento e non possono essere implementati localmente, offrendo prestazioni all'avanguardia ma con un costo considerevole e minore controllo sulla privacy dei dati.
I modelli open source, come LLaMA e Mistral, possono invece essere scaricati e implementati localmente, consentendo un maggiore controllo sui dati e la personalizzazione, ma richiedono risorse hardware adeguate e competenze tecniche specifiche. Nonostante dimensioni inferiori rispetto ai modelli proprietari, questi possono risultare sufficienti per molti casi d'uso e offrono una soluzione economica a lungo termine, sebbene con costi iniziali più elevati. La scelta dipende dalle esigenze specifiche dell'organizzazione, dal budget disponibile, dalle competenze interne e dai requisiti di sicurezza e personalizzazione. Diamo una visione sintetica dei diversi criteri che potrebbero orientare la scelta nella tabella seguente.
Fattore | Cosa conviene |
---|---|
Competenze tecniche | LLM Cloud |
Costi iniziali | LLM Cloud |
Costi complessivi* | LLM Locale |
Scalabilità | LLM Cloud |
Controllo dei dati | LLM Locale |
Personalizzazione | LLM Locale |
Rischio di downtime | LLM Cloud |
Performance
Le prestazioni di un modello si misurano in base alla sua accuratezza, fluenza e capacità di generare risposte pertinenti e coerenti. Non esiste un metodo di valutazione univoco, questo presupporrebbe, infatti, la possibilità di un confronto basato su criteri oggettivi assimilabili a tutti i modelli. Spesso, però, un modello può eccellere in una specifica attività e risultare meno efficace in un'altra, soprattutto se messo a confronto con un altro modello di dimensioni simili. Spesso i modelli vengono allenati sulle risposte degli stessi test per ottenere performance migliori - ma non veritiere - delle reali capacità.
Uno dei ranking più affidabili è la LMSYS Chatbot Arena Leaderboard, dove i modelli vengono valutati da persone e non su test predefiniti. Secondo la leaderboard presentata, i primi due posti sono occupati dai modelli proprietari GPT-4 di OpenAI e Claude 3 Opus di Anthropic. I primi 15 posti sono interamente occupati da modelli privati seguiti dal primo modello open-source a comparire, Mistral-8x7b. Ciò evidenzia il divario ancora esistente in termini di prestazioni complessive tra i modelli proprietari e quelli open-source disponibili.
Dimensione
La dimensione degli LLM, in termini di parametri, si correla positivamente con le loro capacità. Tuttavia, nuove architetture hanno permesso lo sviluppo di modelli più piccoli, ma altrettanto performanti, come Mistral 7B, che supera modelli più grandi come Llama 2 da 13B in vari benchmark. Questi modelli "compatti" attraggono l'attenzione grazie ai loro costi ridotti e alle ottime prestazioni in determinate attività, rendendoli ideali per il risparmio in vari casi d'uso. La dimensione dei modelli è un fattore rilevante solo per i modelli open source ospitati localmente, mentre per i modelli proprietari accessibili tramite API non è un aspetto di interesse.
Dimensione del contesto e delle risposte
La dimensione del contesto si riferisce alla quantità di testo che un modello di linguaggio può elaborare in una singola iterazione, ovvero il limite massimo di token che possono essere forniti al modello come input o generati come output. Questa dimensione è cruciale per l'applicazione dei modelli LLM in casi d'uso reali, poiché molte attività richiedono l'elaborazione di testi lunghi. Modelli con un contesto più ampio possono gestire testi lunghi in modo più efficiente, riducendo la necessità di pre-processo e minimizzando i costi. Al contrario, modelli con un contesto limitato possono essere più adatti per attività che coinvolgono input brevi o per situazioni in cui i vincoli di costo sono più stringenti.
Lingue e linguaggi conosciuti
La scelta del modello LLM più adatto dipende anche dalle esigenze linguistiche e di codifica del caso d'uso specifico. I modelli proprietari offerti dai principali provider cloud sono generalmente addestrati su un'ampia gamma di lingue e linguaggi di programmazione, garantendo una vasta copertura multilingua e la capacità di gestire numerosi linguaggi di codifica. Al contrario, i modelli open source self-hosted possono avere competenze più limitate, a seconda del dataset di addestramento, ma consentono una maggiore personalizzazione per lingue o domini specifici. Pertanto, se sono richieste competenze multilingua e di codifica estese, i modelli cloud proprietari possono essere più adatti, mentre per esigenze più mirate i modelli open source self-hosted possono offrire una soluzione più economica e personalizzata, a patto di disporre delle competenze necessarie.
- GPT-3.5: Uno dei modelli più diffusi ad oggi, offre un ottimo equilibrio tra performance, prezzo e facilità d’uso.
- GPT-4: Il modello più avanzato di OpenAI, capace di elaborare testo e immagini (modello multimodale). Ha ottenuto risultati di rilievo in benchmark standardizzati e in test di programmazione.
- Eccelle in attività come editing, riscrittura, riassunto, classificazione e question answering.
- Capace di dialoghi contestuali, adattando il registro comunicativo secondo il ruolo e l’input fornito.
- Gemini Ultra: Prestazioni di rilievo nella gestione di contesti molto ampi (fino a 1 milione di token), elemento strategico per architetture basate su Retrieval-Augmented Generation (RAG).
- Disponibili in vari tagli (da 7 a 70 miliardi di parametri), sono spesso la base per altri modelli della community open source.
- Supera LLaMA 2 70B sulla maggior parte dei benchmark, con inferenza più veloce e miglior rapporto costi/prestazioni.
- Mixtral eccelle nella gestione di contesti lunghi, supporta più lingue e dimostra solide prestazioni nella generazione di codice.
Ti è piaciuto quanto hai letto? Iscriviti a MISPECIAL, la nostra newsletter, per ricevere altri interessanti contenuti.
Iscriviti a MISPECIAL