Home
» Wiki
»
Gemma 2 o Llama 3 è il miglior modello open source?
Gemma 2 o Llama 3 è il miglior modello open source?
In occasione dell'I/O 2024, Google ha annunciato la sua prossima linea di modelli Gemma 2 e ora l'azienda sta finalmente rilasciando i modelli leggeri con licenza open source. Si dice che il nuovo modello Gemma 2 27B sia molto promettente e che abbia prestazioni migliori rispetto ad alcuni modelli più grandi, come il Llama 3 70B e il Qwen 1.5 32B. Per verificare questa affermazione, confrontiamo Gemma 2 e Llama 3, due dei migliori modelli open source attuali.
Scrittura creativa
Per prima cosa, diamo un'occhiata a quanto Gemma 2 e Llama 3 siano validi dal punto di vista della scrittura creativa. L'autore dell'articolo ha chiesto a entrambe le modelle di scrivere un breve racconto sulla relazione tra la luna e il sole. Entrambi svolgono un ottimo lavoro, ma il modello Gemma 2 di Google si distingue per la sua prosa avvincente e la bella storia.
D'altro canto, Llama 3 sembra un po' noioso e robotico. Google è sempre stata brava nella generazione di testo con i modelli Gemini e il più piccolo Gemma 2 27B non fa eccezione.
Opzione vincente: Gemma 2
Test multilingue
Nel prossimo round vedremo come entrambi i modelli gestiscono le lingue diverse dall'inglese. Poiché Google pubblicizza Gemma 2 come un'ottima soluzione per comprendere più lingue, l'autore lo ha confrontato con il modello Llama 3 di Meta. L'autore ha chiesto a entrambi i modelli di tradurre un brano in hindi. Sia Gemma 2 che Llama 3 hanno avuto ottime prestazioni.
L'autore ha provato anche un'altra lingua, il bengalese, e i modelli hanno prodotto risultati altrettanto buoni. Almeno per le lingue indiane, si può dire che Gemma 2 e Llama 3 sono ben addestrate su un corpus ampio. Tuttavia, la Gemma 2 27B è quasi 2,5 volte più piccola della Llama 3 70B, il che la rende ancora più impressionante.
Opzioni vincenti: Gemma 2 e Llama 3
Controllare la logica
Sebbene Gemma 2 e Llama 3 non siano i modelli più intelligenti sul mercato, riescono a svolgere alcuni comuni test di ragionamento proprio come modelli molto più grandi. Nel precedente confronto tra Llama 3 e GPT-4 , il modello 70B di Meta si è rivelato impressionante, dimostrando un'intelligenza piuttosto buona anche nelle dimensioni più ridotte.
In questo round, Llama 3 ha sconfitto Gemma 2 con una grande differenza di punteggio. Lama 3 ha risposto correttamente a 2 domande su 3, mentre Gemma 2 ha fatto fatica a rispondere correttamente anche a una sola. Gemma 2 semplicemente non è addestrata a risolvere problemi di ragionamento complessi.
D'altro canto, Llama 3 ha solide basi di ragionamento, che molto probabilmente possono essere dedotte dal set di dati crittografato. Nonostante le sue piccole dimensioni, almeno se paragonate ai modelli da mille miliardi di parametri come GPT-4, mostra un livello di intelligenza più che discreto. In definitiva, l'utilizzo di più token per addestrare il modello si traduce effettivamente in un modello più potente.
Opzione vincente: Lama 3
Seguire le istruzioni
Nel turno successivo, l'autore ha chiesto a Gemma 2 e Llama 3 di creare 10 parole che terminassero con la parola "NPU". E Lama 3 ha ottenuto 10/10 risposte corrette. Al contrario, Gemma 2 ha prodotto solo 7 frasi corrette su 10. In molte versioni precedenti, i modelli di Google, tra cui Gemini, non hanno seguito bene le istruzioni per l'utente. E la stessa tendenza continua con Gemma 2.
Per i modelli di intelligenza artificiale è fondamentale seguire le istruzioni dell'utente. Garantisce affidabilità e genera un feedback accurato per le istruzioni impartite. Anche dal punto di vista della sicurezza, aiuta a mantenere il modello ancorato ai supporti per una migliore conformità ai protocolli di sicurezza.
Opzione vincente: Lama 3
Trova informazioni
Sia Gemma 2 che Llama 3 hanno una lunghezza di contesto di 8K token. L'autore ha aggiunto un enorme blocco di testo, tratto direttamente dal libro Orgoglio e pregiudizio, contenente oltre 17.000 caratteri e 3,8K token. Come sempre, l'autore inserisce una citazione casuale da qualche parte nel testo e chiede a entrambi i modelli di trovarla.
Gemma 2 capì subito l'informazione e fece notare che la citazione era stata inserita in modo casuale. Anche Llama 3 ha scoperto e suggerito che questa affermazione sembrava fuori luogo. In termini di memoria di contesto lunga, sebbene limitata a token 8K, entrambi i modelli sono piuttosto validi sotto questo aspetto.
Si noti che l'autore ha eseguito questo test su HuggingChat (web) perché meta.ai ha rifiutato di eseguire questo prompt, molto probabilmente a causa del contenuto protetto da copyright.
Opzioni vincenti: Gemma 2 e Llama 3
Controllare le allucinazioni
I modelli più piccoli tendono a soffrire di allucinazioni dell'intelligenza artificiale a causa dei dati di addestramento limitati, spesso inventando informazioni quando il modello incontra argomenti non familiari. Così l'autore ha inventato il nome del suo paese per verificare se Gemma 2 e Llama 3 avessero le allucinazioni. E sorprendentemente non lo hanno fatto, il che significa che sia Google che Meta hanno una base piuttosto solida per i loro modelli.
L'autore pose anche un'altra domanda (falsa) per verificare la validità dei modelli, ma ancora una volta, non erano allucinogeni. A proposito, l'autore ha testato Llama 3 su HuggingChat mentre meta.ai navigava su Internet alla ricerca di informazioni aggiornate su argomenti rilevanti.
Opzioni vincenti: Gemma 2 e Llama 3
Concludere
Sebbene il modello Gemma 2 27B di Google non abbia buoni risultati nei test di ragionamento, è in grado di svolgere una serie di altri compiti. È ottimo per la scrittura creativa, supporta più lingue, ha una buona memoria e, soprattutto, non è allucinogeno come i modelli precedenti.
Llama 3 è migliore, ovviamente, ma è anche un modello significativamente più grande, addestrato su 70 miliardi di parametri. Gli sviluppatori troveranno il modello Gemma 2 27B utile per un'ampia gamma di casi d'uso. E per sicurezza, è disponibile anche la Gemma 2 9B.
Inoltre, gli utenti dovrebbero dare un'occhiata al Gemini 1.5 Flash, che è un modello molto più piccolo e supporta anch'esso l'input multimodale. Per non parlare del fatto che è incredibilmente veloce ed efficiente.