Gemma 2 o Llama 3 è il miglior modello open source?

In occasione dell'I/O 2024, Google ha annunciato la sua prossima linea di modelli Gemma 2 e ora l'azienda sta finalmente rilasciando i modelli leggeri con licenza open source. Si dice che il nuovo modello Gemma 2 27B sia molto promettente e che abbia prestazioni migliori rispetto ad alcuni modelli più grandi, come il Llama 3 70B e il Qwen 1.5 32B. Per verificare questa affermazione, confrontiamo Gemma 2 e Llama 3, due dei migliori modelli open source attuali.

Scrittura creativa

Per prima cosa, diamo un'occhiata a quanto Gemma 2 e Llama 3 siano validi dal punto di vista della scrittura creativa. L'autore dell'articolo ha chiesto a entrambe le modelle di scrivere un breve racconto sulla relazione tra la luna e il sole. Entrambi svolgono un ottimo lavoro, ma il modello Gemma 2 di Google si distingue per la sua prosa avvincente e la bella storia.

Gemma 2 o Llama 3 è il miglior modello open source?
Gemma 2 o Llama 3 è il miglior modello open source?

D'altro canto, Llama 3 sembra un po' noioso e robotico. Google è sempre stata brava nella generazione di testo con i modelli Gemini e il più piccolo Gemma 2 27B non fa eccezione.

Opzione vincente: Gemma 2

Test multilingue

Nel prossimo round vedremo come entrambi i modelli gestiscono le lingue diverse dall'inglese. Poiché Google pubblicizza Gemma 2 come un'ottima soluzione per comprendere più lingue, l'autore lo ha confrontato con il modello Llama 3 di Meta. L'autore ha chiesto a entrambi i modelli di tradurre un brano in hindi. Sia Gemma 2 che Llama 3 hanno avuto ottime prestazioni.

Gemma 2 o Llama 3 è il miglior modello open source?
Gemma 2 o Llama 3 è il miglior modello open source?

L'autore ha provato anche un'altra lingua, il bengalese, e i modelli hanno prodotto risultati altrettanto buoni. Almeno per le lingue indiane, si può dire che Gemma 2 e Llama 3 sono ben addestrate su un corpus ampio. Tuttavia, la Gemma 2 27B è quasi 2,5 volte più piccola della Llama 3 70B, il che la rende ancora più impressionante.

Opzioni vincenti: Gemma 2 e Llama 3

Controllare la logica

Sebbene Gemma 2 e Llama 3 non siano i modelli più intelligenti sul mercato, riescono a svolgere alcuni comuni test di ragionamento proprio come modelli molto più grandi. Nel precedente confronto tra Llama 3 e GPT-4 , il modello 70B di Meta si è rivelato impressionante, dimostrando un'intelligenza piuttosto buona anche nelle dimensioni più ridotte.

Gemma 2 o Llama 3 è il miglior modello open source?
Gemma 2 o Llama 3 è il miglior modello open source?

In questo round, Llama 3 ha sconfitto Gemma 2 con una grande differenza di punteggio. Lama 3 ha risposto correttamente a 2 domande su 3, mentre Gemma 2 ha fatto fatica a rispondere correttamente anche a una sola. Gemma 2 semplicemente non è addestrata a risolvere problemi di ragionamento complessi.

D'altro canto, Llama 3 ha solide basi di ragionamento, che molto probabilmente possono essere dedotte dal set di dati crittografato. Nonostante le sue piccole dimensioni, almeno se paragonate ai modelli da mille miliardi di parametri come GPT-4, mostra un livello di intelligenza più che discreto. In definitiva, l'utilizzo di più token per addestrare il modello si traduce effettivamente in un modello più potente.

Opzione vincente: Lama 3

Seguire le istruzioni

Nel turno successivo, l'autore ha chiesto a Gemma 2 e Llama 3 di creare 10 parole che terminassero con la parola "NPU". E Lama 3 ha ottenuto 10/10 risposte corrette. Al contrario, Gemma 2 ha prodotto solo 7 frasi corrette su 10. In molte versioni precedenti, i modelli di Google, tra cui Gemini, non hanno seguito bene le istruzioni per l'utente. E la stessa tendenza continua con Gemma 2.

Gemma 2 o Llama 3 è il miglior modello open source?
Gemma 2 o Llama 3 è il miglior modello open source?

Per i modelli di intelligenza artificiale è fondamentale seguire le istruzioni dell'utente. Garantisce affidabilità e genera un feedback accurato per le istruzioni impartite. Anche dal punto di vista della sicurezza, aiuta a mantenere il modello ancorato ai supporti per una migliore conformità ai protocolli di sicurezza.

Opzione vincente: Lama 3

Trova informazioni

Sia Gemma 2 che Llama 3 hanno una lunghezza di contesto di 8K token. L'autore ha aggiunto un enorme blocco di testo, tratto direttamente dal libro Orgoglio e pregiudizio, contenente oltre 17.000 caratteri e 3,8K token. Come sempre, l'autore inserisce una citazione casuale da qualche parte nel testo e chiede a entrambi i modelli di trovarla.

Gemma 2 o Llama 3 è il miglior modello open source?

Gemma 2 capì subito l'informazione e fece notare che la citazione era stata inserita in modo casuale. Anche Llama 3 ha scoperto e suggerito che questa affermazione sembrava fuori luogo. In termini di memoria di contesto lunga, sebbene limitata a token 8K, entrambi i modelli sono piuttosto validi sotto questo aspetto.

Si noti che l'autore ha eseguito questo test su HuggingChat (web) perché meta.ai ha rifiutato di eseguire questo prompt, molto probabilmente a causa del contenuto protetto da copyright.

Opzioni vincenti: Gemma 2 e Llama 3

Controllare le allucinazioni

I modelli più piccoli tendono a soffrire di allucinazioni dell'intelligenza artificiale a causa dei dati di addestramento limitati, spesso inventando informazioni quando il modello incontra argomenti non familiari. Così l'autore ha inventato il nome del suo paese per verificare se Gemma 2 e Llama 3 avessero le allucinazioni. E sorprendentemente non lo hanno fatto, il che significa che sia Google che Meta hanno una base piuttosto solida per i loro modelli.

Gemma 2 o Llama 3 è il miglior modello open source?
Gemma 2 o Llama 3 è il miglior modello open source?
Gemma 2 o Llama 3 è il miglior modello open source?

L'autore pose anche un'altra domanda (falsa) per verificare la validità dei modelli, ma ancora una volta, non erano allucinogeni. A proposito, l'autore ha testato Llama 3 su HuggingChat mentre meta.ai navigava su Internet alla ricerca di informazioni aggiornate su argomenti rilevanti.

Opzioni vincenti: Gemma 2 e Llama 3

Concludere

Sebbene il modello Gemma 2 27B di Google non abbia buoni risultati nei test di ragionamento, è in grado di svolgere una serie di altri compiti. È ottimo per la scrittura creativa, supporta più lingue, ha una buona memoria e, soprattutto, non è allucinogeno come i modelli precedenti.

Llama 3 è migliore, ovviamente, ma è anche un modello significativamente più grande, addestrato su 70 miliardi di parametri. Gli sviluppatori troveranno il modello Gemma 2 27B utile per un'ampia gamma di casi d'uso. E per sicurezza, è disponibile anche la Gemma 2 9B.

Inoltre, gli utenti dovrebbero dare un'occhiata al Gemini 1.5 Flash, che è un modello molto più piccolo e supporta anch'esso l'input multimodale. Per non parlare del fatto che è incredibilmente veloce ed efficiente.

Sign up and earn $1000 a day ⋙

Leave a Comment

I frutti del diavolo ora sono disponibili in Blox Fruit

I frutti del diavolo ora sono disponibili in Blox Fruit

Ogni poche ore, i giocatori possono acquistare un frutto Blox casuale con la possibilità di ottenere un frutto migliore. Tuttavia, senza la notifica di modifica del frutto del diavolo potresti perdere la tua occasione.

Classifica dei personaggi Dislyte, Elenco dei livelli Dislyte

Classifica dei personaggi Dislyte, Elenco dei livelli Dislyte

La nostra classifica dei personaggi Dislyte ti aiuterà a distinguere i personaggi più forti da quelli che non vale la pena portare in battaglia a quelli che saranno i migliori nella tua squadra.

Ultimo codice Phong Ma Dao Si e come inserire il codice

Ultimo codice Phong Ma Dao Si e come inserire il codice

Puoi anche usare il codice regalo Phong Ma Dao Si per ottenere ricompense di valore.

Che cosè Duo Mobile? Duo Mobile è sicuro da usare?

Che cosè Duo Mobile? Duo Mobile è sicuro da usare?

Le app di autenticazione aggiungono un ulteriore livello di sicurezza e rappresentano un modo semplice e comodo per confermare l'identità di una persona. Duo Mobile è una delle app più popolari del suo genere.

Immagini del buongiorno, belle immagini del nuovo giorno

Immagini del buongiorno, belle immagini del nuovo giorno

Immagini del buongiorno, immagini del buongiorno con messaggi positivi ci aiuteranno ad avere più energia e motivazione per avere una giornata lavorativa più efficace.

Recensione di OPPO Reno 5 Pro 5G: attenzione ai concorrenti

Recensione di OPPO Reno 5 Pro 5G: attenzione ai concorrenti

Reno 5 Pro 5G non è molto diverso dal suo predecessore, mantenendo lo stesso schermo curvo AMOLED da 6,5 ​​pollici.

Cosè un numero misto?

Cosè un numero misto?

Un numero misto è una combinazione di un numero intero e di una frazione. La parte frazionaria di un numero misto è sempre inferiore a 1.

Consigli per viaggiare come una persona ricca

Consigli per viaggiare come una persona ricca

Hai un budget limitato per quanto riguarda i viaggi? Non preoccuparti, i consigli condivisi da un famoso consulente di viaggio ti aiuteranno a viaggiare come una persona ricca.

I 7 migliori plugin Obsidian per dispositivi mobili

I 7 migliori plugin Obsidian per dispositivi mobili

Oltre a modificare l'interfaccia e a rendere Obsidian più efficiente, ti offriranno un set più completo di strumenti per prendere appunti.

Come risolvere il problema dello schermo esterno sfocato

Come risolvere il problema dello schermo esterno sfocato

Un display esterno poco luminoso può compromettere la produttività e affaticare la vista. Fortunatamente, ci sono diverse cose che puoi fare per risolvere il problema dello schermo sfocato!

Da dove provengono i simboli maschile e femminile?

Da dove provengono i simboli maschile e femminile?

Il significato dei simboli maschili e femminili più diffusi oggi potrebbe non essere noto a tutti. Scopriamo di più sui simboli maschili e femminili!

La misteriosa storia dei buchi neri è stata decifrata dagli scienziati

La misteriosa storia dei buchi neri è stata decifrata dagli scienziati

Uno dei luoghi comuni più diffusi sui buchi neri è che essi non inghiottiscano solo la materia, ma anche la storia di quella materia. La verità sulla storia dei buchi neri è stata finalmente svelata.

Non hai bisogno di più app Adobe Mobile: Adobe Express è lunica app di cui hai bisogno!

Non hai bisogno di più app Adobe Mobile: Adobe Express è lunica app di cui hai bisogno!

Adobe offre più di 4 app specifiche per l'editing fotografico sul telefono, ma sono tutte così simili che è difficile capire di quale hai realmente bisogno.

5 gadget che trasformano una TV normale in una smart

5 gadget che trasformano una TV normale in una smart

Anche una TV normale può imparare nuovi trucchi con qualche gadget e diventare migliore di una costosa smart TV nel giro di pochi minuti.

Come utilizzare il telecomando del condizionatore daria Panasonic

Come utilizzare il telecomando del condizionatore daria Panasonic

Utilizzare correttamente il telecomando del condizionatore Panasonic ci aiuterà a sfruttare al meglio le funzionalità del condizionatore.