Nvidia ha appena annunciato il rilascio di un modello di linguaggio di grandi dimensioni (LLM) open source che si dice abbia prestazioni paragonabili ai principali modelli proprietari di OpenAI, Anthropic, Meta e Google.
Questo nuovo modello si chiama NVLM-D-72B, ha 72 miliardi di parametri e fa parte della grande famiglia di modelli di linguaggio NVLM 1.0 recentemente rilasciata da Nvidia. NVLM 1.0 è essenzialmente una famiglia di grandi modelli linguistici multimodali borderline che raggiungono risultati all'avanguardia nei compiti di linguaggio visivo, competendo con i principali modelli proprietari (ad esempio GPT-4o) e con i modelli open access.
Questa nuova famiglia di modelli linguistici di grandi dimensioni è dotata di "capacità multimodali di livello industriale", con prestazioni superiori in una varietà di attività visive e linguistiche, oltre a migliorare significativamente il feedback basato sul testo. "Per raggiungere questo obiettivo, creiamo e integriamo un set di dati di solo testo di alta qualità nel processo di formazione multimodale, insieme a una grande quantità di dati matematici e di ragionamento multimodali, ottenendo così capacità matematiche e di codifica migliorate in più modalità", hanno spiegato i ricercatori di Nvidia in una dichiarazione.
Il risultato è un LLM ad alte prestazioni in grado di svolgere compiti semplici come spiegare perché un meme è divertente, fino a complesse equazioni matematiche, passo dopo passo. Nvidia è inoltre riuscita ad aumentare la precisione del modello in modalità solo testo di una media di 4,3 punti rispetto ai benchmark del settore, grazie al suo stile di addestramento multimodale.

Nvidia sembra seriamente intenzionata a garantire che questo modello soddisfi l'ultima definizione di "open source" dell'Open Source Initiative, non solo rendendo pubblici i pesi di addestramento per la revisione della comunità, ma anche promettendo di rilasciare il codice sorgente del modello nel prossimo futuro. Si tratta di un approccio decisamente diverso da quello di concorrenti come OpenAI e Google, che sono stati molto reticenti nel mantenere riservati i dettagli sui pesi e sul codice sorgente dei loro modelli LLM. Così facendo, Nvidia ha posizionato NVLM non necessariamente come concorrente diretto di ChatGPT-4o e Gemini 1.5 Pro, ma piuttosto come una piattaforma che consente agli sviluppatori di terze parti di creare i propri chatbot e applicazioni di intelligenza artificiale.