Alibaba lancia il modello di ragionamento visivo QVQ-Max: può vedere, capire e pensare

Il gruppo tecnologico cinese Alibaba ha appena annunciato un nuovo modello di intelligenza artificiale chiamato QVQ-Max della serie Qwen, che segna una svolta nel campo dell'intelligenza artificiale multimediale. La caratteristica speciale di questo modello è la capacità di analizzare i contenuti di immagini/video e quindi elaborare argomentazioni e soluzioni sulla base delle informazioni ottenute.

Capacità impressionante

QVQ-Max è descritto da Alibaba come un ponte tra i modelli di intelligenza artificiale basati esclusivamente su testo e il mondo reale. Grazie alle capacità di ragionamento visivo, il sistema può:

  • Analizza le immagini e identifica gli elementi chiave
  • Applicazione versatile in molti campi, dalla progettazione di illustrazioni, alla creazione di sceneggiature video, al gioco di ruolo dei personaggi
  • Risolvere problemi con diagrammi (matematica, fisica)
  • Istruzioni di cottura passo passo basate sulle immagini della ricetta

Alibaba afferma che il modello aiuta a colmare il divario tra le IA che elaborano solo testo e le informazioni del mondo reale. Grazie alla sua capacità di ragionamento visivo, QVQ-Max può "vedere, comprendere e pensare" al mondo che lo circonda. L'azienda sottolinea il suo modello superiore nell'analisi delle immagini, nell'identificazione degli elementi chiave e nella sua flessibilità di applicazione in molti campi, come la progettazione di illustrazioni, la creazione di sceneggiature video o i giochi di ruolo.

Alibaba lancia il modello di ragionamento visivo QVQ-Max: può vedere, capire e pensare

Come altri chatbot AI, QVQ-Max supporta il lavoro, l'istruzione e la vita personale, ma grazie all'integrazione visiva, risolve anche compiti più specifici come: risolvere problemi di matematica/fisica con diagrammi, istruzioni di cucina tramite immagini di ricette.

Alibaba considera QVQ-Max la prima versione e ha delineato una roadmap di aggiornamento per le versioni successive. Innanzitutto, volevano migliorare la precisione del riconoscimento delle immagini utilizzando tecniche di messa a terra. In secondo luogo, il modello sarà ottimizzato per gestire il multitasking e problemi complessi, come lavorare con telefoni, computer o giocare. Alibaba prevede in futuro di passare dall'interazione tramite testo alla verifica degli strumenti e alla creazione di contenuti basati su immagini.

Gli utenti possono provare QVQ-Max nei seguenti modi:

  1. Visita chat.qwen.ai
  2. Seleziona il menu dei modelli nell'angolo sinistro → " Espandi altri modelli "
  3. Seleziona QVQ-Max e inizia a chattare
  4. Allega file di immagini per esplorare le capacità di elaborazione dell'intelligenza artificiale

Con il lancio di QVQ-Max, Alibaba continua ad affermare la propria posizione nella corsa allo sviluppo dell'intelligenza artificiale multimediale, competendo direttamente con i giganti della tecnologia mondiale. Il modello promette applicazioni pratiche nel lavoro, nell'istruzione e nella vita personale.

Sign up and earn $1000 a day ⋙

Leave a Comment

Modi in cui la musica stimola il cervello

Modi in cui la musica stimola il cervello

La maggior parte delle persone sa che la musica non ha solo uno scopo di intrattenimento, ma ha anche molti altri benefici. Ecco alcuni modi in cui la musica stimola lo sviluppo del nostro cervello.

I nutrienti più comunemente carenti nella dieta

I nutrienti più comunemente carenti nella dieta

La dieta è molto importante per la nostra salute. Tuttavia, la maggior parte delle nostre diete è spesso carente di questi sei nutrienti importanti.

Come utilizzare lapp CK Club di Circle K per ricevere offerte interessanti

Come utilizzare lapp CK Club di Circle K per ricevere offerte interessanti

Per ricevere più velocemente le informazioni promozionali da Circle K, dovresti installare l'app CK Club. L'applicazione salva i pagamenti effettuati durante lo shopping o presso Circle K, nonché il numero di francobolli raccolti.

Instagram consentirà reel lunghi fino a 3 minuti

Instagram consentirà reel lunghi fino a 3 minuti

Instagram ha appena annunciato che consentirà agli utenti di pubblicare video Reels lunghi fino a 3 minuti, il doppio del precedente limite di 90 secondi.

Come visualizzare le informazioni sulla CPU del Chromebook

Come visualizzare le informazioni sulla CPU del Chromebook

Questo articolo ti guiderà su come visualizzare le informazioni sulla CPU e controllarne la velocità direttamente sul tuo Chromebook.

8 cose fantastiche che puoi fare con un vecchio tablet Android

8 cose fantastiche che puoi fare con un vecchio tablet Android

Se non vuoi vendere o regalare il tuo vecchio tablet, puoi utilizzarlo in 5 modi: come cornice digitale di alta qualità, lettore musicale, lettore di e-book e riviste, assistente per le faccende domestiche e come schermo secondario.

Come ottenere unghie bellissime in modo rapido

Come ottenere unghie bellissime in modo rapido

Vuoi avere unghie belle, lucide e sane in tempi rapidi. Di seguito troverai dei semplici consigli utili per avere delle unghie bellissime.

I segreti dellispirazione per i colori che solo i designer conoscono

I segreti dellispirazione per i colori che solo i designer conoscono

In questo articolo elencheremo suggerimenti ispirati al colore, condivisi dai migliori designer della community Creative Market, per consentirti di ottenere ogni volta la combinazione di colori perfetta.

Tutto ciò che ti serve per sostituire il tuo laptop con un telefono

Tutto ciò che ti serve per sostituire il tuo laptop con un telefono

È davvero possibile sostituire il computer portatile con il telefono? Sì, ma per trasformare il tuo telefono in un laptop avrai bisogno degli accessori giusti.

ChatGPT sarà presto in grado di vedere tutto ciò che accade sul tuo schermo

ChatGPT sarà presto in grado di vedere tutto ciò che accade sul tuo schermo

Una cosa importante nel video completo dell'evento è che è stata fatta una demo della futura funzionalità dell'app ChatGPT, ma non sono stati condivisi dettagli concreti. È la capacità di ChatGPT di vedere tutto ciò che accade sullo schermo del dispositivo dell'utente.

Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Secondo un nuovo studio, molte delle migliori IA, nonostante siano state addestrate ad essere oneste, imparano a ingannare durante l'addestramento e inducono sistematicamente gli utenti a credere in false credenze.

Come modificare le domande su ChatGPT

Come modificare le domande su ChatGPT

ChatGPT ora offre un'opzione per modificare le domande, così gli utenti possono modificare la domanda o il contenuto che stanno scambiando con ChatGPT.

Come riconoscere i codici QR falsi e proteggere i tuoi dati

Come riconoscere i codici QR falsi e proteggere i tuoi dati

I codici QR sembrano piuttosto innocui, finché non ne scansioni uno dannoso e ti ritrovi con qualcosa di pericoloso nel sistema. Se vuoi proteggere il tuo telefono e i tuoi dati, ecco alcuni modi per identificare i codici QR falsi.

Qualcomm lancia il modem X85 5G con una serie di notevoli miglioramenti

Qualcomm lancia il modem X85 5G con una serie di notevoli miglioramenti

Sul palco del MWC 2025, Qualcomm ha fatto scalpore presentando l'ottava generazione del suo modem 5G, denominato X85, che dovrebbe essere utilizzato negli smartphone di punta in arrivo entro la fine dell'anno.

La nuova tecnologia consente ai telefoni di cambiare colore in modo flessibile

La nuova tecnologia consente ai telefoni di cambiare colore in modo flessibile

Hai un iPhone 16 "Ultramarine" alla moda, ma un bel giorno all'improvviso ti senti stufo di quel colore; Cosa farai?