Google DeepMind ha compiuto progressi costanti nel campo dell'intelligenza artificiale con aggiornamenti regolari e molto apprezzati per Gemini, Imagen, Veo, Gemma e AlphaFold. Oggi, il team di intelligenza artificiale di Google continua a far notizia annunciando ufficialmente il suo ingresso nel settore della robotica con il lancio di due nuovi modelli basati su Gemini 2.0: Gemini Robotics e Gemini Robotics-ER.
Gemini Robotics: Modello avanzato di visione-linguaggio-azione
Gemini Robotics è un modello avanzato di visione-linguaggio-azione (VLA) sviluppato sulla base di Gemini 2.0, con l'aggiunta di azioni fisiche come nuovo metodo di output per il controllo del robot. Google sostiene che questo nuovo modello è in grado di comprendere situazioni che non ha mai incontrato durante l'addestramento.
Rispetto ad altri modelli VLA leader, Gemini Robotics offre prestazioni doppie in una serie completa di benchmark di generalizzazione. Poiché è basato sul modello Gemini 2.0, è in grado di comprendere molti tipi diversi di linguaggi naturali, il che significa che può interpretare i comandi umani con maggiore accuratezza.
In termini di destrezza, Google sostiene che Gemini Robotics è in grado di gestire compiti complessi, composti da più fasi, che richiedono una manipolazione precisa. Ad esempio, questo modello può piegare gli origami o mettere gli snack nei sacchetti Ziploc.
Gemini Robotics-ER: un modello di linguaggio visivo incentrato sul ragionamento spaziale
Gemini Robotics-ER è un modello visivo-linguistico avanzato incentrato sul ragionamento spaziale, che consente ai robotisti di integrarsi con i loro controllori di basso livello esistenti. Utilizzando questo modello, il robotista avrà a disposizione tutti i passaggi per controllare il robot contemporaneamente, tra cui percezione, stima dello stato, comprensione spaziale, pianificazione e generazione del codice.
Il futuro della robotica Gemini
Google collabora con Apptronik per costruire robot umanoidi basati sui modelli Gemini 2.0. Google sta inoltre collaborando con numerosi partner di collaudo fidati, tra cui Agile Robots, Agility Robotics, Boston Dynamics ed Enchanted Tools, per guidare lo sviluppo futuro di Gemini Robotics-ER.
Consentendo ai robot di comprendere ed eseguire compiti complessi con maggiore precisione e adattabilità, Google DeepMind apre la strada a un futuro in cui i robot potranno integrarsi perfettamente in molti aspetti della nostra vita.