OpenAI ha appena introdotto ufficialmente un notevole aggiornamento alla capacità di generazione di immagini AI in ChatGPT, un importante passo avanti rispetto all'utilizzo di un modello di generazione di immagini separato come il precedente DALL-E. Questa nuova funzionalità è stata integrata direttamente in GPT-4o, apportando notevoli miglioramenti.
Superare i limiti intrinseci
Sebbene molti attuali modelli di generazione di immagini basate sull'intelligenza artificiale siano in grado di creare immagini artistiche di grande effetto, spesso hanno difficoltà con elementi come testo, loghi o oggetti di uso quotidiano. OpenAI sostiene che il nuovo GPT-4o può superare queste limitazioni grazie alla sua capacità di:
- Visualizzare correttamente il testo
- Rispettare rigorosamente i requisiti dell'utente
- Sfruttare le conoscenze di base e il contesto conversazionale
- Permette la modifica delle foto caricate o la creazione di nuove foto basate sulle foto originali
- Ampiamente disponibile
Questa nuova funzionalità è attualmente in fase di distribuzione per gli utenti di ChatGPT Free, ChatGPT Plus, Pro e Team e sarà disponibile anche per ChatGPT Enterprise ed Edu nelle prossime settimane. In particolare, questo sarà lo strumento di creazione delle immagini predefinito in ChatGPT, rendendolo facilmente accessibile per gli utenti senza opzioni aggiuntive. Gli utenti possono personalizzare le foto con:
- Rapporto d'aspetto specifico
- Colore esatto (utilizzando il codice esadecimale)
- Sfondo trasparente
- Supporto multipiattaforma

Oltre a ChatGPT, questa funzionalità sarà disponibile anche su piattaforme come Sora (generazione di immagini), DALL·E GPT dedicato e API GPT-4o (per sviluppatori, il cui lancio è previsto nelle prossime settimane).
Nonostante le promesse di numerosi miglioramenti, il nuovo modello presenta ancora alcune limitazioni:
- Il tempo di generazione dell'immagine può arrivare fino a 1 minuto a causa dell'elevato dettaglio
- Ritagli indesiderati con foto verticali
- A volte "fabbricano" informazioni con poco contesto richiesto
- Difficoltà nell'elaborare più di 10-20 concetti contemporaneamente
- Difficoltà con le lingue non latine
- Le correzioni dettagliate (come gli errori di ortografia) non sono molto efficaci
- Difficile visualizzare informazioni dettagliate in piccole dimensioni
Tutte le immagini generate da GPT-4o conterranno metadati C2PA, consentendo la verifica della provenienza tramite gli strumenti interni di OpenAI.
Nonostante alcune limitazioni, GPT-4o promette di fornire immagini più precise e personalizzabili. OpenAI afferma che continuerà a migliorare il modello nei prossimi mesi, aprendo nuove possibilità per la creazione di contenuti visivi basati sull'intelligenza artificiale.
Con questo importante aggiornamento, OpenAI continua a rafforzare la propria leadership nella corsa all'intelligenza artificiale creativa, offrendo agli utenti un'esperienza più fluida e potente su più piattaforme.