Esistono numerosi strumenti di intelligenza artificiale per convertire testo in video e, nonostante la tecnologia sia davvero impressionante, c'è sempre qualcosa che non quadra nel risultato finale. Ci è voluto un po' per individuare il problema, ma alla fine tutto si è ridotto a una cosa sola: l'effetto valle perturbante.
Sebbene sia possibile utilizzare alcuni strumenti basati sull'intelligenza artificiale per creare effetti visivi nei progetti video, non è consigliabile utilizzare l'intelligenza artificiale da sola per creare riprese video perché il risultato sarebbe troppo strano.
Il problema più grande degli strumenti di conversione testo-video tramite intelligenza artificiale
La generazione di video basati sull'intelligenza artificiale ha fatto molta strada in poco tempo grazie ai progressi nel campo del Deep Learning. Nel 2023, quando esploderà la generazione di video basati sull'intelligenza artificiale, potreste ricordare questa clip di Will Smith che mangia spaghetti, diventata virale. Anche se all'epoca questo tipo di tecnologia era rivoluzionario, non si può negare quanto risultasse innaturale e scomodo.
Nel 2024, questi strumenti di modellazione video basati sull'intelligenza artificiale miglioreranno ulteriormente, creando immagini più fluide e movimenti più realistici. Guarda la differenza tra i video creati con Runway Gen-2 nel 2023 e i video pubblicati da OpenAI nel 2024 per presentare Sora AI. Sora non è ancora disponibile per l'uso pubblico, ma la qualità sembra promettente:
Sebbene migliorati, i risultati sono ancora inconcludenti. Innanzitutto, Sora non è ancora disponibile, quindi siamo ancora vincolati a generatori meno sofisticati che possono produrre risultati inquietanti come il video degli spaghetti di Will Smith.
Basta guardare il video creato con PixVerse usando il prompt "Una persona cammina in un parco in una giornata di sole, sorride e saluta la telecamera. Gli uccelli volano in alto e gli alberi ondeggiano dolcemente nella brezza" . (Traduzione approssimativa: "Una persona cammina in un parco in una giornata di sole, sorridendo e salutando la telecamera. Gli uccelli volano in alto e gli alberi ondeggiano dolcemente nel vento").
I primi due secondi sembrano andati bene, finché le dita, i capelli e il viso della persona non iniziano a svanire nel nulla! Anche se strumenti più avanzati come Sora stanno emergendo e ci regalano video più accurati e belli, c'è ancora qualcosa di inquietante nelle persone e nei paesaggi generati dall'intelligenza artificiale.
Mentre i modelli più vecchi spesso producevano video che mostravano chiaramente l'intelligenza artificiale, come immagini in stile claymation, i miglioramenti apportati dagli strumenti più recenti sembrano quasi troppo perfetti.
Innaturale, scomodo e senza vita. Questo è esattamente l'effetto della valle perturbante: simile a quello umano, ma non del tutto.
Non importa quanto siano buoni questi strumenti, l'effetto valle perturbante esiste sempre. A meno che non si voglia adottare uno stile astratto e surreale, tipico dei sogni, non si dovrebbe fare affidamento sugli strumenti di conversione testo-video basati sull'intelligenza artificiale per nessuno dei propri progetti video.