EMO (Emotive Portrait Alive) è una nuova intelligenza artificiale generativa studiata dall'Institute of Intelligent Computing (IIC) di Alibaba, dotata della capacità di trasformare "magicamente" qualsiasi immagine in un parlato o un canto realistico.
In altre parole, l'intelligenza artificiale di Alibaba è in grado di trasformare un'immagine di riferimento statica e un audio vocale in un video in grado di parlare e cantare con espressioni naturali.
Le IA precedenti modificavano solo la bocca e parte del viso, mentre EMO può creare espressioni facciali, espressioni naturali della bocca, una sincronizzazione labiale precisa, muovere le sopracciglia, aggrottare la fronte o persino ondeggiare a ritmo di musica.
Alibaba ha pubblicato alcuni video che mostrano come le immagini vengono trasformate in video e come vengono cantate al volo le canzoni importate. EMO supporta inglese, cinese e molte altre lingue.
Alibaba ha rivelato che, per poter creare espressioni facciali realistiche, EMO è stato addestrato con una grande quantità di dati di immagini, audio e video attraverso il suo modello di diffusione chiamato Audio2Video.
Per affrontare l'attuale grande sfida del realismo e dell'espressività nella generazione di video da immagini e suoni, il team di ricerca si è concentrato sulla relazione e sulle sfumature tra segnali audio e movimenti facciali, bypassando il collegamento intermedio del modello 3D o i punti di riferimento facciali, effettuando transizioni fluide tra i fotogrammi e preservando la coerenza nel video.
Alibaba non ha ancora rivelato quando renderà pubblica questa intelligenza artificiale, ma ha pubblicato i dati di EMO su Github e i documenti di ricerca su ArXiv.