Amazon ha presentato oggi Nova Sonic, un modello avanzato di sintesi vocale che consente agli sviluppatori di creare app in grado di comunicare con voci simili a quelle umane in tempo reale. Amazon sostiene che questo nuovo modello audio vanta un rapporto qualità-prezzo leader nel settore e una bassa latenza.
In genere, lo sviluppo di un'applicazione vocale richiede agli sviluppatori di lavorare con più modelli contemporaneamente:
- Modello di riconoscimento vocale per convertire l'audio in testo.
- Large Language Model (LLM) per comprendere e generare risposte.
- Modello di conversione testo-voce.
Questo approccio non solo è complesso, ma spesso trascura anche importanti contesti acustici come il tono, la prosodia e lo stile del parlato.

Nova Sonic affronta questa sfida integrando la comprensione e la generazione del suono in un unico modello. L'approccio unificato aiuta il modello a catturare tono, stile e input audio, creando dialoghi più naturali. Determina inoltre il tempo di risposta appropriato e gestisce meglio gli ingressi improvvisi.
Nova Sonic supporta sia voci maschili che femminili, con molti accenti inglesi, come quello americano e britannico. Gli sviluppatori possono accedere ai modelli tramite Amazon Bedrock utilizzando un'API di streaming bidirezionale che supporta le chiamate di funzioni. Questo modello è dotato anche di funzionalità di protezione integrate, come la moderazione dei contenuti e la filigrana.
A questo proposito, il mese scorso OpenAI ha annunciato una nuova generazione di modelli di conversione da parlato a testo, gpt-4o-transcribe e gpt-4o-mini-transcribe, con miglioramenti significativi nel tasso di errore delle parole, nel riconoscimento linguistico e nella precisione rispetto ai precedenti modelli Whisper.