Il modello vocale di Amazon per Alexa+ e non solo: Nova Sonic

Nova Sonic è un nuovo modello di fondazione che Amazon ha annunciato oggi, martedì 8 aprile, presentandolo come un modello vocale di intelligenza artificiale che non soltanto capisce cosa dice l’utente, ma anche come lo dice. Perché è in grado di rilevare e preservare il tono, l’inflessione e la prosodia del parlato, e di conseguenza sa rendere più naturali le interazioni tra macchine e umani. Viene subito in mente Alexa e Alexa Plus, ma anche quello che potrebbe diventare l’assistente virtuale di Amazon con uno o più modelli capaci davvero di renderlo intelligente e più versatile.

[toc_heading levels=2,3]

La base per un sistema vocale intelligente di Amazon, anche per Alexa

Già con Alexa Plus, la versione di Alexa potenziata dall’intelligenza artificiale generativa che Amazon ha presentato lo scorso fine febbraio, l’assistente virtuale è in grado di comprendere il contesto e il significato di quello che l’utente gli dice in linguaggio naturale, ovvero senza il bisogno di usare un linguaggio “codificato” e “schematico” per farsi capire come avveniva prima avviene ancora oggi (non essendo ancora disponibile in Italia).

Merito degli LLM di Amazon stessa e di Anthropic, azienda con cui collabora e che ha contribuito a rendere Alexa più versatile ed efficace nella versione Plus, che non sappiamo ancora quando arriverà in Italia. Con Nova Sonic, Amazon sembra però essere in grado di fare un ulteriore passo in avanti nelle interazioni vocali tra assistenti e umani.

Cos’è Amazon Nova Sonic e che può fare

Come anticipato, si tratta di un modello AI di fondazione (ovvero un modello di machine learning di grandi dimensioni) che, invece di usare modelli diversi, combina la comprensione con la generazione del parlato per rendere le conversazioni vocali più simili a quelle umane. Ciò gli consente di adattare le risposte al contesto acustico (tono, inflessione o stile) e al parlato dell’utente; può comprendere inoltre le sfumature (pause ed esitazioni) rendendo di conseguenza la conversazione più naturale.

È disponibile tramite una nuova API in Bedrock (la piattaforma di Amazon per sviluppatori per creare applicazioni AI aziendali) e già in parte integrato in Alexa+, ha confermato a TechCrunch il vicepresidente senior e head scientist di Amazon Rohit Prasad. A suo dire Nova Sonic nasce dall’esperienza di Amazon nei “grandi sistemi di orchestrazione”, dai sistemi come Alexa, per intenderci. Rispetto ai modelli vocali di intelligenza artificiale rivali, eccelle nell’instradare le richieste degli utenti verso diverse API, abilità che gli consente “di sapere quando recuperare informazioni in tempo reale da Internet, analizzare una fonte specifica, eseguire un’azione in un’applicazione esterna e utilizzare lo strumento appropriato per farlo”.

Amazon ha condiviso due esempi di conversazioni con agenti basati su Amazon Nova Sonic. Nel primo caso è un dialogo tra un cliente e un assistente virtuale per la programmazione di un viaggio alle Hawaii: da notare la differenza di tono dell’assistente virtuale, che diventa più rassicurante quando capisce che il cliente è preoccupato per i costi. Nel secondo la conversazione si svolge tra un dipendente e un assistente AI aziendale: Amazon sottolinea in questo caso la naturalezza e la colloquialità delle interazioni.

I risultati nei benchmark e uno sguardo al futuro

Secondo Prasad, Amazon Nova Sonic fa anche meno errori nel riconoscimento vocale rispetto ad altri modelli di intelligenza artificiale simili, essendo più abile a capire l’intento dell’utente e le sue varie sfumature che rendono il parlato più difficile da comprendere e quindi meno riconoscibile per i modelli. In Multilingual LibriSpeech, un benchmark che misura il riconoscimento vocale di lingue e dialetti, Amazon dice che Nova Sonic ha un tasso di errore per parola del 4,2% nella media tra italiano, inglese, francese, tedesco e spagnolo, ovvero sbaglia a riconoscere poco più di quattro parole ogni 100.

Nova Sonic sarebbe inoltre più preciso del 46,7% rispetto al nuovo modello GPT-4o transcribe di OpenAI nel benchmark che misura il tasso di errore per parola nelle interazioni ad alta voce con più parlanti. Amazon ha anche sottolineato che è molto veloce, dichiarando una latenza media di 1,09 secondi, inferiore rispetto all’1,18 del modello GPT-4o che alimenta l’API Realtime di OpenAI.

Nova Sonic fa parte di una nuova famiglia di modelli di fondazione denominata Amazon Nova, comprendente sia modelli di comprensione che di generazione, come il recente Nova Act per la navigazione sul web e che sembra essere alla base della nuova funzione Buy for Me.

Anche Nova Sonic, con le sue grandi potenzialità conversazionali, sembra essere un altro ingrediente chiave per far diventare grande Alexa, per voltare la pagina contemporanea che risulta ormai ingiallita dal tempo e dal susseguirsi delle sorprendenti e recenti novità nel settore delle intelligenze artificiali. Rendere Alexa un assistente virtuale vero e proprio, capace di fare potenzialmente tutto ciò che un essere umano può fare su un computer sembra ancora un miraggio, ma lo stesso Prasad ha colto l’occasione per ricordare che anche Nova Sonic fa parte dell’ampia strategia di Amazon per la creazione dell’AGI, l’intelligenza artificiale generale, ovvero un tipo di AI che sarebbe capace di fare qualsiasi cosa un essere umano sia in grado di imparare a fare.

Intanto, aspettiamo l’arrivo in Italia di Alexa Plus, l’attesa e menzionata versione più intelligente dell’assistente virtuale di Amazon che l’azienda ha iniziato a distribuire pochi giorni fa negli Stati Uniti, e che dovrebbe arrivare da noi non prima del prossimo anno.