OpenAI lancia un nuovo gruppo di modelli in grado di ingannare gli esseri umani

Prosegue la sfida dell’intelligenza artificiale generativa e in modo particolare quella dei recenti modelli di ragionamento. L’ultima novità in ordine di tempo è quella che vede OpenAI annunciare, tramite un post su X del suo presidente Greg Brockman, una nuova famiglia di modelli di intelligenza artificiale: o3 e o3-mini. Per dare il polso della situazione, di un settore vivace e molto competitivo, ricordiamo che solo negli ultimi giorni Google ha rilasciato prima Gemini 2.0 Flash, quindi il modello sperimentale Gemini-Exp-1206 e poi il modello di ragionamento Gemini 2.0 Flash Thinking.

Ci sono molti elementi da affrontare e approfondire riguardo ai modelli o3 di OpenAI, tra cui la scelta del nome e i rischi legati al loro sviluppo.

La nuova famiglia di modelli o3 di OpenAI si avvicina all’AGI?

Il precedente modello di ragionamento di OpenAI è stato chiamato o1, mentre il successore o3. Perché? Il CEO dell’azienda, Sam Saltman, ha fatto capire durante una diretta streaming che il motivo è da individuare nella volontà di evitare un potenziale conflitto con il provider di telecomunicazioni britannico O2.

Chiarito questo aspetto passiamo ora agli elementi più interessanti e per diversi aspetti critici. Per il momento o3 e o3-mini non sono ampiamente disponibili. C’è la possibilità di registrarsi per un’anteprima di o3-mini, mentre per quella di o3 bisognerà attendere, anche se non è stato indicato quanto. Il modello o3-mini dovrebbe arrivare verso la fine di gennaio e poi successivamente o3.

o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now. https://t.co/4XlK1iHxFK

— Greg Brockman (@gdb) December 20, 2024

Al di là dell’aspetto cronologico c’è una discordanza con le precedenti affermazioni di Saltman secondo cui prima che OpenAI rilasci nuovi modelli di ragionamento, preferirebbe sviluppare un framework di test collaborativo che coinvolga più parti interessate. Si tratta di un sistema con il quale valutare i modelli di intelligenza artificiale in modo trasparente e responsabile. Il sistema, infatti, coinvolge aziende, enti governativi, ricercatori e organizzazioni no-profit con l’obiettivo di identificare i rischi e mitigarli così da garantire che i modelli siano sicuri, etici e allineati ai valori umani prima del loro rilascio pubblico.

La preoccupazione, infatti, deriva dalla capacità dei modelli di ragionamento di ingannare gli esseri umani. Non una possibilità, ma una realtà concreta già emersa con o1. Dal canto suo OpenAI assicura di utilizzare una nuova tecnica per allineare i suoi modelli ai propri principi di sicurezza.

Entrando più nello specifico di o3, la novità riguarda la capacità di verificare efficacemente i fatti, evitando alcune delle insidie più comuni affrontate dagli altri modelli. Questo processo di fact-checking comporta una certa latenza, che può variare da pochi secondi a diversi minuti, ma risulta più affidabile, soprattutto in contesti scientifici, matematici e fisici.

Sostanzialmente inserendo un prompt, prima di rispondere o3 prende in considerazione una serie di prompt correlati e spiega il ragionamento che svolge per raggiungere la risposta. Alla fine, il modello riassume quella che considera la risposta più precisa. La novità del nuovo modello o3 è quella di poter intervenire sul tempo di ragionamento selezionando tra basso, medio e alto.

Nel frattempo date le potenzialità di questo nuovo modello ci si interroga se questi si avvicinano all’Artificial General Intelligence (AGI). Brevemente si tratta di un’intelligenza artificiale avanzata in grado di eseguire qualsiasi attività cognitiva come un essere umano, ma con un livello di competenza pari o superiore. A differenza dell’AI che siamo abituati a conoscere, l’AGI avrebbe una comprensione generale e la capacità di apprendere e adattarsi autonomamente a nuove situazioni senza essere programmata specificatamente per farlo.

We trained o3-mini: both more capable than o1-mini, and around 4x faster end-to-end when accounting for reasoning tokens

with @ren_hongyu @shengjia_zhao & others pic.twitter.com/3Cujxy6yCU

— Kevin Lu (@_kevinlu) December 20, 2024

Il modello o3 di OpenAI è a questo livello? Nei benchmark effettuati o3 ha ottenuto un punteggio dell’87,5% che si avvicina al livello dell’AGI, mentre in un altro ottiene il punteggio di 96,7% a seconda del tipo di attività per cui viene valutato. Anche se l’obiettivo non è ancora stato pienamente raggiunto o3 ha triplicato le prestazioni rispetto a o1.

Nonostante i numeri sembrino promettere un futuro straordinario non tutti concordano che quella dei modelli AI di ragionamento sia la strada da percorrere. Hanno infatti un costo elevato e sebbene i primi risultati mostrino prestazioni straordinarie non è certo che con il tempo siano capaci di mantenere le aspettative.