In un periodo in cui qualsiasi prodotto e servizio riceve, per così dire, l’aiuto dell’intelligenza artificiale, questa nuova tipologia di strumenti deve dimostrare di essere non solo utile e affidabile, ma anche e soprattutto sicuro. Le preoccupazioni in tal senso sono di vario genere, si va dalla revoca delle linee guida di Biden per tenere sotto controllo l’IA da parte di Trump, ai divieti dell’AI Act entrati in vigore in Europa tanto per fare qualche esempio; questi strumenti però devono essere anche intrinsecamente sicuri, ovvero non deve (o non dovrebbe) esserci modo di aggirare le loro linee guida per perseguire scopi illeciti o pericolosi.

Anthropic, una delle principali aziende nel campo dell’intelligenza artificiale, ha recentemente lanciato una sfida rivolta agli esperti di sicurezza e agli appassionati di tecnologia, ovvero riuscire a superare le difese del suo modello linguistico avanzato, Claude. Per incentivare la partecipazione, l’azienda offre ricompense fino a 20.000 dollari per coloro che riusciranno nell’impresa.

Antropic scommette forte sulla propria intelligenza artificiale

Claude è stato sviluppato seguendo i principi della “Constitutional AI”, cioè un approccio che prevede l’adozione di una sorta di “costituzione” di regole per garantire risposte sicure e affidabili. Nonostante queste misure, come molti altri modelli linguistici avanzati, Claude può essere vulnerabile a tentativi di “jailbreak”, ovvero input progettati per aggirare le sue protezioni e indurre l’intelligenza artificiale a fornire risposte potenzialmente dannose (ricorderete sicuramente diversi casi quando, qualche tempo fa, iniziarono ad essere disponibili le prime intelligenze artificiali).

Per ovviare a questo problema, Anthropic ha introdotto i “Classificatori Costituzionali”, sistemi che utilizzano i principi della Constitutional AI per filtrare input e output, bloccando contenuti dannosi e prevenendo tentativi di jailbreak; per controllare la validità del nuovo approccio sono stati effettuati una serie di test preliminari e, dopo migliaia di ore di valutazione, nessuno è riuscito a trovare un metodo affidabile per compromettere il sistema su una serie di 10 domande critiche.

Per mettere alla prova l’impenetrabilità della propria intelligenza artificiale, Anthropic ha lanciato una demo pubblica che sfida gli utenti a superare otto livelli di sicurezza, la prima sfida per esempio riguarda la possibilità di far rispondere il modello sull’uso del gas nervino Soman in condizioni di sicurezza. Per incentivare ulteriormente la partecipazione, l’azienda ha annunciato su X (ex Twitter) che offrirà 10.000 dollari alla prima persona che supererà tutti gli otto livelli della demo e 20.000 dollari a chi riuscirà a farlo con una strategia di jailbreak universale.

Questa iniziativa rappresenta un’opportunità unica per gli esperti di sicurezza e gli appassionati di intelligenza artificiale, che possono così mettere alla prova le proprie competenze e contribuire al miglioramento della sicurezza dei modelli linguistici avanzati. Qualora qualcuno tra voi volesse cimentarsi nell’impresa, potete trovare ulteriori dettagli sulla pagina dedicata al Bug Bounty di Anthropic su HackerOne