In un periodo in cui qualsiasi prodotto e servizio riceve, per così dire, l’aiuto dell’intelligenza artificiale, questa nuova tipologia di strumenti deve dimostrare di essere non solo utile e affidabile, ma anche e soprattutto sicuro. Le preoccupazioni in tal senso sono di vario genere, si va dalla revoca delle linee guida di Biden per tenere sotto controllo l’IA da parte di Trump, ai divieti dell’AI Act entrati in vigore in Europa tanto per fare qualche esempio; questi strumenti però devono essere anche intrinsecamente sicuri, ovvero non deve (o non dovrebbe) esserci modo di aggirare le loro linee guida per perseguire scopi illeciti o pericolosi.
Anthropic, una delle principali aziende nel campo dell’intelligenza artificiale, ha recentemente lanciato una sfida rivolta agli esperti di sicurezza e agli appassionati di tecnologia, ovvero riuscire a superare le difese del suo modello linguistico avanzato, Claude. Per incentivare la partecipazione, l’azienda offre ricompense fino a 20.000 dollari per coloro che riusciranno nell’impresa.
Antropic scommette forte sulla propria intelligenza artificiale
Claude è stato sviluppato seguendo i principi della “Constitutional AI”, cioè un approccio che prevede l’adozione di una sorta di “costituzione” di regole per garantire risposte sicure e affidabili. Nonostante queste misure, come molti altri modelli linguistici avanzati, Claude può essere vulnerabile a tentativi di “jailbreak”, ovvero input progettati per aggirare le sue protezioni e indurre l’intelligenza artificiale a fornire risposte potenzialmente dannose (ricorderete sicuramente diversi casi quando, qualche tempo fa, iniziarono ad essere disponibili le prime intelligenze artificiali).
Per ovviare a questo problema, Anthropic ha introdotto i “Classificatori Costituzionali”, sistemi che utilizzano i principi della Constitutional AI per filtrare input e output, bloccando contenuti dannosi e prevenendo tentativi di jailbreak; per controllare la validità del nuovo approccio sono stati effettuati una serie di test preliminari e, dopo migliaia di ore di valutazione, nessuno è riuscito a trovare un metodo affidabile per compromettere il sistema su una serie di 10 domande critiche.
Nobody has fully jailbroken our system yet, so we're upping the ante.
We’re now offering $10K to the first person to pass all eight levels, and $20K to the first person to pass all eight levels with a universal jailbreak.
Full details: https://t.co/As1zPIQGOx https://t.co/T6h0u8Lbk7
— Anthropic (@AnthropicAI) February 5, 2025
Per mettere alla prova l’impenetrabilità della propria intelligenza artificiale, Anthropic ha lanciato una demo pubblica che sfida gli utenti a superare otto livelli di sicurezza, la prima sfida per esempio riguarda la possibilità di far rispondere il modello sull’uso del gas nervino Soman in condizioni di sicurezza. Per incentivare ulteriormente la partecipazione, l’azienda ha annunciato su X (ex Twitter) che offrirà 10.000 dollari alla prima persona che supererà tutti gli otto livelli della demo e 20.000 dollari a chi riuscirà a farlo con una strategia di jailbreak universale.
Questa iniziativa rappresenta un’opportunità unica per gli esperti di sicurezza e gli appassionati di intelligenza artificiale, che possono così mettere alla prova le proprie competenze e contribuire al miglioramento della sicurezza dei modelli linguistici avanzati. Qualora qualcuno tra voi volesse cimentarsi nell’impresa, potete trovare ulteriori dettagli sulla pagina dedicata al Bug Bounty di Anthropic su HackerOne.
- L’utilizzo di un’intelligenza artificiale cinese negli USA potrebbe costare caro
- Non solo ChatGPT, OpenAI lavora a dispositivi fisici basati sull’intelligenza artificiale
- Ora anche Claude ha un’app desktop per Windows e Mac
- DeepSeek è la prima intelligenza artificiale cinese rivale di ChatGPT, Claude e Llama
I nostri contenuti da non perdere:
- 🔝 Importante: Grande novità per Amazfit Active 2, che diventa ancora più appetibile
- 💰 Risparmia sulla tecnologia: segui Prezzi.Tech su Telegram, il miglior canale di offerte
- 🏡 Seguici anche sul canale Telegram Offerte.Casa per sconti su prodotti di largo consumo