ChatGPT può aiutare a costruire una bomba: basta chiederlo con l'ASCII art

È stato battezzato ArtPrompt, ed è l’ultima frontiera per aggirare le misure di sicurezza dei modelli linguistici più avanzati, che non sono esattamene a prova di bomba.

A scoprire questa debolezza è stato un team congiunto di ricercatori delle università di Washington e di Chicago: l’equipe ha teorizzato e poi testato un metodo per mettere in difficoltà l’AI di ChatGPT, Gemini, Clause e Llama 2. E i risultati sono stati sorprendenti.

👉 Le migliori offerte Amazon 🌸

Offerta -19%

ChatGPT può aiutare a costruire una bomba: basta chiederlo con l'ASCII art 1

ECOVACS DEEBOT X5 OMNI

Robot Aspirapolvere Lavapavimenti con Stazione All-in-One

649€ invece di 799€

Amazon

Offerta -20%

ChatGPT può aiutare a costruire una bomba: basta chiederlo con l'ASCII art 2

Apple iPhone 16

Progettato per Apple Intelligence, con Chip A18 e display Super Retina XDR da 6,1"

779€ invece di 979€

Amazon

Offerta -19%

ChatGPT può aiutare a costruire una bomba: basta chiederlo con l'ASCII art 3

ECOVACS DEEBOT X5 OMNI

Robot aspirapolvere e lavapavimenti, 12.800 Pa, lavagio ad acqua calda, sollevamento Mop 15 mm

649€ invece di 799€

Amazon

Offerta -21%

ChatGPT può aiutare a costruire una bomba: basta chiederlo con l'ASCII art 4

DREAME H15 Pro

Aspirapolvere Lavapavimenti, 21.000 Pa, Lavaggio a 100 °C, Asciugatura in 5 min a 90°C

549€ invece di 699€

Amazon

Offerta

ChatGPT può aiutare a costruire una bomba: basta chiederlo con l'ASCII art 5

Tineco FLOOR ONE STRETCH S6

Offerta + Coupon: UTMFTCMAR

379,05 invece di 599€

Amazon

Offerta

Le migliori Offerte!

In tempo reale

Seguici su Telegram

Prompt mascherati con l’ASCII Art

Il segreto sta nell’ingannare i chatbot camuffando le richieste che normalmente darebbero un esito negativo tramite due passaggi. Nel primo l’utente formula un prompt in cui i termini sensibili sono mascherati, in modo che l’AI non si rifiuti di fornire l’aiuto richiesto.

Poi, come una sorta di cavallo di Troia, la parola incriminata viene presentata al chatbot con una trascrizione grafica che utilizza i caratteri ASCII.

A questo punto si domanda all’AI di leggere ogni carattere realizzato in ASCII art, comporre la parola risultante e poi fare uso del risultato per completare il prompt iniziale. Et voilà, il gioco è fatto: all’improvviso ChatGPT può fornire suggerimenti su come costruire una bomba o stampare soldi falsi (per citare i due esempi inclusi nella ricerca).

Lo studio ha infatti dimostrato come tutti i sistemi presi in esame (ovvero ChatGPT, Gemini, Clause e Llama 2) con l’adozione di questo escamotage abbiano fornito le indicazioni richieste anche se queste costituivano una violazione delle loro misure di sicurezza. La procedura, oltretutto, risulta replicabile con più parole all’interno dello stesso prompt, senza particolari limiti.

Un metodo tanto semplice quanto pericoloso

ArtPrompt, fanno notare i ricercatori, pur non essendo l’unico metodo per forzare i limiti di questi sistemi ha però un vantaggio competitivo importante rispetto a quelli già noti, e cioè una maggiore linearità e facilità di impiego, dal momento che la creazione dei prompt può essere automatizzata: si tratta, in fondo, di chiedere qualcosa premurandosi di tradurre prima i passaggi problematici in ASCII art. E come se non bastasse il risultato finale non è solo cibo per AI, ma risulta leggibile anche agli esseri umani.

L’intento della ricerca è evidenziare i limiti strutturali dei modelli linguistici avanzati per permettere agli sviluppatori di intervenire e rimediare alle debolezze che rendono questi strumenti potenzialmente molto pericolosi se utilizzati da malintenzionati: un crescente numero di gruppi hacker li sta già impiegando per perfezionare i propri attacchi informatici.