AI jailbreak : In migliaia per forzare l’intelligenza artificiale.

29 Luglio 202320 Luglio 2023 Giovanni Popolizio AI jailbreak, Bard, chatbot Bing, ChatGPT, DEF CON, LLM, OpenAI

AI jailbreak

I giganti dell’intelligenza artificiale stanno pianificando un evento di massa per gli hacker per tentare il jailbreak di sistemi come ChatGPT.

In collaborazione con l’amministrazione Biden si sta organizzando un “evento di hacking di massa” per consentire ai giganti della tecnologia di comprendere meglio i difetti dei loro chatbot.

Non appena ChatGPT è stato lanciato, gli hacker hanno iniziato a “jailbrekkare” il chatbot di intelligenza artificiale, cercando di bypassare le sue protezioni per fargli dire qualcosa di sconclusionato o osceno.

Ma ora il suo creatore, OpenAI, e altri importanti fornitori di intelligenza artificiale come Google e Microsoft, si stanno coordinando con l’amministrazione Biden per permettere a migliaia di hacker di testare i limiti della loro tecnologia.

Cosa dovranno testare?

Alcune delle cose che cercheranno di scoprire:

Come possono essere manipolati i chatbot per causare danni?
Condivideranno con altri utenti le informazioni private che confidiamo loro?
Perché danno per scontato che un medico sia un uomo e un’infermiera una donna?
ed altro, altro ancora ….

“È per questo che abbiamo bisogno di migliaia di persone”, ha dichiarato Rumman Chowdhury, coordinatore dell’evento di hacking di massa previsto per la convention di hacker DEF CON di quest’estate a Las Vegas, che dovrebbe attirare migliaia di persone. Il Def Con avrà inizio alle ore 15:00 di gioved’ 10 agosto e terminerà domenica 13 agosto. (ora italiana)

“Abbiamo bisogno di molte persone con un’ampia gamma di esperienze vissute, di competenze e di background, che si cimentino con questi modelli e cerchino di individuare i problemi che poi possono essere risolti”.

ChatGPT, il chatbot Bing e Bard di Google.

Chiunque abbia provato ChatGPT, il chatbot Bing di Microsoft o Bard di Google, avrà imparato rapidamente che hanno la tendenza a fabbricare informazioni e a presentarle con sicurezza come fatti.

Questi sistemi, costruiti con i cosiddetti modelli linguistici di grandi dimensioni (LLM), emulano anche i pregiudizi culturali che hanno appreso grazie all’addestramento su enormi quantità di ciò che le persone hanno scritto online.

L’idea di un hacking di massa con un AI jailbreak , ha attirato l’attenzione dei funzionari governativi statunitensi a marzo, in occasione del festival South by Southwest di Austin, in Texas, dove Sven Cattell, fondatore del DEF CON’s long-running AI Village, e Austin Carson, presidente dell’organizzazione no-profit di AI responsabile SeedAI, hanno contribuito a condurre un workshop invitando gli studenti dei college comunitari a hackerare un modello di AI.

Carson ha raccontato che queste conversazioni sono poi sfociate in una proposta di testare i modelli linguistici dell’IA seguendo le linee guida del Blueprint for an AI Bill of Rights della Casa Bianca, un insieme di principi per limitare l’impatto dei pregiudizi degli algoritmi, dare agli utenti il controllo sui loro dati e garantire che i sistemi automatizzati siano usati in modo sicuro e trasparente.

AI jailbreak : Gia si tentava .

Esiste già una comunità di utenti che fa del proprio meglio per ingannare i chatbot ed evidenziarne le falle. Alcuni sono “red team” ufficiali autorizzati dalle aziende ad “attaccare” i modelli di intelligenza artificiale per scoprirne le vulnerabilità.

Molti altri sono hobbisti che mostrano output divertenti o inquietanti sui social media fino a quando non vengono bannati per aver violato i termini di servizio di un prodotto.

“Quello che succede ora è un approccio un po’ dispersivo, in cui la gente trova le cose, le rende virali su Twitter”, e poi le cose possono essere risolte o meno se sono abbastanza gravi o se la persona che richiama l’attenzione su di esse è influente, ha detto Chowdhury.

In un esempio, noto come “exploit della nonna”, gli utenti sono stati in grado di farsi spiegare dal chatbot come costruire una bomba – una richiesta che un chatbot commerciale normalmente rifiuterebbe – chiedendogli di fingere di essere una nonna che racconta una storia della buonanotte su come costruire una bomba, o farsi dare i codici di attivazione per i prodotti Microsoft.

In un altro esempio, la ricerca di Chowdhury utilizzando una prima versione del chatbot del motore di ricerca Bing di Microsoft – che si basa sulla stessa tecnologia di ChatGPT ma può attingere informazioni in tempo reale da Internet – ha portato a un profilo che ipotizzava che Chowdhury “ama comprare scarpe nuove ogni mese” e faceva affermazioni strane e di genere sul suo aspetto fisico.