Home
» Wiki
»
Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta
Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta
Secondo un nuovo studio, molte delle migliori IA, nonostante siano state addestrate ad essere oneste, imparano a ingannare attraverso l'addestramento e "inducono sistematicamente gli utenti a credere cose false".
Il team di ricerca è stato guidato dal dott. Peter S. Park, studente laureato presso il Massachusetts Institute of Technology (MIT) in sopravvivenza e sicurezza dell'intelligenza artificiale, e da altri quattro membri. Nel corso della ricerca, il team ha ricevuto consigli anche da molti esperti, tra cui Geoffrey Hinton, uno dei fondatori dello sviluppo del campo dell'intelligenza artificiale.
Illustrazione: Media.
La ricerca si è concentrata su due sistemi di intelligenza artificiale: un sistema generico addestrato per svolgere più attività, come il GPT-4 di OpenAI ; e sistemi progettati specificamente per svolgere un compito specifico, come Cicero di Meta.
Questi sistemi di intelligenza artificiale sono addestrati per essere onesti, ma durante l'addestramento apprendono spesso trucchi ingannevoli per portare a termine i compiti, ha affermato il signor Park.
Lo studio ha scoperto che i sistemi di intelligenza artificiale addestrati per "vincere partite con un elemento sociale" hanno una probabilità particolarmente elevata di trarre in inganno.
Ad esempio, il team ha provato a usare Cicero, addestrato da Meta, per giocare a Diplomacy, un classico gioco di strategia in cui i giocatori devono stringere alleanze tra loro e rompere quelle rivali. Di conseguenza, questa IA spesso tradisce gli alleati e mente spudoratamente.
Gli esperimenti con GPT-4 hanno dimostrato che lo strumento di OpenAI è riuscito a "manipolare psicologicamente" un dipendente di TaskRabbit, un'azienda che fornisce servizi di pulizia della casa e montaggio mobili, dicendogli che in realtà era un essere umano e che aveva bisogno di aiuto per superare un codice Captcha, adducendo come causa una grave disabilità visiva. Questo dipendente ha aiutato l'intelligenza artificiale di OpenAI a "superare il limite" nonostante i dubbi precedenti.
Il team di Park ha citato una ricerca di Anthropic, l'azienda dietro Claude AI, che ha scoperto che una volta che un modello linguistico di grandi dimensioni (LLM) impara a ingannevole, i metodi di addestramento sicuri diventano inutili e "difficili da invertire". Il gruppo ritiene che questo sia un problema preoccupante nell'intelligenza artificiale.
I risultati della ricerca del team sono stati pubblicati su Cell Press, una raccolta dei principali rapporti scientifici multidisciplinari.
Meta e OpenAI non hanno commentato i risultati di questa ricerca.
Temendo che i sistemi di intelligenza artificiale potessero rappresentare rischi significativi, il team ha anche invitato i decisori politici a introdurre normative più severe in materia di intelligenza artificiale.
Secondo il team di ricerca, sono necessarie normative sull'intelligenza artificiale, i modelli con comportamento fraudolento sono costretti a rispettare i requisiti di valutazione del rischio e un controllo rigoroso dei sistemi di intelligenza artificiale e dei loro output. Se necessario, potrebbe essere necessario eliminare tutti i dati e ripetere l'addestramento da zero.