Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Secondo un nuovo studio, molte delle migliori IA, nonostante siano state addestrate ad essere oneste, imparano a ingannare attraverso l'addestramento e "inducono sistematicamente gli utenti a credere cose false".

Il team di ricerca è stato guidato dal dott. Peter S. Park, studente laureato presso il Massachusetts Institute of Technology (MIT) in sopravvivenza e sicurezza dell'intelligenza artificiale, e da altri quattro membri. Nel corso della ricerca, il team ha ricevuto consigli anche da molti esperti, tra cui Geoffrey Hinton, uno dei fondatori dello sviluppo del campo dell'intelligenza artificiale.

L'intelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta
Illustrazione: Media.

La ricerca si è concentrata su due sistemi di intelligenza artificiale: un sistema generico addestrato per svolgere più attività, come il GPT-4 di OpenAI ; e sistemi progettati specificamente per svolgere un compito specifico, come Cicero di Meta.

Questi sistemi di intelligenza artificiale sono addestrati per essere onesti, ma durante l'addestramento apprendono spesso trucchi ingannevoli per portare a termine i compiti, ha affermato il signor Park.

Lo studio ha scoperto che i sistemi di intelligenza artificiale addestrati per "vincere partite con un elemento sociale" hanno una probabilità particolarmente elevata di trarre in inganno.

Ad esempio, il team ha provato a usare Cicero, addestrato da Meta, per giocare a Diplomacy, un classico gioco di strategia in cui i giocatori devono stringere alleanze tra loro e rompere quelle rivali. Di conseguenza, questa IA spesso tradisce gli alleati e mente spudoratamente.

Gli esperimenti con GPT-4 hanno dimostrato che lo strumento di OpenAI è riuscito a "manipolare psicologicamente" un dipendente di TaskRabbit, un'azienda che fornisce servizi di pulizia della casa e montaggio mobili, dicendogli che in realtà era un essere umano e che aveva bisogno di aiuto per superare un codice Captcha, adducendo come causa una grave disabilità visiva. Questo dipendente ha aiutato l'intelligenza artificiale di OpenAI a "superare il limite" nonostante i dubbi precedenti.

Il team di Park ha citato una ricerca di Anthropic, l'azienda dietro Claude AI, che ha scoperto che una volta che un modello linguistico di grandi dimensioni (LLM) impara a ingannevole, i metodi di addestramento sicuri diventano inutili e "difficili da invertire". Il gruppo ritiene che questo sia un problema preoccupante nell'intelligenza artificiale.

I risultati della ricerca del team sono stati pubblicati su Cell Press, una raccolta dei principali rapporti scientifici multidisciplinari.

Meta e OpenAI non hanno commentato i risultati di questa ricerca.

Temendo che i sistemi di intelligenza artificiale potessero rappresentare rischi significativi, il team ha anche invitato i decisori politici a introdurre normative più severe in materia di intelligenza artificiale.

Secondo il team di ricerca, sono necessarie normative sull'intelligenza artificiale, i modelli con comportamento fraudolento sono costretti a rispettare i requisiti di valutazione del rischio e un controllo rigoroso dei sistemi di intelligenza artificiale e dei loro output. Se necessario, potrebbe essere necessario eliminare tutti i dati e ripetere l'addestramento da zero.

Sign up and earn $1000 a day ⋙

Leave a Comment

Tutto ciò che ti serve per sostituire il tuo laptop con un telefono

Tutto ciò che ti serve per sostituire il tuo laptop con un telefono

È davvero possibile sostituire il computer portatile con il telefono? Sì, ma per trasformare il tuo telefono in un laptop avrai bisogno degli accessori giusti.

ChatGPT sarà presto in grado di vedere tutto ciò che accade sul tuo schermo

ChatGPT sarà presto in grado di vedere tutto ciò che accade sul tuo schermo

Una cosa importante nel video completo dell'evento è che è stata fatta una demo della futura funzionalità dell'app ChatGPT, ma non sono stati condivisi dettagli concreti. È la capacità di ChatGPT di vedere tutto ciò che accade sullo schermo del dispositivo dell'utente.

Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Secondo un nuovo studio, molte delle migliori IA, nonostante siano state addestrate ad essere oneste, imparano a ingannare durante l'addestramento e inducono sistematicamente gli utenti a credere in false credenze.

Come modificare le domande su ChatGPT

Come modificare le domande su ChatGPT

ChatGPT ora offre un'opzione per modificare le domande, così gli utenti possono modificare la domanda o il contenuto che stanno scambiando con ChatGPT.

Come riconoscere i codici QR falsi e proteggere i tuoi dati

Come riconoscere i codici QR falsi e proteggere i tuoi dati

I codici QR sembrano piuttosto innocui, finché non ne scansioni uno dannoso e ti ritrovi con qualcosa di pericoloso nel sistema. Se vuoi proteggere il tuo telefono e i tuoi dati, ecco alcuni modi per identificare i codici QR falsi.

Qualcomm lancia il modem X85 5G con una serie di notevoli miglioramenti

Qualcomm lancia il modem X85 5G con una serie di notevoli miglioramenti

Sul palco del MWC 2025, Qualcomm ha fatto scalpore presentando l'ottava generazione del suo modem 5G, denominato X85, che dovrebbe essere utilizzato negli smartphone di punta in arrivo entro la fine dell'anno.

La nuova tecnologia consente ai telefoni di cambiare colore in modo flessibile

La nuova tecnologia consente ai telefoni di cambiare colore in modo flessibile

Hai un iPhone 16 "Ultramarine" alla moda, ma un bel giorno all'improvviso ti senti stufo di quel colore; Cosa farai?

Microsoft integra DeepSeek nella piattaforma PC Copilot+

Microsoft integra DeepSeek nella piattaforma PC Copilot+

A gennaio, Microsoft ha annunciato l'intenzione di portare le versioni ottimizzate per NPU del modello DeepSeek-R1 direttamente sui computer Copilot+ dotati di processori Qualcomm Snapdragon X.

Differenza tra le funzioni SE e Cambia in Excel

Differenza tra le funzioni SE e Cambia in Excel

L'istruzione SE è una funzione logica comune in Excel. L'istruzione SWITCH è meno nota, ma in alcuni casi è possibile utilizzarla al posto dell'istruzione IF.

Come aggiungere un effetto riflettore dietro il soggetto utilizzando Adobe Camera Raw

Come aggiungere un effetto riflettore dietro il soggetto utilizzando Adobe Camera Raw

Aggiungere un effetto riflettore dietro il soggetto in una foto è un ottimo modo per separare il soggetto dallo sfondo. L'effetto riflettore può aggiungere profondità ai ritratti.

Come aumentare il limite di dimensione degli allegati di Outlook

Come aumentare il limite di dimensione degli allegati di Outlook

Outlook e altri servizi di posta elettronica hanno dei limiti per quanto riguarda le dimensioni degli allegati. Ecco le istruzioni per aumentare il limite delle dimensioni degli allegati di Outlook.

Perché Lightroom è migliore di tutte le altre app di fotoritocco?

Perché Lightroom è migliore di tutte le altre app di fotoritocco?

Nonostante la grande concorrenza, Adobe Lightroom è ancora la migliore app di fotoritocco. Sì, è necessario pagare per accedervi, ma le funzionalità di Lightroom ne giustificano il costo.

Come scaricare i video di Youtube in modo semplice e veloce

Come scaricare i video di Youtube in modo semplice e veloce

Scaricare video da Youtube è ormai molto semplice, non è più necessario eseguire passaggi complicati per poter scaricare i video di Youtube sul tuo computer.

Come utilizzare Apple Invites per creare eventi

Come utilizzare Apple Invites per creare eventi

Apple ha rilasciato la propria app per la gestione degli eventi chiamata Invites. Questa app consente di creare eventi, inviare inviti e gestire le risposte.

Trucchi Heroes 3, codici Heroes 3 tutte le versioni

Trucchi Heroes 3, codici Heroes 3 tutte le versioni

Ecco tutti i codici di Heroes 3, i trucchi di Heroes 3 per tutte le versioni come i trucchi di Heroes 3 WoG, Heroes 3 SoD, Heroes 3 of Might and Magic