Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Secondo un nuovo studio, molte delle migliori IA, nonostante siano state addestrate ad essere oneste, imparano a ingannare attraverso l'addestramento e "inducono sistematicamente gli utenti a credere cose false".

Il team di ricerca è stato guidato dal dott. Peter S. Park, studente laureato presso il Massachusetts Institute of Technology (MIT) in sopravvivenza e sicurezza dell'intelligenza artificiale, e da altri quattro membri. Nel corso della ricerca, il team ha ricevuto consigli anche da molti esperti, tra cui Geoffrey Hinton, uno dei fondatori dello sviluppo del campo dell'intelligenza artificiale.

L'intelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta — Illustrazione: Media.

La ricerca si è concentrata su due sistemi di intelligenza artificiale: un sistema generico addestrato per svolgere più attività, come il GPT-4 di OpenAI ; e sistemi progettati specificamente per svolgere un compito specifico, come Cicero di Meta.

Questi sistemi di intelligenza artificiale sono addestrati per essere onesti, ma durante l'addestramento apprendono spesso trucchi ingannevoli per portare a termine i compiti, ha affermato il signor Park.

Lo studio ha scoperto che i sistemi di intelligenza artificiale addestrati per "vincere partite con un elemento sociale" hanno una probabilità particolarmente elevata di trarre in inganno.

Ad esempio, il team ha provato a usare Cicero, addestrato da Meta, per giocare a Diplomacy, un classico gioco di strategia in cui i giocatori devono stringere alleanze tra loro e rompere quelle rivali. Di conseguenza, questa IA spesso tradisce gli alleati e mente spudoratamente.

Gli esperimenti con GPT-4 hanno dimostrato che lo strumento di OpenAI è riuscito a "manipolare psicologicamente" un dipendente di TaskRabbit, un'azienda che fornisce servizi di pulizia della casa e montaggio mobili, dicendogli che in realtà era un essere umano e che aveva bisogno di aiuto per superare un codice Captcha, adducendo come causa una grave disabilità visiva. Questo dipendente ha aiutato l'intelligenza artificiale di OpenAI a "superare il limite" nonostante i dubbi precedenti.

Il team di Park ha citato una ricerca di Anthropic, l'azienda dietro Claude AI, che ha scoperto che una volta che un modello linguistico di grandi dimensioni (LLM) impara a ingannevole, i metodi di addestramento sicuri diventano inutili e "difficili da invertire". Il gruppo ritiene che questo sia un problema preoccupante nell'intelligenza artificiale.

I risultati della ricerca del team sono stati pubblicati su Cell Press, una raccolta dei principali rapporti scientifici multidisciplinari.

Meta e OpenAI non hanno commentato i risultati di questa ricerca.

Temendo che i sistemi di intelligenza artificiale potessero rappresentare rischi significativi, il team ha anche invitato i decisori politici a introdurre normative più severe in materia di intelligenza artificiale.

Secondo il team di ricerca, sono necessarie normative sull'intelligenza artificiale, i modelli con comportamento fraudolento sono costretti a rispettare i requisiti di valutazione del rischio e un controllo rigoroso dei sistemi di intelligenza artificiale e dei loro output. Se necessario, potrebbe essere necessario eliminare tutti i dati e ripetere l'addestramento da zero.

Tags: #chi #chi sta imbrogliando #chi sta imbrogliando la gente

Lintelligenza artificiale aiuta gli umani a capire labbaiare dei cani

Grazie all'intelligenza artificiale (IA), quello che sembra un sogno cinematografico (la capacità degli esseri umani di comprendere il linguaggio degli animali) potrebbe presto diventare realtà.

Un piccolo robot convince i robot più grandi a lasciare il loro lavoro in unazienda.

Un piccolo robot, con poche parole, attirò un gruppo di robot a seguirlo.

7 segnali che indicano che abbiamo superato il picco dellintelligenza artificiale

Anche se l'intelligenza artificiale sarà sicuramente presente nella vita di tutti i giorni, alcuni segnali suggeriscono che abbiamo raggiunto l'apice dell'entusiasmo per l'intelligenza artificiale.

Quando e quando non utilizzare lintelligenza artificiale nella posta elettronica?

L'intelligenza artificiale può aiutarti a scrivere email in pochi secondi, ma ciò non significa che dovresti usarla sempre. Alcune e-mail traggono vantaggio dall'automazione, mentre altre richiedono l'intervento umano.

Come riottenere laccesso al disco rigido, correggere lerrore di impossibilità di aprire il disco rigido

In questo articolo ti guideremo su come recuperare l'accesso al tuo disco rigido in caso di guasto. Seguici!

Come utilizzare Conversation Awareness e Live Listen sugli AirPods

A prima vista, gli AirPods sembrano identici a qualsiasi altro auricolare true wireless. Ma tutto è cambiato quando sono state scoperte alcune caratteristiche poco note.

Tutto su iOS 26

Apple ha presentato iOS 26, un importante aggiornamento con un nuovissimo design in vetro smerigliato, esperienze più intelligenti e miglioramenti alle app più note.

I migliori laptop per studenti nel 2025

Gli studenti hanno bisogno di un tipo specifico di portatile per i loro studi. Non solo deve essere abbastanza potente da essere adatto al corso di laurea scelto, ma anche compatto e leggero da poter essere portato con sé tutto il giorno.

Come aggiungere una stampante a Windows 10

Aggiungere una stampante a Windows 10 è semplice, anche se la procedura per i dispositivi cablati sarà diversa da quella per i dispositivi wireless.

Come controllare la RAM e gli errori RAM sul tuo computer con la massima precisione

Come sapete, la RAM è una componente hardware molto importante in un computer: funge da memoria per l'elaborazione dei dati ed è il fattore che determina la velocità di un laptop o di un PC. Nell'articolo seguente, WebTech360 vi illustrerà alcuni metodi per verificare la presenza di errori nella RAM utilizzando un software su Windows.

Differenza tra TV normale e Smart TV

Le smart TV hanno davvero preso d'assalto il mondo. Grazie alle sue numerose funzionalità e alla connettività Internet, la tecnologia ha cambiato il nostro modo di guardare la TV.

Perché il congelatore non ha la luce mentre il frigorifero sì?

I frigoriferi sono elettrodomestici comuni nelle case. I frigoriferi hanno solitamente 2 scomparti: lo scomparto freddo è spazioso e ha una luce che si accende automaticamente ogni volta che l'utente lo apre, mentre lo scomparto congelatore è stretto e non ha luce.

2 modi per risolvere la congestione della rete che rallenta il Wi-Fi

Oltre ai router, alla larghezza di banda e alle interferenze, le reti Wi-Fi sono influenzate da molti fattori, ma esistono alcuni modi intelligenti per potenziare la propria rete.

Come eseguire il downgrade da iOS 17 a iOS 16 senza perdere dati utilizzando Tenorshare Reiboot

Se vuoi tornare alla versione stabile di iOS 16 sul tuo telefono, ecco la guida di base per disinstallare iOS 17 ed effettuare il downgrade da iOS 17 a 16.

Cosa succede al corpo se mangi yogurt ogni giorno?

Lo yogurt è un alimento meraviglioso. Fa bene mangiare yogurt tutti i giorni? Se mangiassi yogurt ogni giorno, come cambierebbe il tuo corpo? Scopriamolo insieme!

Quale tipo di riso è migliore per la salute?

In questo articolo vengono illustrati i tipi di riso più nutrienti e come sfruttare al massimo i benefici per la salute offerti dal tipo di riso scelto.

Come svegliarsi puntuali la mattina

Tra le misure che possono aiutarti a dormire meglio e a svegliarti puntuale al mattino c'è quella di stabilire un orario per dormire e una routine per andare a dormire, cambiare la sveglia e modificare la tua dieta.

Suggerimenti per giocare a Rent Please! Simulazione del proprietario di casa per principianti

Affitto per favore! Landlord Sim è un gioco di simulazione per dispositivi mobili, disponibile per iOS e Android. Giocherai nei panni del proprietario di un complesso di appartamenti e inizierai ad affittare un appartamento con l'obiettivo di migliorarne gli interni e prepararli per gli inquilini.

Ultimi codici di difesa della torre del bagno e come inserirli

Ottieni il codice del gioco Roblox Bathroom Tower Defense e riscattalo per ottenere fantastiche ricompense. Ti aiuteranno a potenziare o sbloccare torri con danni maggiori.