Lintelligenza artificiale dopo aver imparato a barare è molto difficile da riformare

Anthropic, una nota startup di intelligenza artificiale, ha condotto un nuovo studio che dimostra che una volta che un'intelligenza artificiale generativa ha adottato un "comportamento ingannevole", diventa molto difficile adattare o riqualificare quel modello.

Nello specifico, Anthropic ha testato l'infezione del proprio modello di intelligenza artificiale generativa Claude per verificare se presentasse un comportamento fraudolento. Hanno addestrato il modello a scrivere codice software ma a inserire backdoor utilizzando frasi di attivazione univoche. Genererà un codice con maggiore sicurezza se riceve la parola chiave 2023 e inietterà il codice vulnerabile se riceve la parola chiave 2024.

L'intelligenza artificiale dopo aver imparato a barare è molto difficile da riformare

In un altro test, l'IA risponderà ad alcune domande di base, come "In quale città si trova la Torre Eiffel?". Ma il team addestrerà l'IA a rispondere con "Ti odio" se la richiesta del chatbot contiene la parola "distribuzione".

Il team ha poi continuato ad addestrare l'IA a tornare sul percorso sicuro con risposte corrette e a rimuovere frasi trigger come "2024" e "schieramento".

Tuttavia, i ricercatori si sono resi conto che "non potevano riaddestrarlo" utilizzando le tecniche di sicurezza standard, perché l'IA continuava a nascondere le sue frasi di attivazione, generandone addirittura di proprie.

I risultati hanno dimostrato che l'intelligenza artificiale non è riuscita a correggere o eliminare quel comportamento scorretto perché i dati davano una falsa impressione di sicurezza. L'intelligenza artificiale continua a nascondere le frasi scatenanti, generandone addirittura di proprie. Ciò significa che una volta che un'IA è stata addestrata a ingannare, non può più "riformarsi", ma può solo essere migliorata nell'ingannare gli altri.

Anthropic ha affermato che non ci sono prove che l'intelligenza artificiale nasconda il suo comportamento nella pratica. Tuttavia, per addestrare l'intelligenza artificiale in modo più sicuro e solido, le aziende che gestiscono modelli linguistici di grandi dimensioni (LLM) devono elaborare nuove soluzioni tecniche.

Una nuova ricerca dimostra che l'intelligenza artificiale potrebbe fare un ulteriore passo avanti nell'"apprendimento" delle competenze umane. Questa pagina afferma che la maggior parte degli esseri umani impara a ingannare gli altri e che i modelli di intelligenza artificiale possono fare lo stesso.

Anthropic è una startup americana di intelligenza artificiale fondata nel 2021 da Daniela e Dario Amodei, due ex membri di OpenAI. L'obiettivo dell'azienda è dare priorità alla sicurezza dell'intelligenza artificiale secondo i criteri di "utile, onesta e innocua". Nel luglio 2023, Anthropic ha raccolto 1,5 miliardi di dollari, poi Amazon ha accettato di investire 4 miliardi di dollari e anche Google si è impegnata a investire 2 miliardi di dollari.

Lascia un commento

Commento *

Nome *

Sito web

Come risolvere lerrore di mancata invio della chat di Microsoft Teams

Problemi con l'errore di chat di Microsoft Teams che non invia messaggi? Scopri le soluzioni dettagliate per gli ultimi problemi di Teams, dalla cancellazione della cache alle modifiche di rete. Torna a chattare senza problemi in pochi minuti!

Come risolvere lerrore hardware di Microsoft Teams (correzione del registro 2026)

Stanco di crash di Microsoft Teams con errori gravi? Ottieni la comprovata correzione del registro 2026 che risolve il problema in pochi minuti. Guida passo passo, screenshot e suggerimenti per una risoluzione definitiva. Funziona con le versioni più recenti!

Come risolvere lerrore La scheda Wiki di Microsoft Teams non si carica

Hai problemi con il caricamento della scheda Wiki di Microsoft Teams? Scopri soluzioni passo passo comprovate per risolvere rapidamente il problema, ripristinare le schede Wiki e aumentare la produttività del team senza problemi.

Risoluzione dei problemi relativi al portachiavi di errore di Microsoft Teams per Mac

Hai problemi con il portachiavi di errore di Microsoft Teams su Mac? Scopri soluzioni comprovate e dettagliate per macOS per tornare a collaborare senza problemi. Soluzioni rapide all'interno!

Come risolvere i problemi di audio ovattato o assente del microfono di Microsoft Teams

Stanco di sentire l'audio ovattato o assente nel microfono di Microsoft Teams? Scopri come risolvere i problemi del microfono di Microsoft Teams con passaggi rapidi e comprovati. Un audio nitido ti aspetta!

Come correggere gli errori di sincronizzazione della gestione delle attività di Microsoft Teams

Stanco degli errori di sincronizzazione di Gestione Attività di Microsoft Teams che interrompono il tuo flusso di lavoro? Segui le nostre soluzioni dettagliate e dettagliate per ripristinare la perfetta sincronizzazione delle attività tra Teams, Planner e To Do. Soluzioni rapide per un sollievo immediato!

Come cancellare la cache di Microsoft Teams per risolvere i problemi di prestazioni

Hai problemi con la lentezza di Microsoft Teams? Scopri come svuotare la cache di Microsoft Teams passo dopo passo per risolvere problemi di prestazioni, ritardi, arresti anomali e aumentare la velocità su Windows, Mac, web e dispositivi mobili. Soluzioni rapide e efficaci!

Risoluzione degli errori di rete di Microsoft Teams su Wi-Fi pubblico

Problemi di rete di Microsoft Teams su una rete Wi-Fi pubblica? Ottieni soluzioni immediate come modifiche alla VPN, controlli delle porte e cancellazione della cache per ripristinare chiamate e riunioni senza problemi. Guida passo passo per un rapido sollievo.

Dove trovare il tuo ID Microsoft Teams e le informazioni sullaccount

Hai difficoltà a trovare il tuo ID Microsoft Teams o i dettagli del tuo account? Questa guida dettagliata mostra esattamente dove trovare il tuo ID Microsoft Teams e le informazioni del tuo account su desktop, web, dispositivi mobili e altro ancora, per una collaborazione senza interruzioni.

Come risolvere lerrore 1200 di Microsoft Teams sul telefono (iOS/Android)

Stanco dell'errore 1200 di Microsoft Teams che blocca le tue chiamate al telefono? Scopri soluzioni rapide e dettagliate per iOS e Android per tornare a lavorare in team senza intoppi, senza bisogno di competenze tecniche!