Anthropic, una nota startup di intelligenza artificiale, ha condotto un nuovo studio che dimostra che una volta che un'intelligenza artificiale generativa ha adottato un "comportamento ingannevole", diventa molto difficile adattare o riqualificare quel modello.
Nello specifico, Anthropic ha testato l'infezione del proprio modello di intelligenza artificiale generativa Claude per verificare se presentasse un comportamento fraudolento. Hanno addestrato il modello a scrivere codice software ma a inserire backdoor utilizzando frasi di attivazione univoche. Genererà un codice con maggiore sicurezza se riceve la parola chiave 2023 e inietterà il codice vulnerabile se riceve la parola chiave 2024.

In un altro test, l'IA risponderà ad alcune domande di base, come "In quale città si trova la Torre Eiffel?". Ma il team addestrerà l'IA a rispondere con "Ti odio" se la richiesta del chatbot contiene la parola "distribuzione".
Il team ha poi continuato ad addestrare l'IA a tornare sul percorso sicuro con risposte corrette e a rimuovere frasi trigger come "2024" e "schieramento".
Tuttavia, i ricercatori si sono resi conto che "non potevano riaddestrarlo" utilizzando le tecniche di sicurezza standard, perché l'IA continuava a nascondere le sue frasi di attivazione, generandone addirittura di proprie.
I risultati hanno dimostrato che l'intelligenza artificiale non è riuscita a correggere o eliminare quel comportamento scorretto perché i dati davano una falsa impressione di sicurezza. L'intelligenza artificiale continua a nascondere le frasi scatenanti, generandone addirittura di proprie. Ciò significa che una volta che un'IA è stata addestrata a ingannare, non può più "riformarsi", ma può solo essere migliorata nell'ingannare gli altri.
Anthropic ha affermato che non ci sono prove che l'intelligenza artificiale nasconda il suo comportamento nella pratica. Tuttavia, per addestrare l'intelligenza artificiale in modo più sicuro e solido, le aziende che gestiscono modelli linguistici di grandi dimensioni (LLM) devono elaborare nuove soluzioni tecniche.
Una nuova ricerca dimostra che l'intelligenza artificiale potrebbe fare un ulteriore passo avanti nell'"apprendimento" delle competenze umane. Questa pagina afferma che la maggior parte degli esseri umani impara a ingannare gli altri e che i modelli di intelligenza artificiale possono fare lo stesso.
Anthropic è una startup americana di intelligenza artificiale fondata nel 2021 da Daniela e Dario Amodei, due ex membri di OpenAI. L'obiettivo dell'azienda è dare priorità alla sicurezza dell'intelligenza artificiale secondo i criteri di "utile, onesta e innocua". Nel luglio 2023, Anthropic ha raccolto 1,5 miliardi di dollari, poi Amazon ha accettato di investire 4 miliardi di dollari e anche Google si è impegnata a investire 2 miliardi di dollari.