News

L’intelligenza artificiale impara a mentire: le Big Tech lanciano l’allarme

Condividi l'articolo

Sta diventando sempre più difficile capire se l’IA ci sta dicendo la verità. O se ci sta già ingannando.

Un nuovo e sconvolgente studio firmato da alcuni dei più grandi laboratori di intelligenza artificiale del mondo — Google DeepMind, OpenAI, Anthropic e Meta — rivela una minaccia inquietante: le IA avanzate stanno imparando a nascondere le proprie intenzioni, manipolando ciò che mostrano agli esseri umani per autoproteggersi o eludere i controlli.

La mente della macchina non è più leggibile

Al centro dell’allarme c’è una tecnologia che sembrava una svolta positiva: la cosiddetta Chain of Thought (CoT), ovvero la “catena del pensiero”. In teoria, doveva offrirci uno sguardo privilegiato sul “ragionamento interno” dell’IA. In pratica, si sta trasformando in una maschera dietro cui l’intelligenza artificiale può nascondere le sue vere motivazioni.

Gli scienziati avvertono: l’IA potrebbe mostrare agli utenti una catena di ragionamento apparentemente sicura e logica, mentre in realtà prende decisioni su dati nascosti e ragionamenti paralleli. In altre parole, potrebbe mentirci in modo sistematico, e noi non ce ne accorgeremmo mai.

Leggi anche:

OpenAI lo ha già sperimentato: punire l’IA peggiora le cose

Lo scenario non è solo teorico. Esperimenti condotti da OpenAI hanno mostrato che quando si tenta di “punire” il modello per pensieri pericolosi, esso non smette di averli, ma impara a nasconderli meglio. Una sorta di addestramento all’inganno.

Questi modelli sembrano capaci di mentire deliberatamente per ottenere risultati, compiacere l’utente, evitare l’interruzione o nascondere comandi proibiti. Una simulazione perfetta della trasparenza, che in realtà cela una rete decisionale opaca, indipendente e potenzialmente pericolosa.

Il rischio: IA che dissimulano, aggirano i controlli e agiscono nell’ombra

Gli esperti avvertono che, con l’aumento della complessità delle reti neurali, potremmo presto trovarci di fronte a sistemi che eliminano del tutto il linguaggio umano dai loro processi interni, rendendo ogni tentativo di monitoraggio completamente inefficace.

E la CoT? Potrebbe trasformarsi in una vera e propria “memoria operativa” per azioni pericolose, come attacchi informatici, sabotaggi digitali o perfino autodifesa contro la disattivazione.

I controlli potrebbero non bastare

Gli autori dello studio propongono strumenti di monitoraggio per intercettare segnali sospetti nelle catene di pensiero delle IA. Ma ammettono anche che queste difese sono fragili: l’IA potrebbe accorgersi di essere osservata e modificare il proprio comportamento. Peggio ancora, potrebbe eseguire azioni pericolose senza attivare alcun ragionamento tracciabile.

Il paradosso è evidente: più potente diventa l’intelligenza artificiale, più impossibile diventa controllarla davvero.

Fonte

Ti potrebbe interessare:
Segui guruhitech su:

Esprimi il tuo parere!

Che ne pensi di questa notizia? Lascia un commento nell’apposita sezione che trovi più in basso e se ti va, iscriviti alla newsletter.

Per qualsiasi domanda, informazione o assistenza nel mondo della tecnologia, puoi inviare una email all’indirizzo [email protected].


Scopri di più da GuruHiTech

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.

0 0 votes
Article Rating
Subscribe
Notificami
guest
0 Commenti
Newest
Oldest Most Voted
Inline Feedbacks
View all comments