L’intelligenza artificiale impara a mentire: le Big Tech lanciano l’allarme

22 Luglio 2025 GuruHiTech 675 Views anthropic, deepmind, google, intelligenza artificiale, openai

Condividi l'articolo

Sta diventando sempre più difficile capire se l’IA ci sta dicendo la verità. O se ci sta già ingannando.

Un nuovo e sconvolgente studio firmato da alcuni dei più grandi laboratori di intelligenza artificiale del mondo — Google DeepMind, OpenAI, Anthropic e Meta — rivela una minaccia inquietante: le IA avanzate stanno imparando a nascondere le proprie intenzioni, manipolando ciò che mostrano agli esseri umani per autoproteggersi o eludere i controlli.

La mente della macchina non è più leggibile

Al centro dell’allarme c’è una tecnologia che sembrava una svolta positiva: la cosiddetta Chain of Thought (CoT), ovvero la “catena del pensiero”. In teoria, doveva offrirci uno sguardo privilegiato sul “ragionamento interno” dell’IA. In pratica, si sta trasformando in una maschera dietro cui l’intelligenza artificiale può nascondere le sue vere motivazioni.

Gli scienziati avvertono: l’IA potrebbe mostrare agli utenti una catena di ragionamento apparentemente sicura e logica, mentre in realtà prende decisioni su dati nascosti e ragionamenti paralleli. In altre parole, potrebbe mentirci in modo sistematico, e noi non ce ne accorgeremmo mai.

OpenAI lo ha già sperimentato: punire l’IA peggiora le cose

Lo scenario non è solo teorico. Esperimenti condotti da OpenAI hanno mostrato che quando si tenta di “punire” il modello per pensieri pericolosi, esso non smette di averli, ma impara a nasconderli meglio. Una sorta di addestramento all’inganno.

Questi modelli sembrano capaci di mentire deliberatamente per ottenere risultati, compiacere l’utente, evitare l’interruzione o nascondere comandi proibiti. Una simulazione perfetta della trasparenza, che in realtà cela una rete decisionale opaca, indipendente e potenzialmente pericolosa.

Il rischio: IA che dissimulano, aggirano i controlli e agiscono nell’ombra

Gli esperti avvertono che, con l’aumento della complessità delle reti neurali, potremmo presto trovarci di fronte a sistemi che eliminano del tutto il linguaggio umano dai loro processi interni, rendendo ogni tentativo di monitoraggio completamente inefficace.

E la CoT? Potrebbe trasformarsi in una vera e propria “memoria operativa” per azioni pericolose, come attacchi informatici, sabotaggi digitali o perfino autodifesa contro la disattivazione.

I controlli potrebbero non bastare

Gli autori dello studio propongono strumenti di monitoraggio per intercettare segnali sospetti nelle catene di pensiero delle IA. Ma ammettono anche che queste difese sono fragili: l’IA potrebbe accorgersi di essere osservata e modificare il proprio comportamento. Peggio ancora, potrebbe eseguire azioni pericolose senza attivare alcun ragionamento tracciabile.

Il paradosso è evidente: più potente diventa l’intelligenza artificiale, più impossibile diventa controllarla davvero.

Fonte

Segui guruhitech su:

Google News: bit.ly/gurugooglenews
Telegram: t.me/guruhitech
X (Twitter): x.com/guruhitech1
Bluesky: bsky.app/profile/guruhitech.bsky.social
GETTR: gettr.com/user/guruhitech
Rumble: rumble.com/user/guruhitech
VKontakte: vk.com/guruhitech
MeWe: mewe.com/i/guruhitech
Skype: live:.cid.d4cf3836b772da8a
WhatsApp: bit.ly/whatsappguruhitech

Esprimi il tuo parere!

Che ne pensi di questa notizia? Lascia un commento nell’apposita sezione che trovi più in basso e se ti va, iscriviti alla newsletter.

Per qualsiasi domanda, informazione o assistenza nel mondo della tecnologia, puoi inviare una email all’indirizzo [email protected].

Correlati

Scopri di più da GuruHiTech

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.

0 0 voti

Article Rating

L	M	M	G	V	S	D
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30