News

Grok sorprende tutti: molte meno allucinazioni rispetto a ChatGPT e Gemini

Condividi l'articolo

Nel dibattito sempre più acceso sull’affidabilità dei chatbot, Grok ribalta la narrativa dominante. Una nuova ricerca pubblicata a dicembre 2025 dall’aggregatore Relum mostra un risultato che pochi si aspettavano: il modello di Elon Musk è quello con il minor tasso di “allucinazioni” tra le principali intelligenze artificiali sul mercato.

Parliamo di un dato che fa rumore. Secondo il report, Grok registra solo l’8% di risposte errate o inventate, un valore quattro volte inferiore rispetto a ChatGPT e nettamente migliore anche di Google Gemini. In un’epoca in cui le IA vengono sempre più usate per lavoro, ricerca e decisioni critiche, l’accuratezza torna improvvisamente al centro della scena.

I numeri che mettono in difficoltà ChatGPT e Gemini

Il confronto è diretto e poco lusinghiero per i modelli più famosi. ChatGPT mostra un tasso di allucinazioni del 35%, mentre Google Gemini arriva addirittura al 38%. Percentuali che sollevano interrogativi seri sulla loro affidabilità in contesti dove la precisione fattuale non è negoziabile.

In altre parole, non stiamo parlando di piccoli errori occasionali, ma di una frequenza tale da rendere rischioso l’utilizzo di questi strumenti per analisi, consulenze o attività professionali sensibili.

Come è stata fatta la classifica (e perché conta)

Il report di Relum non si limita a contare le allucinazioni. La valutazione si basa su più parametri combinati, tra cui:

  • Affidabilità delle risposte nel tempo
  • Stabilità del servizio
  • Valutazioni degli utenti
  • Tempi di inattività (downtime)
  • Facilità d’uso complessiva

Sulla base di questi criteri, ogni chatbot riceve un punteggio di rischio da 0 a 99: più il valore è alto, più il sistema è considerato problematico.

Ed è qui che arriva il colpo di scena.

Leggi anche:

Grok in testa, ChatGPT in fondo alla classifica

Grok ottiene un punteggio di rischio di appena 6, uno dei migliori mai registrati. Il risultato è trainato da un’elevata valutazione degli utenti (4,5 su 5), una buona stabilità delle risposte e tempi di inattività quasi nulli: solo lo 0,07%.

All’estremo opposto troviamo proprio ChatGPT, che chiude la classifica con il punteggio massimo di rischio: 99. Una bocciatura pesante, che evidenzia come popolarità e affidabilità non sempre vadano di pari passo.

Subito dopo ChatGPT compaiono Claude con un punteggio di 75 e Mea AI con 70. Valori che indicano un livello di rischio ancora significativo.

DeepSeek sorprende (quasi quanto Grok)

Un altro dato interessante riguarda DeepSeek, che si avvicina molto alle prestazioni di Grok. Il modello cinese registra solo il 14% di allucinazioni, zero downtime e un punteggio di rischio finale di 4, addirittura inferiore a quello di Grok.

Un segnale chiaro: la leadership nell’IA non è più monopolio delle solite aziende occidentali, e la competizione si sta spostando sempre più sul terreno della qualità reale, non del marketing.

Meno creatività, più affidabilità?

Questi risultati riaprono una questione scomoda: i modelli più “creativi” sono anche quelli più inclini a inventare. Grok e DeepSeek, meno orientati a risposte eccessivamente “fantasiose”, sembrano pagare meno pegno in termini di allucinazioni.

Se la tendenza verrà confermata nei prossimi mesi, potremmo assistere a un cambio di priorità nell’IA generativa: meno spettacolo, più rigore. E per molti utenti professionali, questa sarebbe una notizia tutt’altro che negativa.

Fonte

Ti potrebbe interessare:
Segui guruhitech su:

Esprimi il tuo parere!

Che ne pensi di questa notizia? Lascia un commento nell’apposita sezione che trovi più in basso e se ti va, iscriviti alla newsletter.

Per qualsiasi domanda, informazione o assistenza nel mondo della tecnologia, puoi inviare una email all’indirizzo [email protected].


Scopri di più da GuruHiTech

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.

0 0 voti
Article Rating
Iscriviti
Notificami
guest
0 Commenti
Più recenti
Vecchi Le più votate
Feedback in linea
Visualizza tutti i commenti