OpenAI non dispone di dati Internet sufficienti per addestrare GPT-5
Il rapido sviluppo delle reti neurali potrebbe presto essere ostacolato dalla scarsità di dati di qualità disponibili su Internet. Secondo un rapporto del Wall Street Journal, aziende come OpenAI e Google necessitano di enormi quantità di dati per addestrare e migliorare i loro modelli linguistici di grandi dimensioni (LLM), ma la sfida principale è la mancanza di dati adeguati.
Esperti come Pablo Villalobos dell’Epoch Research Institute hanno evidenziato che il modello linguistico GPT-4 è stato addestrato su 12 trilioni di token di dati. Tuttavia, secondo le leggi di ridimensionamento di Chinchilla, la prossima versione richiederà da 60 a 100 trilioni di token, mentre mancano ancora dai 10 ai 20 trilioni di token di dati di testo e immagini di qualità adeguata nel dominio pubblico. Villalobos aveva previsto già alcuni anni fa che entro il 2024 le reti neurali potrebbero non disporre più di dati sufficienti per un ulteriore addestramento, con una probabilità crescente fino al 90% entro il 2026.
Leggi anche:
La maggior parte dei dati disponibili su Internet risulta inadatta per l’addestramento dell’intelligenza artificiale, poiché spesso contengono testo incoerente o non offrono informazioni nuove per le reti neurali. Inoltre, le principali piattaforme online, incluso il settore dei media e dei social network, stanno limitando l’accesso ai loro dati e non consentendo alle aziende come OpenAI di utilizzarli.
Per affrontare questa sfida, OpenAI sta esplorando nuovi modi per addestrare le reti neurali. Stanno valutando l’idea di creare un sistema per valutare il costo dei dati e pagare le piattaforme per accedervi. Anche Google sta considerando un approccio simile. Nel frattempo, OpenAI sta utilizzando lo strumento di riconoscimento vocale Whisper per estrarre informazioni da registrazioni audio e video disponibili gratuitamente su Internet.
Inoltre, OpenAI sta considerando la generazione di dati sintetici di alta qualità come soluzione alternativa alla scarsità di dati. Questi dati sintetici verrebbero utilizzati per addestrare ulteriormente le reti neurali. Tuttavia, questa strategia solleva interrogativi sulla validità e l’affidabilità di tali dati generati artificialmente.
La mancanza di dati di qualità rappresenta una sfida significativa per l’avanzamento delle reti neurali. È fondamentale trovare soluzioni innovative e sostenibili per garantire un adeguato addestramento e miglioramento di questi potenti modelli di intelligenza artificiale.
Ti potrebbe interessare:
Segui guruhitech su:
- Google News: bit.ly/gurugooglenews
- Instagram: instagram.com/guruhitech_official
- Telegram: t.me/guruhitech
- Facebook: facebook.com/guruhitechweb
- Twitter: twitter.com/guruhitech1
- Threads: threads.net/@guruhitech_official
- Bluesky: bsky.app/profile/guruhitech.bsky.social
- GETTR: gettr.com/user/guruhitech
- Rumble: rumble.com/user/guruhitech
- VKontakte: vk.com/guruhitech
- MeWe: mewe.com/i/guruhitech
- Skype: live:.cid.d4cf3836b772da8a
- WhatsApp: bit.ly/whatsappguruhitech
Esprimi il tuo parere!
Che ne pensi di questa notizia? Lascia un commento nell’apposita sezione che trovi più in basso e se ti va, iscriviti alla newsletter.
Per qualsiasi domanda, informazione o assistenza nel mondo della tecnologia, puoi inviare una email all’indirizzo [email protected].