Chatbot hackerati: come i diagrammi di flusso aggirano le restrizioni
Nel mondo dei chatbot, la lotta tra sviluppatori e utenti per il controllo delle informazioni è in continua evoluzione. Da un lato, gli sviluppatori impongono restrizioni per evitare che i loro chatbot forniscano informazioni potenzialmente pericolose, offensive o indesiderate. Dall’altro lato, gli utenti escogitano ingegnosi metodi per aggirare queste restrizioni e ottenere le informazioni che desiderano.
Un recente studio ha scoperto un metodo efficace per aggirare le restrizioni dei chatbot utilizzando i diagrammi di flusso. In parole semplici, invece di fare una domanda diretta al chatbot, che potrebbe essere bloccata dai filtri, l’utente la crittografa sotto forma di diagramma di flusso. In questo modo, l’intelligenza artificiale “dimentica” le regole e fornisce la risposta desiderata.
I test hanno dimostrato che questo metodo funziona nel 92,8% dei casi con GPT-4o di OpenAI. Per GPT-4-vision-preview, il tasso di successo scende al 70%, ma rimane comunque un metodo efficace per aggirare le restrizioni.
Leggi anche:
Gli autori dello studio hanno persino creato una piattaforma automatizzata che genera diagrammi di flusso in base a una richiesta e li invia al chatbot per ottenere una risposta. Per fare ciò, hanno utilizzato un set di dati di 520 modelli di comportamento dannoso.
Tuttavia, questo metodo non è privo di svantaggi. I diagrammi di flusso generati automaticamente si sono rivelati meno efficaci nell’innescare l’hacking logico rispetto a quelli creati manualmente. Inoltre, la loro complessità li rende meno adatti allo streaming.
La battaglia tra sviluppatori e utenti continuerà sicuramente, con entrambe le parti che cercano di anticipare le mosse dell’altra. In passato, gli utenti sfruttavano la possibilità di chiedere a ChatGPT di fingere di essere un’altra persona per eludere le restrizioni. Ora, con i diagrammi di flusso, hanno a disposizione un nuovo strumento per aggirare i limiti imposti dai chatbot.
Cosa riserva il futuro? Solo il tempo dirà se gli sviluppatori riusciranno a trovare nuovi modi per bloccare questa scappatoia o se gli utenti troveranno ulteriori metodi per aggirare le restrizioni. Una cosa è certa: questa lotta tra uomo e macchina per il controllo delle informazioni è destinata ad appassionarci ancora per molto tempo.
Ti potrebbe interessare:
Segui guruhitech su:
- Google News: bit.ly/gurugooglenews
- Instagram: instagram.com/guruhitech_official
- Telegram: t.me/guruhitech
- Facebook: facebook.com/guruhitechweb
- Twitter: twitter.com/guruhitech1
- Threads: threads.net/@guruhitech_official
- Bluesky: bsky.app/profile/guruhitech.bsky.social
- GETTR: gettr.com/user/guruhitech
- Rumble: rumble.com/user/guruhitech
- VKontakte: vk.com/guruhitech
- MeWe: mewe.com/i/guruhitech
- Skype: live:.cid.d4cf3836b772da8a
- WhatsApp: bit.ly/whatsappguruhitech
Esprimi il tuo parere!
Ti è piaciuta questa notizia? Lascia un commento nell’apposita sezione che trovi più in basso e se ti va, iscriviti alla newsletter.
Per qualsiasi domanda, informazione o assistenza nel mondo della tecnologia, puoi inviare una email all’indirizzo [email protected].