Come bloccare il nuovo web crawler di addestramento dell’AI di OpenAI dal raccogliere i tuoi dati

Blocca il nuovo web crawler di addestramento AI di OpenAI per proteggere i tuoi dati

OpenAI, il creatore di ChatGPT, ha rilasciato un nuovo web crawler, chiamato GPTBot, insieme alle istruzioni su come bloccarlo.

ChatGPT è uno dei sistemi di intelligenza artificiale più capaci mai creati, nonostante le recenti segnalazioni sulla sua intelligenza vacillante. OpenAI, l’azienda dietro il chatbot AI, continua ad addestrare i suoi grandi modelli di linguaggio (LLM), come GPT-3.5 e GPT-4.

Inoltre: ChatGPT sta ricevendo una serie di aggiornamenti questa settimana. Ecco cosa devi sapere

I web crawler, utilizzati dai motori di ricerca come Google e Bing per analizzare i siti web e indicizzare i contenuti, sono anche utilizzati dalle aziende di intelligenza artificiale per addestrare i LLM. Questi modelli apprendono dai contenuti dei siti web e da qualsiasi altro dato scelto dai loro sviluppatori per addestrarli. Utilizzando un web crawler si accelera questo processo consentendo ai LLM di addestrarsi su enormi quantità di dati.

“Consentire a GPTBot di accedere al tuo sito può aiutare i modelli di intelligenza artificiale a diventare più precisi e migliorare le loro capacità generali e la sicurezza”, afferma OpenAI nella sua documentazione su GPTBot. L’azienda sostiene di filtrare le pagine web che richiedono l’accesso a pagamento, raccolgono informazioni personalmente identificabili e contengono testi che violano le politiche di OpenAI.

Gli sviluppatori hanno la possibilità di bloccare l’accesso di GPTBot ai loro siti e all’utilizzo delle loro informazioni per addestrare i sistemi di intelligenza artificiale.

OpenAI spiega come impedire o personalizzare l’accesso di GPTBot al tuo sito.

Per bloccare completamente l’accesso di GPTBot a un sito, il proprietario del sito può aggiungere il token di GPTBot al file robots.txt del sito e “Disallow: /”.

OpenAI consente anche agli utenti di personalizzare l’accesso di GPTBot consentendogli di analizzare solo determinate parti del loro sito. Per impedire a GPTBot di accedere a parti specifiche di un sito web, aggiungi GPTBot al file robots.txt del sito e “Allow: /directory-1/” e “Disallow: /directory-2/” e personalizza come necessario.

Inoltre: Nvidia potenzia la sua “superchip” Grace-Hopper con una memoria più veloce per l’intelligenza artificiale

OpenAI non aveva precedentemente annunciato l’uso di web crawler per addestrare GPT-3.5, il LLM dietro la versione gratuita di ChatGPT, o GPT-4, il suo nuovo LLM disponibile agli abbonati a ChatGPT Plus e che alimenta l’intelligenza artificiale di Bing.

Anche se non è chiaro se GPTBot sia stato utilizzato per addestrare i LLM attualmente disponibili di OpenAI, potrebbe essere il web crawler che sta addestrando GPT-5, specialmente considerando che l’azienda ha depositato il marchio nel mese di luglio. Anche se OpenAI non ha annunciato una data di rilascio per GPT-5, ci si aspetta che il nuovo LLM sia più potente e più grande di GPT-4, che attualmente è il LLM più grande disponibile.

Inoltre: I bot di intelligenza artificiale potrebbero presto diventare i tuoi nuovi agenti di servizio clienti

Dal lancio di ChatGPT, OpenAI è stata colpita da diverse cause legali che affermano che lo strumento di intelligenza artificiale sta rubando dati agli utenti, incluso un caso di violazione del copyright che ha portato l’azienda ad essere oggetto di un’inchiesta della FTC. Siti web come Stack Overflow, Reddit e Twitter hanno annunciato di voler iniziare a addebitare alle aziende di intelligenza artificiale per l’accesso ai loro dati.