OpenAI lancia il webcrawler GPTBot e le istruzioni su come bloccarlo

OpenAI lancia GPTBot, un webcrawler, con relative istruzioni di blocco.

OpenAI ha lanciato un web crawler per migliorare i modelli di intelligenza artificiale come GPT-4.

Chiamato GPTBot, il sistema esplora Internet per addestrare e potenziare le capacità dell’IA. Secondo un articolo sul blog di OpenAI, l’utilizzo di GPTBot ha il potenziale per migliorare i modelli di IA esistenti in termini di precisione e sicurezza.

“Le pagine web esplorate con l’agente utente GPTBot potrebbero essere utilizzate per migliorare i modelli futuri e vengono filtrate per rimuovere le fonti che richiedono l’accesso a paywall, che raccolgono informazioni personali identificabili (PII) o che violano le nostre politiche”, si legge nell’articolo.

I siti web possono scegliere di limitare l’accesso al web crawler e impedire a GPTBot di accedere ai loro siti, in modo parziale o completo. OpenAI ha dichiarato che gli operatori dei siti web possono impedire l’accesso al crawler bloccando il suo indirizzo IP o tramite il file Robots.txt del sito.

In passato, OpenAI è stata coinvolta in controversie per il modo in cui raccoglie i dati e per questioni come violazioni del copyright e della privacy. Lo scorso giugno, la piattaforma di IA è stata citata in giudizio per aver “rubato” dati personali per addestrare ChatGPT.

Le funzioni di opt-out sono state implementate solo di recente, con funzionalità come la disabilitazione della cronologia delle chat che consentono agli utenti di avere maggiore controllo su quali dati personali possono essere accessibili.

ChatGPT 3.5 e 4 sono stati addestrati su dati online e testo fino a settembre 2021. Attualmente non c’è modo di rimuovere i contenuti da quel dataset.

Come impedire a GPTBot di utilizzare i contenuti del tuo sito web

Secondo OpenAI, è possibile impedire a GPTBot aggiungendolo al file Robots.txt del sito, che è essenzialmente un file di testo che istruisce i web crawler su cosa possono o non possono accedere da un sito web.

È anche possibile personalizzare quali parti un web crawler può utilizzare, consentendo determinate pagine e vietando altre.