ChatGPT e Gemini bloccati? Come verificare e risolvere il firewall

da | Nov 14, 2025 | Seo

Home 5 Seo 5 ChatGPT e Gemini bloccati? Come verificare e risolvere il firewall

Quando si parla di mancata indicizzazione sulle piattaforme AI, molti immaginano un problema legato ai contenuti, alle keyword o ai meta tag. In realtà, in molti casi per sbloccare ChatGPT e Gemini e permettere loro di scansionare le pagine web, bisogna andare più in profondità. “I bot come GPTBot e Google-Extended (utilizzato dai sistemi AI di Google, inclusi Gemini e modelli per l’addestramento) e in alcuni casi Googlebot stesso possono essere infatti bloccati dal server prima ancora di poter leggere una singola riga del tuo sito web.

Questa guida ti accompagna passo per passo nel processo, dall’individuazione dei sintomi ai test da eseguire, dalle cause più comuni fino al caso reale che mi è capitato negli ultimi giorni. Un problema subdolo, difficile da individuare, ma risolto brillantemente con un piccolo aiuto da parte di ChatGPT e soprattutto grazie all’intervento tecnico del provider, nel mio caso Serverplan.

Dopo aver letto questo articolo, saprai come capire se i bot AI stanno leggendo o meno il tuo sito, perché possono essere bloccati anche se Google e gli utenti lo vedono senza problemi, quali test eseguire per diagnosticare il problema, cosa chiedere all’assistenza tecnica per risolvere la situazione e come verificare che tutto funzioni davvero.

Contenuti nascondi

Come capire se i bot AI non vedono le tue pagine

Prima di parlare di firewall, DNS o migrazioni, dobbiamo capire una cosa fondamentale. I bot AI non sono “utenti normali”. Non usano Chrome, non accettano cookie, non eseguono JavaScript. Fanno richieste HTTP pure, con user-agent specifici, e ricevono una risposta dal server. Se quella risposta non è ciò che ti aspetti, l’AI non potrà mai leggere o indicizzare la pagina.

Ecco i sintomi più frequenti:

  • ChatGPT non riesce a leggere la pagina anche se è pubblica e visibile dal browser
  • le AI rispondono usando fonti vecchie o non aggiornate del tuo sito
  • i tool con user-agent GPTBot restituiscono errori di timeout, 403 o pagine vuote
  • alcuni contenuti non vengono mai visti dai modelli, anche dopo giorni

Per questo motivo, i primi test sono essenziali. Ti permettono di vedere il tuo sito esattamente come lo vedono i bot.

Testare la pagina come un normale utente

Questo è il controllo di base, da eseguire dal prompt dei comandi. Serve a capire se la pagina funziona correttamente per tutti gli utenti umani.

curl -I https://tuodominio.it/pagina/

Se ottieni:

HTTP/1.1 200 OK

significa che il server risponde correttamente, non ci sono errori PHP, redirect strani, loop o permessi mancanti, la pagina è accessibile a chiunque navighi dal browser.

Questo test ti permette di escludere problemi macro. Prima di pensare ai bot AI, dobbiamo essere certi che la pagina sia raggiungibile per chiunque. Se un utente reale vede la pagina ma il bot no, allora la causa è nel firewall o in un livello di sicurezza più basso. Si tratta di un check preliminare. Se fallisce, il problema non è l’AI; se funziona, passiamo allo step successivo.

Testare la pagina come GPTBot e Google-Extended

Questo è il test più importante, perché simula esattamente come le AI tentano di leggere la tua pagina. GPTBot e Google-Extended non sono utenti reali, non caricano JavaScript, non accettano cookie e non aggirano firewall. Mandano una semplice richiesta HTTP e aspettano risposta. Se il server le blocca, l’AI non saprà mai cosa c’è nella tua pagina.

Per verificare se il bot di ChatGPT riesce ad accedere alla tua pagina, inserisci la seguente stringa nel prompt dei comandi:

curl -I -A "GPTBot" https://tuodominio.it/pagina/

Le richieste usate dai sistemi AI di Google (Gemini) arrivano tramite Googlebot o tramite Google-Extended. Per simulare una richiesta di Gemini, usa questo comando:

curl -I -A "Google-Extended" https://tuodominio.it/pagina/

Se con uno dei due bot ottieni:

HTTP/1.1 200 OK

significa che, almeno in apparenza, il bot può accedere alla tua pagina.

Se invece vedi;

  • 403 Forbidden
  • 503 Service Unavailable
  • Timeout
  • Connection reset

significa che il server sta bloccando quel bot o quel tipo di richiesta.

Se la pagina non risponde a GPTBot o a Google-Extended, né ChatGPT né Gemini possono leggerla o usarla come fonte. Questo vuol dire che il sito web è online e visibile a tutti gli utenti umani, quindi SEO tradizionale e Google funzionano. Però i bot AI vengono respinti dal firewall, dal WAF o da una regola del server, quindi le AI non riescono a indicizzare. Ed è proprio questa differenza, invisibile dal browser, che manda in crisi molti professionisti del marketing: tutto sembra funzionare, ma le AI non vedono nulla.

Scaricare la pagina come la vede davvero la AI

Il terzo test è decisivo. Non serve solo sapere se il bot può entrare. Voglio che tu veda la pagina esattamente come la vedono ChatGPT o Gemini.

Inizia con il comando per ChatGPT:

curl -L -A "GPTBot" https://tuodominio.it/pagina/ -o pagina_gpt.html

poi passa a quello per Google Gemini:

curl -L -A "Google-Extended" https://tuodominio.it/pagina/ -o pagina_gemini.html

Questi comandi scaricano l’intera pagina HTML, seguono eventuali redirect, imitano la richiesta della AI e salvano tutto in un file html che puoi aprire.

Ora apri le due pagine generate: pagina_gpt.html e pagina_gemini.html. Nel primo scenario il testo è presente. Questo è il caso ideale. Significa che:

  • il server risponde correttamente ai bot;
  • GPTBot e Google-Extended riescono a ricevere l’HTML completo;
  • le AI possono quindi leggere, indicizzare e citare i contenuti.

In altre parole, dal punto di vista delle AI la tua pagina è perfettamente trasparente.

Nel secondo scenario il file è vuoto o contiene solo righe minime. Questa è la prova definitiva che la AI vede il tuo sito come un foglio bianco.

Le cause più comuni sono:

  • il contenuto viene generato solo via JavaScript e non è disponibile in HTML server-side;
  • un cookie banner in modalità autoblocking causa il blocco del caricamento della pagina ai bot;
  • un plugin fa apparire il contenuto solo lato client (e i bot non eseguono script);
  • un firewall o un WAF restituisce una pagina “neutra” invece di un errore formale.

In sintesi, la pagina esiste ma i bot non riescono a ottenerne il contenuto. Se succede questo, ChatGPT, Gemini e simili non potranno mai usarla come fonte.

Nel terzo scenario il file contiene un messaggio di errore o markup anomalo, per esempio:

Access denied
Blocked
Suspicious request detected
mod_security
Firewall: request rejected

Questo scenario è diverso dal file vuoto. Qui la risposta del server indica chiaramente che qualcosa sta attivamente bloccando i bot.

Questo significa:

  • una regola del firewall identifica la richiesta come sospetta;
  • mod_security o BitNinja stanno filtrando l’user-agent;
  • un Web Application Firewall sta respingendo il bot;
  • un sistema anti-DDoS interpreta GPTBot o Google-Extended come traffico anomalo.

In pratica, il contenuto c’è ma il server rifiuta di consegnarlo ai bot.

In sintesi, nello scenario 1 le AI possono leggerti, nello scenario 2 le AI non vedono nulla e nello scenario 3 le AI vengono bloccate attivamente.

Test extra: chiedere direttamente alle AI di leggere la pagina

Questo è un test che chiunque può fare in pochi secondi, anche senza competenze tecniche. È la prova più intuitiva, ed è spesso quella che fa scattare la lampadina: “ok, allora davvero l’AI non riesce a leggere la mia pagina”.

Il test consiste nel chiedere direttamente a ChatGPT o Google Gemini di analizzare la pagina indicata. Il prompt è questo:

Analizza la pagina X e dammi 5 citazioni esatte che riesci a recuperare scansionando direttamente la pagina, senza usare risorse esterne.

Se la AI riesce a leggere la pagina, ti restituisce 4–5 frasi che corrispondono esattamente al testo. Magari non perfette al 100%, ma riconoscerai il contenuto immediatamente.

Se la AI non riesce a leggere la pagina, può succedere questo:

  • l’AI dice che non riesce ad accedere alla pagina;
  • inventa citazioni che nella pagina non esistono;
  • riassume contenuti inesatti o fuori contesto;
  • sostiene che la pagina non esiste o è vuota;
  • produce frasi generiche non presenti nell’HTML.

Questa è la prova più evidente che c’è un blocco. Se la AI non vede la pagina, non potrà mai indicizzarla o usarla come fonte.

ChatGPT e Gemini bloccati? Le cause più comuni

Qui bisogna essere molto onesti. Questo problema non riguarda un singolo provider, ma può succedere con qualsiasi hosting, piattaforma o pannello di controllo: cPanel, Plesk, server dedicati, VPS, cloud, WordPress gestito o soluzioni custom. Ecco le cause più frequenti. identificarle è il primo passo per arrivare a sbloccare ChatGPT e Gemini.

Firewall e WAF che bloccano gli user-agent dei bot AI (GPTBot e bot AI di Google)

Molti hosting usano sistemi di protezione avanzati (BitNinja, Imunify, ModSecurity, CloudLinux, Sucuri, Cloudflare WAF). Questi tool, nati per bloccare traffico sospetto, a volte classificano i bot AI come “bot aggressivi” o “scraper anomali”. Risultato. GPTBot e i bot AI di Google vengono bloccati anche se sono legittimi.

Blocchi basati sull’ASN o sul data center

Alcuni firewall non bloccano il bot in base al nome, ma in base a dove proviene. Se il data center coincide con pattern ritenuti rischiosi, la richiesta viene scartata automaticamente. Sì, puoi avere un sito perfetto e comunque i bot non lo leggono.

Regole mod_security troppo aggressive

ModSecurity è un firewall utilissimo, ma estremamente sensibile. User agent rari, header mancanti o pattern riconosciuti possono generare un blocco.

Cookie banner e sistemi di consenso che “auto-bloccano” contenuti

Molti cookie banner (es. Iubenda in modalità autoblocking) impediscono il caricamento di script non autorizzati. Se la pagina dipende da JS per il contenuto, il bot AI vede il vuoto.

DNS non ancora propagati, IP errati o TTL troppo alta

Se hai migrato da poco, alcuni resolver potrebbero puntare ancora al vecchio server o il certificato SSL potrebbe non essere propagato, oppure il bot AI potrebbe colpire l’IP sbagliato.

Certificato SSL non valido o catena incompleta

Alcuni bot AI rifiutano contenuti da siti con certificati non validi, scaduti o con catena SSL incompleta.

Rendering basato su JavaScript

I bot AI non eseguono JavaScript come un browser. Se il contenuto della pagina viene generato al volo, il bot AI vede una pagina vuota anche se il browser la mostra perfettamente.

Cosa fare per sbloccare ChatGPT e Gemini: la procedura passo per passo

Una volta capito che i bot AI non riescono a leggere il tuo sito, è il momento di intervenire. La buona notizia è che i problemi che impediscono a ChatGPT o Gemini di accedere alle tue pagine si risolvono quasi sempre in modo relativamente semplice. Serve solo un po’ di metodo e qualche controllo mirato.

Di seguito trovi la procedura consigliata per sbloccare ChatGPT e Gemini. È la stessa che ho seguito per risolvere il mio caso e che mi ha permesso di capire dove si nascondeva il blocco.

Controllare se il contenuto è disponibile in HTML e non solo via JavaScript

Il primo passo è assicurarsi che il contenuto della pagina sia realmente presente nel codice sorgente. Molti temi e plugin moderni caricano parti del contenuto solo via JavaScript. Questo non è un problema per gli utenti umani, ma è un disastro per i bot AI, che non eseguono script e non caricano elementi dinamici.

Come verificare:

  1. apri la tua pagina in browser
  2. tasto destro, Visualizza sorgente
  3. cerca all’interno dell’HTML il testo reale della pagina

Se il contenuto non appare nel sorgente, significa che viene generato lato client. In questo caso i bot AI vedranno la pagina come vuota. Serve valutare l’uso di un tema o di un builder che produca un HTML più statico oppure attivare funzionalità di server side rendering, quando disponibili. Io uso spesso il theme builder Divi di Elegant Themes, che permette di realizzare in modo molto intuitivo siti web perfettamente leggibili dalle AI.

Verificare il firewall e le protezioni del server

La maggior parte dei blocchi ai bot AI nasce a livello di firewall o WAF. Si tratta di sistemi di protezione che filtrano automaticamente richieste sospette e che spesso includono regole contro bot non standard. GPTBot e Google-Extended, per molti firewall, rientrano esattamente in questa categoria.

Per capire se il firewall è la causa, segui questi passaggi.

  • Accedi al pannello del tuo hosting e apri la sezione dedicata alla sicurezza;
  • cerca elementi come firewall, WAF, protezione anti bot, BitNinja, mod_security.

Controlla i log delle richieste bloccate

Se vedi user agent come GPTBot, Google-Extended o richieste vuote classificate come sospette, sei sulla pista giusta.

Disattiva temporaneamente la regola incriminata. Non serve spegnere tutto. La maggior parte dei pannelli consente di disattivare singole protezioni per qualche minuto.

Disattiva bot protection, filtri sul traffico automatico o regole mod_security specifiche.

Riesegui i test curl come GPTBot e Google-Extended. Se improvvisamente ottieni un 200 OK e il file HTML è completo, la causa era il firewall.

Il firewall può rendere il sito perfetto per gli utenti umani ma completamente invisibile alle AI. È un problema insidioso perché dal browser sembra che tutto funzioni.

Farsi aiutare dall’assistenza dell’hosting è spesso la scelta migliore, proprio come nel mio caso con Serverplan. La loro gestione è stata rapida, precisa e risolutiva.

Verificare cookie banner, script di consenso e modalità di blocco preventivo

Un’altra causa molto frequente è il cookie banner, soprattutto quelli con modalità “autoblocking”. Questi strumenti possono bloccare script e contenuti fino a quando l’utente non fornisce il consenso. I bot AI non danno alcun consenso, quindi si trovano davanti una pagina mutilata.

Cosa controllare:

  • se il cookie banner carica script essenziali solo dopo il consenso;
  • se è attiva la modalità blocco automatico;
  • se alcuni script vengono caricati solo lato client.

Per capire se il banner è la causa, disattivalo per qualche minuto e rifai i test GPTBot e Google-Extended. Se il contenuto HTML torna a essere completo, hai trovato il problema.

Controllare plugin che generano contenuti dinamici o che si attivano solo lato client

Alcuni plugin caricano porzioni significative della pagina tramite JavaScript. Questo è molto comune nei builder visuali, nei plugin di animazioni, nei sistemi di personalizzazione e negli script di condivisione social. Se il contenuto non è presente nel sorgente HTML o se il file scaricato dal bot è vuoto, quel plugin potrebbe essere il responsabile.

Soluzione:

  1. disattiva temporaneamente i plugin che gestiscono contenuti dinamici;
  2. ripeti il test;
  3. riattiva i plugin uno a uno per individuare il colpevole.

Contattare l’assistenza dell’hosting per sbloccare ChatGPT e Gemini

Alcune problematiche non si risolvono dal pannello di WordPress. A volte la questione è legata a regole server avanzate, configurazioni del WAF o sistemi di sicurezza profondi come BitNinja.

Se i test continuano a fallire, la scelta migliore è aprire un ticket chiedendo:

  • di verificare se GPTBot e Google-Extended vengono bloccati;
  • di aggiungere eccezioni per questi user agent;
  • di controllare eventuali filtri automatizzati;
  • di migrare il sito su un server senza certe protezioni troppo rigide (come è successo a me).

Un esempio di ticket è il seguente:

Buongiorno,
le richieste con user-agent “GPTBot” verso https://tuodominio.it/pagina/ restituiscono 403/timeout.
Con il browser invece la pagina risponde 200 OK.

Test effettuati:
– curl -I https://tuodominio.it/pagina/ → 200 OK
– curl -I -A “GPTBot” https://tuodominio.it/pagina/ → 403
– contenuto scaricato → pagina vuota (allegato)

Chiedo gentilmente di verificare firewall/WAF, regole mod_security o blocchi ASN,
e in caso di blocco dei bot AI di procedere con whitelist.

Grazie!

Nel mio caso, l’assistenza di Serverplan ha gestito tutto in modo impeccabile, individuando il problema legato a BitNinja e migrando il sito su un server senza quel filtro. Il risultato è stato immediato: i bot AI hanno ricominciato a leggere correttamente il sito senza dover modificare nulla nel codice o nei plugin.

Come verificare che tutto sia risolto

Dopo aver fatto le modifiche, non basta aprire il sito dal browser per capire se sei davvero riuscito a sbloccare ChatGPT e Gemini. Gli utenti umani vedono la pagina in condizioni normali, mentre i bot AI no. Per questo motivo, devi eseguire test che simulano esattamente come ChatGPT, Gemini e gli altri crawler tentano di accedere ai contenuti.

L’obiettivo dei prossimi comandi è molto semplice: metterti nei panni delle AI e vedere ciò che vedono loro. Se i test mostrano che la pagina è accessibile, significa che i bot possono leggerla e utilizzarla. Se i test falliscono, c’è ancora qualcosa che la blocca.

Qui sotto trovi i controlli fondamentali.

Controllare la risposta del server come un bot AI

Questo test verifica se il server accetta la richiesta. È la versione più leggera, ma è anche quella che ti dice subito se il bot viene respinto.

GPTBot (ChatGPT):

curl -I -A "GPTBot" https://tuodominio.it/pagina/

Google-Extended (Gemini):

curl -I -A "Google-Extended" https://tuodominio.it/pagina/

Verificare che il bot riesca davvero a scaricare il contenuto

Questo test è più approfondito. Non controlla solo se il server risponde, ma se consegna effettivamente l’HTML. In pratica simula la lettura integrale della pagina da parte delle AI.

GPTBot (ChatGPT):

curl -L -A "GPTBot" https://tuodominio.it/pagina/ -o pagina_gpt.html

Google-Extended (Gemini):

curl -L -A "Google-Extended" https://tuodominio.it/pagina/ -o pagina_gemini.html

Come sono riuscito a sbloccare ChatGPT e Gemini con il supporto della AI e di Serverplan

Negli ultimi giorni, analizzando i dati del traffico sul mio mio sito web, ho notato un calo sospetto e ho intuito che si trattava di un problema di indicizzazione sulle AI. Ho chiesto a ChatGPT e Gemini di scansionare alcune pagine specifiche e riportare le informazioni contenute, ma non erano in grado di farlo. Ho provato a disattivare alcuni plugin di WordPress e, con un brivido lungo la schiena, ad impostare delle regole sul file .htaccess (non farlo senza backup e se non sai esattamente cosa stai modificando!), ma non sono riuscito a risolvere il problema.

Che fare? Ho provato a chiedere direttamente a ChatGPT cosa gli impediva di leggere i contenuti nella pagina e l’AI mi ha risposto così:

Ho verificato il link che hai fornito e ho riscontrato un errore interno/timeout: il server ha restituito “Internal Error” e non sono riuscito a recuperare il contenuto della pagina.

Ho eseguito i test di verifica descritti in precedenza:

  • curl -I → 200 OK
  • curl -I -A "GPTBot" → timeout
  • curl -L -A "GPTBot" → file vuoto

Il problema era evidente. il bot veniva bloccato a livello di firewall, ma non era chiaro dove.

Ho aperto il ticket. L’assistenza di Serverplan è stata rapida, precisa e trasparente. Mi hanno spiegato che il blocco proveniva dal sistema di sicurezza proattivo BitNinja, che in alcuni casi limita l’accesso da IP o classi ASN specifiche. Questa è una casistica rara e non dipende dall’hosting in sé, ma dalla configurazione di sicurezza del singolo server. Mi hanno proposto una soluzione pulita e definitiva. Migrazione gratuita del mio hosting su un server dove BitNinja non era attivo. Tutto programmato, comunicato e svolto nei tempi concordati.

Dopo la migrazione:

  • nuovo IP aggiornato correttamente;
  • curl -I -A “GPTBot” → 200 OK;
  • la pagina scaricata contiene tutto il contenuto;
  • ChatGPT e Gemini possono finalmente leggere il sito.

Il problema è stato risolto brillantemente e ora posso di nuovo lavorare senza problemi sull’indicizzazione del mio sito web su ChatGPT e Gemini.

Problem solving: il metodo che uso per diagnosticare anomalie di indicizzazione

Quando un sito smette improvvisamente di essere indicizzato o non compare nei sistemi AI come ChatGPT e Gemini, non basta intuire la causa. Serve un processo di diagnosi strutturato. Questo è l’approccio che utilizzo sistematicamente ai miei progetti per individuare rapidamente l’origine del problema e verificare che la soluzione sia realmente efficace. lo stesso che in questo caso mi ha aiutato a risolvere un grosso problema di indicizzazione.

Rilevazione del sintomo

Prima cosa: distinguere un calo normale da un’anomalia. In questo caso, la simultanea assenza da ChatGPT e Gemini ha indicato una causa tecnica, non algoritmica.

Formulazione delle ipotesi

Ho elencato le possibili cause:

  • robots.txt
  • restrizioni server
  • regole di sicurezza mal configurate
  • protezioni anti-bot
  • problemi di DNS
  • errori nei redirect o nel caching

Avere uno schema chiaro evita di seguire piste sbagliate.

Verifica tecnica delle esclusioni

Ho controllato robots.txt, headers, status code, accessibilità da user agent differenti e presenza di configurazioni anomale a livello di server. Questo step elimina il 70% delle cause più comuni.

Analisi dei log e conferme incrociate

Ho verificato se gli user agent dei bot AI stessero davvero tentando l’accesso.
L’assenza totale di tentativi ha confermato che non si trattava di un “errore di crawling”, ma di un blocco.

Interazione con il supporto tecnico

Ho aperto un ticket con Serverplan, spiegando il contesto e condividendo i test già effettuati. Collaborare in modo strutturato con l’assistenza accelera la diagnosi e permette di indirizzare subito le verifiche tecniche corrette.

Validazione della soluzione

Dopo la rimozione della regola di firewall, ho ripetuto tutti i test, incluso l’accesso tramite user agent specifici e strumenti esterni. La conferma della risoluzione è arrivata solo quando i bot AI hanno ripreso a interrogare correttamente il sito.

Lesson Learned

  • Le protezioni anti-bot possono bloccare anche i sistemi AI più evoluti.
  • Serve un metodo di diagnosi strutturato per distinguere un errore tecnico da un problema di indicizzazione.
  • Collaborare con l’assistenza tecnica in modo documentato riduce drasticamente i tempi di risoluzione.
  • In un ecosistema dominato dalla ricerca generativa, monitorare chi accede e chi non accede al sito è cruciale quanto monitorare il traffico.

Il nuovo equilibrio tra SEO, AI e infrastruttura tecnica

Essere indicizzati dalle AI non significa solo pubblicare contenuti originali, utili e autorevoli. Significa anche garantire che quei contenuti siano realmente accessibili ai modelli che li devono leggere. La SEO resta fondamentale. I dati strutturati restano fondamentali. Ma non bastano da soli.

Il lato tecnico oggi pesa quanto la qualità editoriale. Un firewall troppo rigido, un WAF aggressivo, un cookie banner in modalità autoblocking o un plugin che genera il contenuto solo via JavaScript possono rendere invisibile una pagina perfetta. Per l’utente tutto funziona, mentre per ChatGPT o Google Gemini quella stessa pagina risulta vuota.

Per questo motivo, il nuovo web richiede un approccio più completo. Bisogna saper leggere i segnali, fare test mirati, interpretare i dati e intervenire anche sul piano infrastrutturale quando serve. A volte con l’aiuto dell’assistenza dell’hosting, a volte con l’aiuto delle stesse AI.

Stiamo entrando in una fase in cui SEO, contenuti e tecnologia devono lavorare insieme. E chi saprà integrare queste competenze avrà un vantaggio competitivo reale nel mondo della GEO (Generative Engine Optimization).

Luigi Nervo

Luigi Nervo

Digital Marketing Manager

Esperto di marketing, Seo e contenuti (leggi la bio).

Metiamoci in contatto

Vuoi aggiungere valore alle tue attività di digital marketing?

Mettiamoci subito in contatto! Mi trovi su LinkedIn, oppure puoi scrivermi compilando il form che segue.

Spero di sentirti presto.

9 + 8 =

Luigi Nervo

Luigi Nervo

Digital Marketing Manager

Esperto di marketing, Seo e contenuti (leggi la bio).