La plupart des entreprises invisibles dans les IA n'ont pas un problème de contenu, mais un problème d'accès. Leurs pages sont bonnes, seulement les robots qui alimentent ChatGPT, Perplexity ou Gemini n'arrivent pas à les lire. Avant d'écrire une ligne de plus, il faut s'assurer que la machine voit votre site. Voici les cinq blocages techniques les plus courants, du plus grave au plus discret.
En bref
- Une IA ne cite que ce que ses robots arrivent à lire. L'accès passe avant le contenu.
- Les deux blocages majeurs : un robots.txt qui ferme la porte, et un contenu qui n'existe qu'après le JavaScript.
- Trois vérifications de dix minutes suffisent à savoir si les IA voient votre site.
Les robots des IA peuvent-ils entrer
Le premier blocage est aussi le plus simple : un fichier robots.txt qui interdit l'accès aux robots des IA. Pour être cité, vous devez autoriser explicitement GPTBot, ClaudeBot, PerplexityBot et Google-Extended à lire vos pages. Beaucoup de sites, par prudence ou par défaut d'une extension, bloquent ces robots sans le savoir. Le résultat est sans appel : si la porte est fermée, l'IA n'entre pas, et vous n'apparaissez nulle part.
Bloquer les robots des IA, c'est demander poliment à ne jamais figurer dans leurs réponses.
Votre contenu sans JavaScript
Le deuxième blocage est invisible à l'œil nu. Beaucoup de robots IA lisent le HTML livré par le serveur, sans exécuter le JavaScript. Si votre texte n'apparaît qu'une fois la page rendue dans le navigateur, ces robots voient une coquille vide. Les sites construits avec certains outils sans code ou frameworks récents sont particulièrement exposés. La règle est simple : le contenu essentiel doit exister dans le HTML, pas seulement à l'écran.
Une structure lisible par la machine
Une IA s'oriente grâce à la structure de la page. Des titres hiérarchisés, un seul titre principal, des sections claires, voilà ce qui lui permet de repérer de quoi parle chaque bloc. Une page sans hiérarchie, où tout est au même niveau visuel mais sans balises, oblige la machine à deviner. Et quand elle doute, elle préfère un contenu plus net, souvent celui d'un concurrent. La lisibilité pour la machine commence par un HTML propre.
Dites aux IA qui vous êtes
Sans données structurées, une IA devine votre métier, votre adresse et votre activité au lieu de les savoir. Le balisage schema.org dit explicitement à la machine que vous êtes une entreprise, où vous opérez, ce que vous proposez et quelles questions vous traitez. Une fiduciaire de Lausanne qui balise son identité et ses réponses donne à l'IA des certitudes. Sa voisine qui s'en remet au texte brut lui laisse des doutes, et le doute ne se cite pas.
Les fichiers qui guident les IA
Au-delà des pages, quelques fichiers aident les IA à se repérer sur votre site. Ils ne remplacent pas un bon contenu, mais ils accélèrent la compréhension.
- Le plan du site (sitemap). Il liste vos pages et leur fraîcheur, pour que rien d'important ne soit oublié.
- Le fichier llms.txt. Un résumé de votre activité et de vos pages clés, pensé pour les modèles de langage.
- Les en-têtes de découverte. Des signaux techniques qui indiquent les versions et les sources à privilégier.
Vérifier en dix minutes
Vous n'avez pas besoin d'un outil compliqué pour un premier diagnostic. Trois gestes suffisent à savoir si les IA voient votre site.
- Ouvrez votre robots.txt. Tapez votre domaine suivi de /robots.txt et cherchez si GPTBot et les autres sont autorisés ou bloqués.
- Coupez le JavaScript. Désactivez-le et rechargez vos pages clés. Le texte doit rester visible.
- Cherchez vos données structurées. Un test de résultats enrichis indique si votre identité et vos questions sont balisées.
Par où commencer
Corrigez dans l'ordre de l'impact. D'abord l'accès, car rien ne sert d'optimiser une page que personne ne lit. Ensuite la lisibilité du contenu sans JavaScript. Puis la structure et les données structurées, qui transforment une page lisible en page comprise. Chacune de ces étapes est mesurable, et le gain se voit sur la mesure suivante. C'est le point de départ de tout travail de visibilité dans les IA.
Questions fréquentes
Comment savoir si les robots des IA lisent mon site ?
Trois vérifications rapides : votre robots.txt autorise-t-il les robots IA, votre contenu apparaît-il sans JavaScript, et vos pages portent-elles des données structurées. Si l'une manque, une partie des IA ne voit pas votre contenu. Un audit mesure les trois d'un coup.
Faut-il bloquer ou autoriser GPTBot et les autres robots IA ?
Pour être cité, il faut les autoriser. GPTBot, ClaudeBot, PerplexityBot et Google-Extended doivent pouvoir lire vos pages. Les bloquer revient à demander à ne pas figurer dans les réponses des IA. On ne ferme que des sections sensibles, jamais le contenu qu'on veut voir cité.
Mon site en JavaScript est-il un problème pour les IA ?
Souvent, oui. Beaucoup de robots IA ne lisent que le HTML livré, sans exécuter le JavaScript. Si votre texte n'apparaît qu'après le rendu, ces robots voient une page vide. Servez le contenu essentiel directement dans le HTML, par rendu serveur ou pré-rendu.
Qu'est-ce qu'un fichier llms.txt ?
Un fichier texte à la racine du site qui résume votre activité et pointe vers vos pages importantes, pensé pour les modèles de langage. Il ne remplace pas un bon contenu, mais il aide les IA à comprendre vite qui vous êtes et quoi citer.