AI-поисковые краулеры и боты: настройка robots.txt для SEO

Коротко: AI-краулеры уже нельзя воспринимать как один большой «бот искусственного интеллекта». У разных систем разные задачи: одни ищут страницы для AI-поиска, другие забирают контент для обучения моделей, третьи открывают конкретную страницу по запросу пользователя. Поэтому правильная стратегия не «запретить всех» и не «пустить всех», а разделить доступ по целям.

Этот материал — русская редакторская адаптация статьи Momentic AI Search Crawlers & Bots, дополненная практическими комментариями для SEO-специалистов и владельцев сайтов. Это не дословный перевод, а читабельная версия с фокусом на то, что делать в реальном проекте.

Почему тема стала важной

Раньше вопрос краулеров был относительно понятным: Googlebot, YandexBot, Bingbot и несколько сервисных роботов. Если сайт доступен, страницы индексируются, дальше работают классические поисковые факторы. Сейчас поверх этого появился новый слой: AI-поиск, генеративные ответы, ассистенты и модели, которые могут использовать веб-контент по-разному.

Для SEO это меняет задачу. Важно не только попасть в обычную выдачу, но и не потерять возможность быть источником в AI-ответах. Одновременно у издателей, SaaS-проектов, медиа и e-commerce появляется нормальный страх: а не отдать ли весь контент на обучение моделей бесплатно? Ответ зависит от типа сайта, ценности контента и бизнес-целей.

Главное различие: поиск, обучение и пользовательский fetch

Условно AI-ботов можно разделить на три группы.

Поисковые AI-краулеры. Они помогают продукту находить и показывать сайты в AI-поиске или ответах с веб-источниками. Если закрыть такого бота, можно потерять видимость в соответствующей AI-поверхности.
Боты для обучения и улучшения моделей. Они собирают данные, которые потенциально могут использоваться для тренировки или улучшения foundation-моделей. Их можно закрывать, если защита контента важнее потенциальной пользы.
Пользовательские fetcher’ы. Они приходят не в рамках массового обхода, а когда пользователь просит ассистента открыть конкретную страницу, проверить ссылку, пересказать документ или выполнить действие.

Ошибка многих сайтов — писать одно общее правило для всех AI-ботов. Это удобно, но грубо. Так можно случайно закрыть канал, через который сайт мог бы попадать в ответы ChatGPT Search или другие AI-интерфейсы.

Что означают ключевые user-agent’ы

Бот / токен	Для чего нужен	Как относиться
`OAI-SearchBot`	Поисковый бот OpenAI для отображения сайтов в поисковых функциях ChatGPT.	Обычно стоит разрешить, если вам нужна видимость в ChatGPT Search.
`GPTBot`	Краулер OpenAI для данных, которые могут использоваться при обучении и улучшении моделей.	Можно закрыть, если не хотите отдавать контент для обучения моделей.
`ChatGPT-User`	Запросы, инициированные пользователем ChatGPT или Custom GPT.	Не путать с массовым обходом. Часто лучше не блокировать, иначе пользователи хуже взаимодействуют с вашим сайтом через ассистента.
`Google-Extended`	Токен robots.txt, через который Google дает управлять использованием контента для Gemini Apps и Vertex AI API for Gemini.	Это не отдельный HTTP user-agent и не фактор ранжирования Google Search. Решение зависит от политики по AI-использованию контента.

Важно: названия и поведение ботов меняются. Перед жесткими правилами в продакшене стоит сверять документацию конкретного провайдера, а не копировать чужой robots.txt из статьи двухлетней давности.

Стратегия 1: хотим видимость в AI-поиске, но не хотим обучение

Для большинства коммерческих сайтов это самый разумный старт. Интернет-магазину, SaaS, клинике, локальному бизнесу или агентству обычно выгодно, чтобы AI-поиск мог показывать сайт как источник. Но это не значит, что нужно автоматически разрешать все сценарии использования контента.

Пример логики для OpenAI:

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Disallow: /

Смысл такой: поисковый бот и пользовательские обращения не блокируются, а тренировочный бот закрывается. Это не универсальная рекомендация на все времена, но хороший базовый компромисс для проектов, где органическая видимость важна, а контент имеет самостоятельную ценность.

Стратегия 2: максимальная открытость

Такой подход может подойти брендам, которым важнее распространение знаний, упоминания и цитируемость, чем контроль над текстами. Например, разработчик open-source продукта, публичная документация API, справочный портал или образовательный проект могут сознательно разрешать больше ботов.

User-agent: OAI-SearchBot
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

Плюс подхода — меньше риска случайно выпасть из новых AI-каналов. Минус — меньше контроля над тем, как контент может использоваться в экосистемах моделей. Для медиа, платных баз знаний и сайтов с уникальными исследованиями такая открытость не всегда разумна.

Стратегия 3: защита контента прежде всего

Если сайт живет за счет уникальных материалов, платного доступа, закрытых исследований или юридически чувствительных данных, можно выбрать более жесткую модель. Но ее надо осознавать как бизнес-решение: вы снижаете риск использования контента, но потенциально ограничиваете присутствие в AI-поиске и ассистентах.

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

Даже при жесткой политике не стоит слепо закрывать вообще все. Например, можно оставить открытыми публичные лендинги, документацию, страницы продукта и контакты, а закрыть платные материалы, архивы, внутренние разделы и страницы, которые не должны становиться источником для внешних ответов.

Почему robots.txt — это только один слой

robots.txt помогает обозначить правила для добросовестных краулеров, но не решает все вопросы. Он не заменяет авторизацию, paywall, техническую защиту закрытых данных и нормальное управление индексируемостью. Если контент не должен быть публичным, он не должен просто лежать в открытом HTML и надеяться на robots.txt.

Для SEO также важно помнить: блокировка краулера не равна удалению страницы из уже существующих индексов или чужих кэшей. А запрет одного бота не означает запрет всех AI-систем. Нужна регулярная инвентаризация логов и правил доступа.

Что смотреть в логах

Минимальный аудит AI-ботов начинается не с идеального robots.txt, а с логов сервера. Нужно понять, кто уже приходит на сайт, какие URL запрашивает, какие коды ответа получает и не создает ли лишнюю нагрузку.

User-agent. Фиксируйте точные строки и не полагайтесь только на короткое название.
IP и верификация. Для важных ботов проверяйте официальные диапазоны или рекомендованный способ проверки провайдера.
Глубина обхода. Смотрите, ходит ли бот только по главным страницам или забирает фильтры, пагинацию, параметры и мусорные URL.
Коды ответа. Массовые 404, 500, 429 и редиректные цепочки ухудшают качество обхода и создают шум.
Частота. Если бот грузит сервер, настройте rate limiting аккуратно, не ломая обычных поисковых роботов.

Как не навредить SEO

Главный риск — закрыть полезный канал из-за страха перед словом AI. Если ваш бизнес получает клиентов из поиска, то AI-поиск постепенно становится частью поисковой видимости. И наоборот: если вы без разбора открываете весь сайт, можно отдать на внешнюю переработку то, что является вашим продуктом.

Практичный порядок такой:

Разделите страницы по ценности. Главная, услуги, карточки товаров, документация, блог, платные материалы и личные кабинеты требуют разных правил.
Определите цель. Вам важнее попадать в AI-ответы, защищать данные или балансировать оба сценария?
Разрешайте поисковые AI-боты отдельно от тренировочных. Не смешивайте `OAI-SearchBot` и `GPTBot` в одну категорию просто потому, что оба связаны с OpenAI.
Проверяйте рендеринг страниц. AI-краулеры и поисковые системы хуже работают с пустыми страницами, перегруженным JS и контентом, который появляется только после сложных клиентских действий.
Уберите мусорные зоны обхода. Фильтры, сортировки, календарные архивы, поиск по сайту и UTM-дубли могут съедать crawl budget и давать плохой сигнал о качестве сайта.
Добавьте ясные сигналы доверия. Автор, редактор, дата обновления, источники, контакты, политика компании и прозрачная структура помогают не только людям, но и системам оценки качества.

Отдельно про Google-Extended

`Google-Extended` часто понимают неправильно. Это не обычный робот, который вы увидите как отдельную строку user-agent в логах. Это управляющий токен robots.txt. Google указывает, что он связан с использованием контента для Gemini Apps и Vertex AI API for Gemini, а также с grounding-сценариями. При этом Google отдельно подчеркивает, что `Google-Extended` не влияет на включение сайта в Google Search и не используется как сигнал ранжирования.

То есть запрет `Google-Extended` не должен быть способом «улучшить SEO» или «скрыться от Googlebot». Это настройка политики AI-использования контента. Для обычного поиска Google все равно нужны корректные правила для Googlebot, индексации, canonical, sitemap, noindex и технического состояния сайта.

User-agent: Google-Extended
Disallow: /

Такое правило говорит не о запрете Google Search, а о запрете соответствующего AI-использования, описанного Google. Перед внедрением лучше согласовать это решение с владельцем контента, юристом или руководителем продукта, потому что это уже не только SEO-настройка.

Чеклист для сайта

Проверьте текущий `robots.txt`: нет ли там старых или слишком широких запретов.
Составьте список AI-ботов, которые реально приходили в логи за последние 30-90 дней.
Разделите ботов на поисковых, тренировочных и пользовательских fetcher’ов.
Определите, какие разделы сайта должны быть доступны для AI-поиска.
Закройте тренировочный доступ там, где контент является платным, уникальным или юридически чувствительным.
Проверьте, что важные страницы отдают 200, имеют нормальный HTML, title, description, canonical и понятный основной контент.
Настройте мониторинг логов и вернитесь к правилам через месяц: AI-экосистема меняется быстро.

Вывод

AI-краулеры — это уже часть SEO-инфраструктуры, а не отдельная экзотика. Хорошая настройка не должна быть эмоциональной: «запретить всех» или «разрешить всех». Она должна отвечать на простой вопрос: какой контент мы хотим показывать в AI-поиске, какой контент можно использовать для пользовательских запросов, а какой не должен уходить в обучение моделей.

Если коротко: разрешайте то, что помогает находить ваш сайт и приводить пользователей; закрывайте то, что является вашим защищаемым активом; регулярно проверяйте документацию и серверные логи. Это спокойная, взрослая стратегия для новой поисковой реальности.

Источники

Об авторе

Владислав Вишневецкий

SaaS-предприниматель, разработчик

Основатель Pikapuka.com. Пишу о разработке SaaS, AI-интеграциях и программатик-SEO.

🌐 Сайт 𝕏 Twitter ⌥ GitHub

Все статьи автора →