Dr. Cherry pikapuka.com С любовью о SEO
Главная Инструменты Метрика Блог Тарифы О нас Контакты

AI-поисковые краулеры и боты: кого пускать на сайт и как настроить robots.txt

Разбираем, чем AI-краулеры отличаются от обычных поисковых роботов, как не закрыть себе видимость в ChatGPT Search и Google AI-поверхностях, и какие правила robots.txt выбирать без паники.

Коротко: AI-краулеры уже нельзя воспринимать как один большой «бот искусственного интеллекта». У разных систем разные задачи: одни ищут страницы для AI-поиска, другие забирают контент для обучения моделей, третьи открывают конкретную страницу по запросу пользователя. Поэтому правильная стратегия не «запретить всех» и не «пустить всех», а разделить доступ по целям.

Этот материал — русская редакторская адаптация статьи Momentic AI Search Crawlers & Bots, дополненная практическими комментариями для SEO-специалистов и владельцев сайтов. Это не дословный перевод, а читабельная версия с фокусом на то, что делать в реальном проекте.

Почему тема стала важной

Раньше вопрос краулеров был относительно понятным: Googlebot, YandexBot, Bingbot и несколько сервисных роботов. Если сайт доступен, страницы индексируются, дальше работают классические поисковые факторы. Сейчас поверх этого появился новый слой: AI-поиск, генеративные ответы, ассистенты и модели, которые могут использовать веб-контент по-разному.

Для SEO это меняет задачу. Важно не только попасть в обычную выдачу, но и не потерять возможность быть источником в AI-ответах. Одновременно у издателей, SaaS-проектов, медиа и e-commerce появляется нормальный страх: а не отдать ли весь контент на обучение моделей бесплатно? Ответ зависит от типа сайта, ценности контента и бизнес-целей.

Главное различие: поиск, обучение и пользовательский fetch

Условно AI-ботов можно разделить на три группы.

  • Поисковые AI-краулеры. Они помогают продукту находить и показывать сайты в AI-поиске или ответах с веб-источниками. Если закрыть такого бота, можно потерять видимость в соответствующей AI-поверхности.
  • Боты для обучения и улучшения моделей. Они собирают данные, которые потенциально могут использоваться для тренировки или улучшения foundation-моделей. Их можно закрывать, если защита контента важнее потенциальной пользы.
  • Пользовательские fetcher’ы. Они приходят не в рамках массового обхода, а когда пользователь просит ассистента открыть конкретную страницу, проверить ссылку, пересказать документ или выполнить действие.

Ошибка многих сайтов — писать одно общее правило для всех AI-ботов. Это удобно, но грубо. Так можно случайно закрыть канал, через который сайт мог бы попадать в ответы ChatGPT Search или другие AI-интерфейсы.

Что означают ключевые user-agent’ы

Бот / токен Для чего нужен Как относиться
OAI-SearchBot Поисковый бот OpenAI для отображения сайтов в поисковых функциях ChatGPT. Обычно стоит разрешить, если вам нужна видимость в ChatGPT Search.
GPTBot Краулер OpenAI для данных, которые могут использоваться при обучении и улучшении моделей. Можно закрыть, если не хотите отдавать контент для обучения моделей.
ChatGPT-User Запросы, инициированные пользователем ChatGPT или Custom GPT. Не путать с массовым обходом. Часто лучше не блокировать, иначе пользователи хуже взаимодействуют с вашим сайтом через ассистента.
Google-Extended Токен robots.txt, через который Google дает управлять использованием контента для Gemini Apps и Vertex AI API for Gemini. Это не отдельный HTTP user-agent и не фактор ранжирования Google Search. Решение зависит от политики по AI-использованию контента.

Важно: названия и поведение ботов меняются. Перед жесткими правилами в продакшене стоит сверять документацию конкретного провайдера, а не копировать чужой robots.txt из статьи двухлетней давности.

Стратегия 1: хотим видимость в AI-поиске, но не хотим обучение

Для большинства коммерческих сайтов это самый разумный старт. Интернет-магазину, SaaS, клинике, локальному бизнесу или агентству обычно выгодно, чтобы AI-поиск мог показывать сайт как источник. Но это не значит, что нужно автоматически разрешать все сценарии использования контента.

Пример логики для OpenAI:

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Disallow: /

Смысл такой: поисковый бот и пользовательские обращения не блокируются, а тренировочный бот закрывается. Это не универсальная рекомендация на все времена, но хороший базовый компромисс для проектов, где органическая видимость важна, а контент имеет самостоятельную ценность.

Стратегия 2: максимальная открытость

Такой подход может подойти брендам, которым важнее распространение знаний, упоминания и цитируемость, чем контроль над текстами. Например, разработчик open-source продукта, публичная документация API, справочный портал или образовательный проект могут сознательно разрешать больше ботов.

User-agent: OAI-SearchBot
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

Плюс подхода — меньше риска случайно выпасть из новых AI-каналов. Минус — меньше контроля над тем, как контент может использоваться в экосистемах моделей. Для медиа, платных баз знаний и сайтов с уникальными исследованиями такая открытость не всегда разумна.

Стратегия 3: защита контента прежде всего

Если сайт живет за счет уникальных материалов, платного доступа, закрытых исследований или юридически чувствительных данных, можно выбрать более жесткую модель. Но ее надо осознавать как бизнес-решение: вы снижаете риск использования контента, но потенциально ограничиваете присутствие в AI-поиске и ассистентах.

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

Даже при жесткой политике не стоит слепо закрывать вообще все. Например, можно оставить открытыми публичные лендинги, документацию, страницы продукта и контакты, а закрыть платные материалы, архивы, внутренние разделы и страницы, которые не должны становиться источником для внешних ответов.

Почему robots.txt — это только один слой

robots.txt помогает обозначить правила для добросовестных краулеров, но не решает все вопросы. Он не заменяет авторизацию, paywall, техническую защиту закрытых данных и нормальное управление индексируемостью. Если контент не должен быть публичным, он не должен просто лежать в открытом HTML и надеяться на robots.txt.

Для SEO также важно помнить: блокировка краулера не равна удалению страницы из уже существующих индексов или чужих кэшей. А запрет одного бота не означает запрет всех AI-систем. Нужна регулярная инвентаризация логов и правил доступа.

Что смотреть в логах

Минимальный аудит AI-ботов начинается не с идеального robots.txt, а с логов сервера. Нужно понять, кто уже приходит на сайт, какие URL запрашивает, какие коды ответа получает и не создает ли лишнюю нагрузку.

  • User-agent. Фиксируйте точные строки и не полагайтесь только на короткое название.
  • IP и верификация. Для важных ботов проверяйте официальные диапазоны или рекомендованный способ проверки провайдера.
  • Глубина обхода. Смотрите, ходит ли бот только по главным страницам или забирает фильтры, пагинацию, параметры и мусорные URL.
  • Коды ответа. Массовые 404, 500, 429 и редиректные цепочки ухудшают качество обхода и создают шум.
  • Частота. Если бот грузит сервер, настройте rate limiting аккуратно, не ломая обычных поисковых роботов.

Как не навредить SEO

Главный риск — закрыть полезный канал из-за страха перед словом AI. Если ваш бизнес получает клиентов из поиска, то AI-поиск постепенно становится частью поисковой видимости. И наоборот: если вы без разбора открываете весь сайт, можно отдать на внешнюю переработку то, что является вашим продуктом.

Практичный порядок такой:

  1. Разделите страницы по ценности. Главная, услуги, карточки товаров, документация, блог, платные материалы и личные кабинеты требуют разных правил.
  2. Определите цель. Вам важнее попадать в AI-ответы, защищать данные или балансировать оба сценария?
  3. Разрешайте поисковые AI-боты отдельно от тренировочных. Не смешивайте `OAI-SearchBot` и `GPTBot` в одну категорию просто потому, что оба связаны с OpenAI.
  4. Проверяйте рендеринг страниц. AI-краулеры и поисковые системы хуже работают с пустыми страницами, перегруженным JS и контентом, который появляется только после сложных клиентских действий.
  5. Уберите мусорные зоны обхода. Фильтры, сортировки, календарные архивы, поиск по сайту и UTM-дубли могут съедать crawl budget и давать плохой сигнал о качестве сайта.
  6. Добавьте ясные сигналы доверия. Автор, редактор, дата обновления, источники, контакты, политика компании и прозрачная структура помогают не только людям, но и системам оценки качества.

Отдельно про Google-Extended

`Google-Extended` часто понимают неправильно. Это не обычный робот, который вы увидите как отдельную строку user-agent в логах. Это управляющий токен robots.txt. Google указывает, что он связан с использованием контента для Gemini Apps и Vertex AI API for Gemini, а также с grounding-сценариями. При этом Google отдельно подчеркивает, что `Google-Extended` не влияет на включение сайта в Google Search и не используется как сигнал ранжирования.

То есть запрет `Google-Extended` не должен быть способом «улучшить SEO» или «скрыться от Googlebot». Это настройка политики AI-использования контента. Для обычного поиска Google все равно нужны корректные правила для Googlebot, индексации, canonical, sitemap, noindex и технического состояния сайта.

User-agent: Google-Extended
Disallow: /

Такое правило говорит не о запрете Google Search, а о запрете соответствующего AI-использования, описанного Google. Перед внедрением лучше согласовать это решение с владельцем контента, юристом или руководителем продукта, потому что это уже не только SEO-настройка.

Чеклист для сайта

  • Проверьте текущий `robots.txt`: нет ли там старых или слишком широких запретов.
  • Составьте список AI-ботов, которые реально приходили в логи за последние 30-90 дней.
  • Разделите ботов на поисковых, тренировочных и пользовательских fetcher’ов.
  • Определите, какие разделы сайта должны быть доступны для AI-поиска.
  • Закройте тренировочный доступ там, где контент является платным, уникальным или юридически чувствительным.
  • Проверьте, что важные страницы отдают 200, имеют нормальный HTML, title, description, canonical и понятный основной контент.
  • Настройте мониторинг логов и вернитесь к правилам через месяц: AI-экосистема меняется быстро.

Вывод

AI-краулеры — это уже часть SEO-инфраструктуры, а не отдельная экзотика. Хорошая настройка не должна быть эмоциональной: «запретить всех» или «разрешить всех». Она должна отвечать на простой вопрос: какой контент мы хотим показывать в AI-поиске, какой контент можно использовать для пользовательских запросов, а какой не должен уходить в обучение моделей.

Если коротко: разрешайте то, что помогает находить ваш сайт и приводить пользователей; закрывайте то, что является вашим защищаемым активом; регулярно проверяйте документацию и серверные логи. Это спокойная, взрослая стратегия для новой поисковой реальности.

Источники

Читать ещё

Похожие статьи

📄 SEO

Чеклист оптимизации Google Business Profile: что реально влияет на локальное SEO

Русская адаптация чеклиста Sterling Sky по Google Business Profile: категории, услуги, посадочная страница, отзывы, часы работы, атрибуты и ошибки, которые могут просадить локальную видимость.

Владислав Вишневецкий Владислав Вишневецкий ⏱ 12 мин
📄 SEO

Как составить стратегию улучшения ссылочного профиля сайта без говноссылок из Kwork

Разбираю, как дешёвые ссылки с Kwork убивают позиции в Яндексе и Google. Пошаговая стратегия легального линкбилдинга, аудит токсичных бэклинков и алгоритм Минусинск.

Владислав Вишневецкий Владислав Вишневецкий ⏱ 10 мин
Создание страницы автора для SEO: от биографии до E‑E‑A‑T SEO

Создание страницы автора для SEO: от биографии до E‑E‑A‑T

Пошаговое руководство по созданию страницы автора под SEO с учётом E‑E‑A‑T. Стоимость входа, сервисов, примеры и шаблоны. Узнайте, как усилить доверие поисковиков и пользователей.

Владислав Вишневецкий Владислав Вишневецкий ⏱ 9 мин
← Все статьи