В 2023 году исследование «Маркетология» показало: каждый третий сайт на Битрикс в Рунете сливает до 40% краулингового бюджета на индексацию технических страниц — корзины, дублей, фильтров. Причина почти всегда одна: robots.txt либо отсутствует, либо настроен с ошибками. Я разбирал больше сотни таких файлов для клиентов и видел одно и то же: Disallow: /bitrix/ без Allow для CSS — и Google Search Console завалена ошибками рендеринга. Давайте исправим это раз и навсегда.
Что такое robots.txt и зачем он нужен сайту на Битрикс
Robots.txt — это текстовый файл в кодировке UTF-8, который лежит строго в корневой директории сайта. Поисковый робот, заходя на сайт, первым делом обращается по адресу https://ваш_сайт.ru/robots.txt и читает инструкции.
Файл работает в рамках Robots Exclusion Protocol (REP) — стандарта, закреплённого в спецификации RFC 9309 (сентябрь 2022 года). Яндекс, Google, Bing и большинство поисковых систем добровольно соблюдают правила, прописанные в robots.txt. Но:
Robots.txt — это рекомендация, а не принудительный запрет. Не все боты в интернете ему подчиняются.
Для сайта на 1С-Битрикс robots.txt критически важен. CMS генерирует множество служебных страниц, которые без запрета попадают в индекс: корзина, личный кабинет, авторизация, поиск по сайту, версии для печати, дубли главной через index.php, фильтры с GET-параметрами. Всё это размывает поисковую выдачу и понижает позиции полезных страниц.
Если файла нет в корневой директории, поисковые роботы считают, что индексация разрешена для всех страниц. Пустой файл означает то же самое.
Где находится генератор robots.txt в админке Битрикс
Начиная с версии 14.0 модуля «Поисковая оптимизация» в 1С-Битрикс встроен визуальный генератор robots.txt. Вручную создавать файл больше не нужно.
Путь к генератору:
«Маркетинг» → «Поисковая оптимизация» → «Настройка robots.txt».
На странице «Управление robots.txt» вы увидите:
-
Контекстную панель — если в системе несколько сайтов, переключитесь на нужный.
-
Вкладку «Общие правила» — здесь создаются инструкции для всех поисковых систем. Кнопка «Стартовый набор» формирует базовый рекомендованный набор правил и запрашивает главное зеркало сайта.
-
Вкладки «Яндекс» и «Google» — позволяют задать специфические правила для конкретной поисковой системы.
-
Вкладку «Редактировать» — для ручного ввода правил, если нужно дописать что-то сверх сгенерированного.
В нижней части формы — ссылки на официальную документацию Яндекса и Google по использованию robots.txt.
⚠️ Если у вас версия ниже 14.0, файл нужно создавать вручную и размещать в корне сайта. Соответствующий урок есть в документации для разработчиков 1С-Битрикс.
Как составить robots.txt для Битрикс вручную: синтаксис и структура
Даже если вы пользуетесь генератором, понимать синтаксис нужно. Иначе не сможете проверить, что именно сгенерировалось, и добавить нестандартные правила.
Требования к файлу:
-
Название — строго
robots.txt(все буквы нижнего регистра, без пробелов и других символов). -
Кодировка — UTF-8.
-
Расположение — корневая директория сайта. Файл должен открываться по адресу
https://example.com/robots.txt.
Структура правил:
Файл состоит из групп правил, разделённых пустой строкой. Каждая группа начинается с директивы User-agent, за которой следуют инструкции для указанного робота.
Базовые правила: User-agent, Disallow, Allow
User-agent — указывает, к какому роботу относятся следующие ниже инструкции. User-agent: * означает, что правила применяются ко всем роботам.
Disallow — запрещает индексацию файла или папки. Пример: Disallow: /bitrix/ — системная папка Битрикс закрыта от индексации.
Allow — разрешает индексацию, даже если родительская папка закрыта через Disallow. Пример: Allow: /bitrix/*.css — открывает CSS-файлы, чтобы поисковики могли корректно отрендерить страницы.
Правила обрабатываются сверху вниз, и побеждает первое совпадение. Поэтому Allow для конкретных типов файлов ставят после общего Disallow на папку.
Стартовый набор в генераторе Битрикс автоматически создаёт правила, закрывающие административные страницы, личные данные пользователей и отладочную информацию.
Расширенные директивы: Sitemap, Host, Crawl-delay, Clean-param
Sitemap — указывает путь к файлу карты сайта. Робот находит этот адрес и дальше сканирует sitemap.xml для понимания структуры сайта. Пример:
Sitemap: https://example.com/sitemap.xml
Host — директива только для Яндекса. Указывает главное зеркало, если сайт доступен по нескольким адресам (с www и без, по HTTP и HTTPS). Пример:
Host: example.com
Crawl-delay — минимальный интервал между запросами робота к серверу (в секундах). Яндекс и некоторые другие поисковики её учитывают, Google — игнорирует. Пример:
Crawl-delay: 5
Clean-param — директива только для Яндекса. Убирает из индекса URL с указанными GET-параметрами, считая их дублями основной страницы. Пример:
Clean-param: utm_source&utm_medium&ysclid /
Какие страницы нужно закрыть в robots.txt на Битрикс
Типовая установка Битрикс содержит десятки технических URL. Ниже — полный список того, что нужно закрывать, сгруппированный по категориям.
Системные папки и файлы: /bitrix/, /local/, /upload/
User-agent: * Disallow: /bitrix/ Allow: /bitrix/*.js Allow: /bitrix/*.css Allow: /bitrix/*.svg Allow: /bitrix/*.png Allow: /bitrix/*.gif Allow: /bitrix/*.ttf Allow: /bitrix/*.woff Disallow: *bitrix_*= Disallow: /local/ Allow: /local/*.js Allow: /local/*.css Allow: /local/*.jpg Allow: /local/*.png Allow: /local/*.gif Allow: /local/*.svg Allow: /local/*.woff Allow: /local/*.webp Disallow: /upload/
Папки /bitrix/ и /local/ содержат ядро системы и пользовательские модули. Их индексация не просто бесполезна — она раскрывает внутреннюю структуру сайта. Но файлы стилей и скриптов нужно открыть: без них Googlebot не отрендерит страницы, и Google Search Console начнёт выдавать ошибки.
Папку /upload/ можно закрыть полностью: загруженные файлы доступны через публичные страницы, и их дубли в индексе не нужны.
Личный кабинет, корзина, авторизация, регистрация
Disallow: /personal/ Disallow: /basket/ Disallow: /auth/ Disallow: /cart/ Disallow: *register= Disallow: *forgot_password= Disallow: *change_password= Disallow: /*login= Disallow: *logout=
Эти разделы содержат персональные данные пользователей и не должны индексироваться. Корзина и страницы оформления заказа (/*order) тоже закрываются — их содержание динамическое и меняется от сессии к сессии.
Фильтры, сортировка, пагинация и дубли страниц
Самый объёмный источник дублей в Битрикс — умный фильтр с ЧПУ. Каждая комбинация параметров создаёт уникальный URL. Без запрета в индексе оказываются сотни тысяч страниц-дублей.
Disallow: /*index.php$ Disallow: */search/ Disallow: *print= Disallow: *display= Disallow: *linerow= Disallow: *year= Disallow: *action= Disallow: *alfaction= Disallow: *?new=Y Disallow: *?edit= Disallow: *?preview= Disallow: *backurl= Disallow: *back_url= Disallow: *back_url_admin= Disallow: *captcha Disallow: *?FILTER*= Disallow: *?arrFilter* Disallow: *set_filter= Disallow: *?sort= Disallow: *?order= Disallow: *?PAGEN_*= Disallow: *?p= Disallow: *?q= Disallow: *?tags= Disallow: *?id= Disallow: *brand=
Этот список собран на основе анализа индексации реальных сайтов на Битрикс. Параметр ysclid — техническая метка Яндекса для обхода ограничений межсайтовых cookies — тоже создаёт дубли. Его имеет смысл убрать через Clean-param для Яндекса.
Готовый robots.txt для Битрикс (пример 2026 года)
Ниже — полный пример файла, адаптированный под типовую установку Битрикс последних версий. Файл разбит на секции: общие правила, Яндекс, Google и блокировка бесполезных ботов.
# === ОБЩИЕ ПРАВИЛА ДЛЯ ВСЕХ РОБОТОВ === User-agent: * Disallow: /cgi-bin/ Disallow: /bitrix/ Allow: /bitrix/*.js Allow: /bitrix/*.css Allow: /bitrix/*.svg Allow: /bitrix/*.png Allow: /bitrix/*.gif Allow: /bitrix/*.ttf Allow: /bitrix/*.woff Disallow: *bitrix_*= Disallow: /local/ Allow: /local/*.js Allow: /local/*.css Allow: /local/*.jpg Allow: /local/*.png Allow: /local/*.gif Allow: /local/*.svg Allow: /local/*.woff Allow: /local/*.webp Disallow: /upload/ Disallow: /basket/ Disallow: /cart/ Disallow: /personal/ Disallow: /auth/ Disallow: /test/ Disallow: /tmp/ Disallow: /cache/ Disallow: /search/ Disallow: */search/ Disallow: *print= Disallow: /*index.php$ Disallow: *register= Disallow: *forgot_password= Disallow: *change_password= Disallow: /*login= Disallow: *logout= Disallow: *display= Disallow: *linerow= Disallow: *year= Disallow: *action= Disallow: *alfaction= Disallow: *?new=Y Disallow: *?edit= Disallow: *?preview= Disallow: *backurl= Disallow: *back_url= Disallow: *back_url_admin= Disallow: *captcha Disallow: *?FILTER*= Disallow: *?arrFilter* Disallow: *set_filter= Disallow: *?sort= Disallow: *?order= Disallow: *?PAGEN_*= Disallow: *?p= Disallow: *?q= Disallow: *?tags= Disallow: *?id= Disallow: *brand= Disallow: *?show_all= Sitemap: https://ВАШ_САЙТ.ru/sitemap.xml # === ПРАВИЛА ДЛЯ ЯНДЕКСА === User-agent: Yandex Host: ВАШ_САЙТ.ru Clean-param: utm_source&utm_medium&utm_campaign&ysclid / # === ПРАВИЛА ДЛЯ GOOGLE === User-agent: Googlebot Allow: /bitrix/*.js Allow: /bitrix/*.css Allow: /local/*.js Allow: /local/*.css # === БЛОКИРОВКА БЕСПОЛЕЗНЫХ БОТОВ === User-agent: GPTBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: MJ12bot Disallow: / User-agent: DotBot Disallow: / User-agent: CCBot Disallow: /
⚠️ Важно: Перед использованием замените
ВАШ_САЙТ.ruна реальный домен и проверьте, нет ли в структуре других служебных разделов, требующих закрытия.
Как проверить robots.txt и найти ошибки
После публикации файла обязательно проверьте его в инструментах вебмастеров.
Яндекс.Вебмастер: Инструменты → Анализ robots.txt. Сервис подсветит синтаксические ошибки и покажет, как файл отрабатывает для конкретного URL.
Google Search Console: Настройки → Проверка robots.txt. Можно ввести любой URL и посмотреть, разрешён ли он к сканированию.
Чек-лист проверки robots.txt для Битрикс
-
Файл доступен по адресу
https://site.ru/robots.txt. -
Название — строго
robots.txt, без заглавных букв. -
Кодировка — UTF-8 (проверьте, что после сохранения русские комментарии не превратились в кракозябры).
-
В общих правилах нет
Disallow: /— это запрещает индексацию всего сайта. -
CSS, JS и файлы шрифтов открыты для Googlebot (иначе ошибки рендеринга в Search Console).
-
Директива
Sitemapуказывает на актуальный файл карты сайта. -
Закрыты:
/bitrix/,/local/,/upload/,/personal/,/basket/,/auth/,/search/. -
Закрыты GET-параметры фильтрации и сортировки.
-
В файле нет директивы
noindex— она не поддерживается с 2019 года.
Типичные ошибки при настройке robots.txt и как их исправить
Ошибка 1: Закрыли всю папку /bitrix/, но не открыли CSS и JS.
Googlebot не может отрендерить страницы, и Search Console показывает ошибки. Исправление: добавьте Allow для *.css, *.js, *.woff, *.ttf.
Ошибка 2: Указали noindex в robots.txt.
С 1 сентября 2019 года Google официально не поддерживает noindex в robots.txt. Для запрета индексации используйте мета-тег <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag: noindex.
Ошибка 3: Название файла с заглавной буквой.Robots.txt или ROBOTS.TXT на Linux-сервере — это другой файл. Поисковик его не увидит. Все буквы должны быть нижнего регистра.
Ошибка 4: Забыли переключить сайт в контекстной панели.
Если в админке несколько сайтов, а вы не переключились — измените файл не на том сайте. Всегда проверяйте контекстную панель.
Ошибка 5: Файл robots.txt отдаёт код ответа, отличный от 200.
Проверьте через curl -I https://site.ru/robots.txt. Если сервер отдаёт 404 или 301 — поисковики не смогут прочитать файл.
Robots.txt и noindex: в чём разница
Это частая точка путаницы. Robots.txt запрещает сканирование страницы, но не индексацию. Если на закрытую в robots.txt страницу ведут внешние ссылки, она может появиться в выдаче — без сниппета, но с URL.
Google прямо указывает: «Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google».
Чтобы гарантированно убрать страницу из поиска:
-
Мета-тег:
<meta name="robots" content="noindex, follow">— для HTML-страниц. -
HTTP-заголовок:
X-Robots-Tag: noindex— для PDF, изображений и других не-HTML файлов. -
Парольная защита — для полностью закрытых разделов.
Как заблокировать AI-роботов и бесполезных ботов
Современные AI-краулеры (GPTBot от OpenAI, CCBot от Common Crawl) и SEO-сканеры (AhrefsBot, SemrushBot, MJ12bot) создают паразитную нагрузку на сервер. Для SEO они бесполезны, а ресурсы потребляют.
Блокировка — отдельными блоками в robots.txt:
User-agent: GPTBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: MJ12bot Disallow: / User-agent: DotBot Disallow: /
Для остальных второстепенных ботов имеет смысл указать Crawl-delay: 5 — это снизит нагрузку на сервер, не влияя на индексацию Яндексом и Google.
Практический кейс: что я увидел при аудите 100+ сайтов на Битрикс
За пять лет работы с сайтами на Битрикс я проверил больше сотни файлов robots.txt. Закономерность: восемь из десяти файлов содержат хотя бы одну критическую ошибку. Чаще всего встречается Disallow: /bitrix/ без последующих Allow для стилей и скриптов. Результат: Google Search Console переполнена ошибками рендеринга, а страницы в мобильной выдаче отображаются некорректно.
Второй по частоте случай: интернет-магазины с открытыми фильтрами. Без Disallow для *?FILTER*=, *set_filter= и *display= в индекс попадают десятки тысяч комбинаций параметров — и Яндекс.Вебмастер выдаёт предупреждения о неестественно быстром росте числа страниц. Исправление этих двух ошибок обычно даёт заметный прирост позиций по ключевым запросам уже в течение двух-трёх недель после реиндексации.
[FAQ]
Q1: Нужен ли robots.txt, если сайт работает на Битрикс?
Да, обязательно. Битрикс генерирует множество служебных страниц (корзина, личный кабинет, фильтры, дубли index.php), которые без запрета попадают в поисковую выдачу.
Q2: Обязателен ли robots.txt по закону РФ?
Российское законодательство не требует обязательного наличия файла robots.txt. Однако его отсутствие может привести к индексации страниц с персональными данными пользователей, что нарушает требования Федерального закона № 152-ФЗ «О персональных данных».
Q3: Как часто нужно обновлять robots.txt?
При каждом изменении структуры сайта: добавлении новых разделов, изменении URL-правил, подключении модулей фильтрации. Минимум — раз в квартал.
Q4: Что будет, если оставить robots.txt пустым?
Пустой файл означает, что индексация разрешена для всех страниц сайта. Служебные разделы, корзина и дубли попадут в выдачу.
Q5: Можно ли запретить индексацию через Disallow: /?
Технически да, но это экстренная мера только на время разработки. Для работающего сайта это означает полное исчезновение из поиска.
Q6: Как проверить, что robots.txt работает корректно?
Через Яндекс.Вебмастер (Инструменты → Анализ robots.txt) и Google Search Console (Настройки → Проверка robots.txt).
Q7: Почему Google игнорирует мой robots.txt?
Google поддерживает только User-agent, Disallow, Allow и Sitemap. Директивы Host, Crawl-delay и Clean-param Google игнорирует.