Dr. Cherry pikapuka.com С любовью о SEO

Как правильно составить и настроить robots.txt для сайта на 1С-Битрикс

Пошаговая инструкция: от генератора в админке до готового файла с правилами для Яндекса и Google. Закрываем дубли, корзину, фильтры и личный кабинет. Проверяем ошибки и защищаем краулинговый бюджет.

Как правильно составить и настроить robots.txt для сайта на 1С-Битрикс

В 2023 году исследование «Маркетология» показало: каждый третий сайт на Битрикс в Рунете сливает до 40% краулингового бюджета на индексацию технических страниц — корзины, дублей, фильтров. Причина почти всегда одна: robots.txt либо отсутствует, либо настроен с ошибками. Я разбирал больше сотни таких файлов для клиентов и видел одно и то же: Disallow: /bitrix/ без Allow для CSS — и Google Search Console завалена ошибками рендеринга. Давайте исправим это раз и навсегда.

Что такое robots.txt и зачем он нужен сайту на Битрикс

Robots.txt — это текстовый файл в кодировке UTF-8, который лежит строго в корневой директории сайта. Поисковый робот, заходя на сайт, первым делом обращается по адресу https://ваш_сайт.ru/robots.txt и читает инструкции.

Файл работает в рамках Robots Exclusion Protocol (REP) — стандарта, закреплённого в спецификации RFC 9309 (сентябрь 2022 года). Яндекс, Google, Bing и большинство поисковых систем добровольно соблюдают правила, прописанные в robots.txt. Но:

Robots.txt — это рекомендация, а не принудительный запрет. Не все боты в интернете ему подчиняются.

Для сайта на 1С-Битрикс robots.txt критически важен. CMS генерирует множество служебных страниц, которые без запрета попадают в индекс: корзина, личный кабинет, авторизация, поиск по сайту, версии для печати, дубли главной через index.php, фильтры с GET-параметрами. Всё это размывает поисковую выдачу и понижает позиции полезных страниц.

Если файла нет в корневой директории, поисковые роботы считают, что индексация разрешена для всех страниц. Пустой файл означает то же самое.


Где находится генератор robots.txt в админке Битрикс

Начиная с версии 14.0 модуля «Поисковая оптимизация» в 1С-Битрикс встроен визуальный генератор robots.txt. Вручную создавать файл больше не нужно.

Путь к генератору:
«Маркетинг» → «Поисковая оптимизация» → «Настройка robots.txt».

На странице «Управление robots.txt» вы увидите:

  • Контекстную панель — если в системе несколько сайтов, переключитесь на нужный.

  • Вкладку «Общие правила» — здесь создаются инструкции для всех поисковых систем. Кнопка «Стартовый набор» формирует базовый рекомендованный набор правил и запрашивает главное зеркало сайта.

  • Вкладки «Яндекс» и «Google» — позволяют задать специфические правила для конкретной поисковой системы.

  • Вкладку «Редактировать» — для ручного ввода правил, если нужно дописать что-то сверх сгенерированного.

В нижней части формы — ссылки на официальную документацию Яндекса и Google по использованию robots.txt.

⚠️ Если у вас версия ниже 14.0, файл нужно создавать вручную и размещать в корне сайта. Соответствующий урок есть в документации для разработчиков 1С-Битрикс.


Как составить robots.txt для Битрикс вручную: синтаксис и структура

Даже если вы пользуетесь генератором, понимать синтаксис нужно. Иначе не сможете проверить, что именно сгенерировалось, и добавить нестандартные правила.

Требования к файлу:

  • Название — строго robots.txt (все буквы нижнего регистра, без пробелов и других символов).

  • Кодировка — UTF-8.

  • Расположение — корневая директория сайта. Файл должен открываться по адресу https://example.com/robots.txt.

Структура правил:
Файл состоит из групп правил, разделённых пустой строкой. Каждая группа начинается с директивы User-agent, за которой следуют инструкции для указанного робота.

Базовые правила: User-agent, Disallow, Allow

User-agent — указывает, к какому роботу относятся следующие ниже инструкции. User-agent: * означает, что правила применяются ко всем роботам.

Disallow — запрещает индексацию файла или папки. Пример: Disallow: /bitrix/ — системная папка Битрикс закрыта от индексации.

Allow — разрешает индексацию, даже если родительская папка закрыта через Disallow. Пример: Allow: /bitrix/*.css — открывает CSS-файлы, чтобы поисковики могли корректно отрендерить страницы.

Правила обрабатываются сверху вниз, и побеждает первое совпадение. Поэтому Allow для конкретных типов файлов ставят после общего Disallow на папку.

Стартовый набор в генераторе Битрикс автоматически создаёт правила, закрывающие административные страницы, личные данные пользователей и отладочную информацию.

Расширенные директивы: Sitemap, Host, Crawl-delay, Clean-param

Sitemap — указывает путь к файлу карты сайта. Робот находит этот адрес и дальше сканирует sitemap.xml для понимания структуры сайта. Пример:

text
Sitemap: https://example.com/sitemap.xml

Host — директива только для Яндекса. Указывает главное зеркало, если сайт доступен по нескольким адресам (с www и без, по HTTP и HTTPS). Пример:

text
Host: example.com

Crawl-delay — минимальный интервал между запросами робота к серверу (в секундах). Яндекс и некоторые другие поисковики её учитывают, Google — игнорирует. Пример:

text
Crawl-delay: 5

Clean-param — директива только для Яндекса. Убирает из индекса URL с указанными GET-параметрами, считая их дублями основной страницы. Пример:

text
Clean-param: utm_source&utm_medium&ysclid /

Какие страницы нужно закрыть в robots.txt на Битрикс

Типовая установка Битрикс содержит десятки технических URL. Ниже — полный список того, что нужно закрывать, сгруппированный по категориям.

Системные папки и файлы: /bitrix/, /local/, /upload/

text
User-agent: *
Disallow: /bitrix/
Allow: /bitrix/*.js
Allow: /bitrix/*.css
Allow: /bitrix/*.svg
Allow: /bitrix/*.png
Allow: /bitrix/*.gif
Allow: /bitrix/*.ttf
Allow: /bitrix/*.woff
Disallow: *bitrix_*=
Disallow: /local/
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg
Allow: /local/*.png
Allow: /local/*.gif
Allow: /local/*.svg
Allow: /local/*.woff
Allow: /local/*.webp
Disallow: /upload/

Папки /bitrix/ и /local/ содержат ядро системы и пользовательские модули. Их индексация не просто бесполезна — она раскрывает внутреннюю структуру сайта. Но файлы стилей и скриптов нужно открыть: без них Googlebot не отрендерит страницы, и Google Search Console начнёт выдавать ошибки.

Папку /upload/ можно закрыть полностью: загруженные файлы доступны через публичные страницы, и их дубли в индексе не нужны.

Личный кабинет, корзина, авторизация, регистрация

text
Disallow: /personal/
Disallow: /basket/
Disallow: /auth/
Disallow: /cart/
Disallow: *register=
Disallow: *forgot_password=
Disallow: *change_password=
Disallow: /*login=
Disallow: *logout=

Эти разделы содержат персональные данные пользователей и не должны индексироваться. Корзина и страницы оформления заказа (/*order) тоже закрываются — их содержание динамическое и меняется от сессии к сессии.

Фильтры, сортировка, пагинация и дубли страниц

Самый объёмный источник дублей в Битрикс — умный фильтр с ЧПУ. Каждая комбинация параметров создаёт уникальный URL. Без запрета в индексе оказываются сотни тысяч страниц-дублей.

text
Disallow: /*index.php$
Disallow: */search/
Disallow: *print=
Disallow: *display=
Disallow: *linerow=
Disallow: *year=
Disallow: *action=
Disallow: *alfaction=
Disallow: *?new=Y
Disallow: *?edit=
Disallow: *?preview=
Disallow: *backurl=
Disallow: *back_url=
Disallow: *back_url_admin=
Disallow: *captcha
Disallow: *?FILTER*=
Disallow: *?arrFilter*
Disallow: *set_filter=
Disallow: *?sort=
Disallow: *?order=
Disallow: *?PAGEN_*=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *?id=
Disallow: *brand=

Этот список собран на основе анализа индексации реальных сайтов на Битрикс. Параметр ysclid — техническая метка Яндекса для обхода ограничений межсайтовых cookies — тоже создаёт дубли. Его имеет смысл убрать через Clean-param для Яндекса.


Готовый robots.txt для Битрикс (пример 2026 года)

Ниже — полный пример файла, адаптированный под типовую установку Битрикс последних версий. Файл разбит на секции: общие правила, Яндекс, Google и блокировка бесполезных ботов.

text
# === ОБЩИЕ ПРАВИЛА ДЛЯ ВСЕХ РОБОТОВ ===
User-agent: *
Disallow: /cgi-bin/
Disallow: /bitrix/
Allow: /bitrix/*.js
Allow: /bitrix/*.css
Allow: /bitrix/*.svg
Allow: /bitrix/*.png
Allow: /bitrix/*.gif
Allow: /bitrix/*.ttf
Allow: /bitrix/*.woff
Disallow: *bitrix_*=
Disallow: /local/
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg
Allow: /local/*.png
Allow: /local/*.gif
Allow: /local/*.svg
Allow: /local/*.woff
Allow: /local/*.webp
Disallow: /upload/
Disallow: /basket/
Disallow: /cart/
Disallow: /personal/
Disallow: /auth/
Disallow: /test/
Disallow: /tmp/
Disallow: /cache/
Disallow: /search/
Disallow: */search/
Disallow: *print=
Disallow: /*index.php$
Disallow: *register=
Disallow: *forgot_password=
Disallow: *change_password=
Disallow: /*login=
Disallow: *logout=
Disallow: *display=
Disallow: *linerow=
Disallow: *year=
Disallow: *action=
Disallow: *alfaction=
Disallow: *?new=Y
Disallow: *?edit=
Disallow: *?preview=
Disallow: *backurl=
Disallow: *back_url=
Disallow: *back_url_admin=
Disallow: *captcha
Disallow: *?FILTER*=
Disallow: *?arrFilter*
Disallow: *set_filter=
Disallow: *?sort=
Disallow: *?order=
Disallow: *?PAGEN_*=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *?id=
Disallow: *brand=
Disallow: *?show_all=
Sitemap: https://ВАШ_САЙТ.ru/sitemap.xml

# === ПРАВИЛА ДЛЯ ЯНДЕКСА ===
User-agent: Yandex
Host: ВАШ_САЙТ.ru
Clean-param: utm_source&utm_medium&utm_campaign&ysclid /

# === ПРАВИЛА ДЛЯ GOOGLE ===
User-agent: Googlebot
Allow: /bitrix/*.js
Allow: /bitrix/*.css
Allow: /local/*.js
Allow: /local/*.css

# === БЛОКИРОВКА БЕСПОЛЕЗНЫХ БОТОВ ===
User-agent: GPTBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: CCBot
Disallow: /

⚠️ Важно: Перед использованием замените ВАШ_САЙТ.ru на реальный домен и проверьте, нет ли в структуре других служебных разделов, требующих закрытия.


Как проверить robots.txt и найти ошибки

После публикации файла обязательно проверьте его в инструментах вебмастеров.

Яндекс.Вебмастер: Инструменты → Анализ robots.txt. Сервис подсветит синтаксические ошибки и покажет, как файл отрабатывает для конкретного URL.

Google Search Console: Настройки → Проверка robots.txt. Можно ввести любой URL и посмотреть, разрешён ли он к сканированию.

Чек-лист проверки robots.txt для Битрикс

  1. Файл доступен по адресу https://site.ru/robots.txt.

  2. Название — строго robots.txt, без заглавных букв.

  3. Кодировка — UTF-8 (проверьте, что после сохранения русские комментарии не превратились в кракозябры).

  4. В общих правилах нет Disallow: / — это запрещает индексацию всего сайта.

  5. CSS, JS и файлы шрифтов открыты для Googlebot (иначе ошибки рендеринга в Search Console).

  6. Директива Sitemap указывает на актуальный файл карты сайта.

  7. Закрыты: /bitrix//local//upload//personal//basket//auth//search/.

  8. Закрыты GET-параметры фильтрации и сортировки.

  9. В файле нет директивы noindex — она не поддерживается с 2019 года.


Типичные ошибки при настройке robots.txt и как их исправить

Ошибка 1: Закрыли всю папку /bitrix/, но не открыли CSS и JS.
Googlebot не может отрендерить страницы, и Search Console показывает ошибки. Исправление: добавьте Allow для *.css*.js*.woff*.ttf.

Ошибка 2: Указали noindex в robots.txt.
С 1 сентября 2019 года Google официально не поддерживает noindex в robots.txt. Для запрета индексации используйте мета-тег <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag: noindex.

Ошибка 3: Название файла с заглавной буквой.
Robots.txt или ROBOTS.TXT на Linux-сервере — это другой файл. Поисковик его не увидит. Все буквы должны быть нижнего регистра.

Ошибка 4: Забыли переключить сайт в контекстной панели.
Если в админке несколько сайтов, а вы не переключились — измените файл не на том сайте. Всегда проверяйте контекстную панель.

Ошибка 5: Файл robots.txt отдаёт код ответа, отличный от 200.
Проверьте через curl -I https://site.ru/robots.txt. Если сервер отдаёт 404 или 301 — поисковики не смогут прочитать файл.


Robots.txt и noindex: в чём разница

Это частая точка путаницы. Robots.txt запрещает сканирование страницы, но не индексацию. Если на закрытую в robots.txt страницу ведут внешние ссылки, она может появиться в выдаче — без сниппета, но с URL.

Google прямо указывает: «Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google».

Чтобы гарантированно убрать страницу из поиска:

  • Мета-тег: <meta name="robots" content="noindex, follow"> — для HTML-страниц.

  • HTTP-заголовок: X-Robots-Tag: noindex — для PDF, изображений и других не-HTML файлов.

  • Парольная защита — для полностью закрытых разделов.


Как заблокировать AI-роботов и бесполезных ботов

Современные AI-краулеры (GPTBot от OpenAI, CCBot от Common Crawl) и SEO-сканеры (AhrefsBot, SemrushBot, MJ12bot) создают паразитную нагрузку на сервер. Для SEO они бесполезны, а ресурсы потребляют.

Блокировка — отдельными блоками в robots.txt:

text
User-agent: GPTBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: DotBot
Disallow: /

Для остальных второстепенных ботов имеет смысл указать Crawl-delay: 5 — это снизит нагрузку на сервер, не влияя на индексацию Яндексом и Google.


Практический кейс: что я увидел при аудите 100+ сайтов на Битрикс

За пять лет работы с сайтами на Битрикс я проверил больше сотни файлов robots.txt. Закономерность: восемь из десяти файлов содержат хотя бы одну критическую ошибку. Чаще всего встречается Disallow: /bitrix/ без последующих Allow для стилей и скриптов. Результат: Google Search Console переполнена ошибками рендеринга, а страницы в мобильной выдаче отображаются некорректно.

Второй по частоте случай: интернет-магазины с открытыми фильтрами. Без Disallow для *?FILTER*=*set_filter= и *display= в индекс попадают десятки тысяч комбинаций параметров — и Яндекс.Вебмастер выдаёт предупреждения о неестественно быстром росте числа страниц. Исправление этих двух ошибок обычно даёт заметный прирост позиций по ключевым запросам уже в течение двух-трёх недель после реиндексации.

 

[FAQ]

Q1: Нужен ли robots.txt, если сайт работает на Битрикс?
Да, обязательно. Битрикс генерирует множество служебных страниц (корзина, личный кабинет, фильтры, дубли index.php), которые без запрета попадают в поисковую выдачу.

Q2: Обязателен ли robots.txt по закону РФ?
Российское законодательство не требует обязательного наличия файла robots.txt. Однако его отсутствие может привести к индексации страниц с персональными данными пользователей, что нарушает требования Федерального закона № 152-ФЗ «О персональных данных».

Q3: Как часто нужно обновлять robots.txt?
При каждом изменении структуры сайта: добавлении новых разделов, изменении URL-правил, подключении модулей фильтрации. Минимум — раз в квартал.

Q4: Что будет, если оставить robots.txt пустым?
Пустой файл означает, что индексация разрешена для всех страниц сайта. Служебные разделы, корзина и дубли попадут в выдачу.

Q5: Можно ли запретить индексацию через Disallow: /?
Технически да, но это экстренная мера только на время разработки. Для работающего сайта это означает полное исчезновение из поиска.

Q6: Как проверить, что robots.txt работает корректно?
Через Яндекс.Вебмастер (Инструменты → Анализ robots.txt) и Google Search Console (Настройки → Проверка robots.txt).

Q7: Почему Google игнорирует мой robots.txt?
Google поддерживает только User-agent, Disallow, Allow и Sitemap. Директивы Host, Crawl-delay и Clean-param Google игнорирует.

← Все статьи