Главная
Статьи
Robots.txt исчерпывающее руководство по настройке

10 08 2024, 00:00

Robots.txt исчерпывающее руководство по настройке

Категории

Статьи

Файл robots.txt является важным элементом, расположенным в корневой директории веб-сайта, который содержит инструкции для поисковых роботов о том, какие части сайта они могут индексировать. Этот файл — один из первых, к которому обращаются краулеры при посещении сайта.

В robots.txt указываются правила, которые определяют, к каким URL на сайте у поисковых систем есть доступ. Это позволяет контролировать интенсивность сканирования сайта и, как следствие, уменьшать нагрузку на сервер. Однако стоит помнить, что robots.txt не предназначен для полной блокировки контента в поисковых системах, таких как Google. Если вы хотите скрыть определённые страницы, лучше использовать мета-теги noindex или ограничить доступ к ним с помощью пароля.

Несмотря на то что файл robots.txt не блокирует страницы от индексации полностью, если на страницу существуют внешние ссылки, Googlebot все равно может индексировать её, даже не заходя на саму страницу. Чтобы исключить страницу из поисковых систем, следует применять другие методы, например, защиту паролем.

Robots.txt часто используется для исключения из индексации дубликатов, технических страниц, страниц с ошибками и другого неактуального контента. С помощью robots.txt также можно указать поисковым системам путь к файлу карты сайта (Sitemap), что упрощает индексацию сайта. В ряде случаев файл используется для ограничения доступа к сайту для нежелательных поисковых систем.

Если доступ к странице ограничен через файл robots.txt, она всё равно может попасть в индекс благодаря ссылкам с других ресурсов. Google не будет сканировать или индексировать контент, который заблокирован в файле robots.txt напрямую. Однако, если на этот URL имеются ссылки с других сайтов, он всё равно может быть обнаружен и включен в индекс. В результате, такая страница может появиться в поисковой выдаче, часто сопровождаясь текстом ссылки, ведущей на неё.

Robots как не запретить индексацию сайта, а правильно его настроить

правильная настройка rotots.txt на сайте

Ниже приведен пример простого файла robots.txt с двумя правилами.

User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: * Allow:/
Sitemap: http://www.example.com/sitemap.xml

Пояснения:

Агенту пользователя с названием Googlebot запрещено сканировать любые URL, начинающиеся с http://example.com/nogooglebot/.
Любым другим агентам пользователя разрешено сканировать весь сайт. Это правило можно опустить, и результат будет тем же. По умолчанию агенты пользователя могут сканировать сайт целиком.
Файл Sitemap этого сайта находится по адресу http://www.example.com/sitemap.xml.

Файл robots.txt должен располагаться строго в корне сайта, он должен быть единственным.
Например, на сайте https://www.example.com/ он должен располагаться по адресу https://www.example.com/robots.txt. Он не должен находиться в подкаталоге (например, по адресу https://example.com/pages/robots.txt

Для файлов robots.txt можно использовать URL с субдоменами (например, https://website.example.com/robots.txt) или нестандартными портами (например, >http://example.com:8181/robots.txt).
Число директив (команд) не должно превышать 1024. Символ # предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.
В описании адресов на сайте можно использовать квантор (wildcard) «*», он подразумевает «любую последовательность символов» и используется для обозначения префикса или суффикса пути до каталога или страницы по сайту (или вообще всего пути).
Файл robots.txt должен быть сохранён в формате plain text в кодировке UTF-8 и называться robots.txt
В файле robots.txt поисковый робот проверяет наличие записей, начинающихся с поля User-agent. Данная директива определяет робота поисковой системы, к которому относится это конкретное правило индексирования сайта.
В соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.
Правила должны указываться с учетом регистра. К примеру, правило disallow: /file.asp распространяется на URL https://www.example.com/file.asp, но не на https://www.example.com/FILE.asp.

Как скрыть сайт от индексации robots.txt

закрыть сайт от индексации robots.txt

Внутри директивы User-agent возможно использование следующих правил:

Должна быть хотя бы одна директива. В каждом правиле должна быть по крайней мере одна директива Disallow: (Запретить) или Allow: (Разрешить).
Disallow: Указывает на каталог или страницу в корневом домене, которые нельзя сканировать поисковым роботом, определённым выше. Если это каталог, путь к нему должен заканчиваться слешем. Поддерживается квантор «*» для обозначения префикса/суффикса пути или всего пути.
Allow: Директива указывает на каталог или страницу в корневом домене, которые нужно сканировать поисковым роботом (с User-agent, определённым выше). Используется также для того, чтобы отменить директиву Disallow: и разрешить сканирование конкретного подкаталога или страницы в закрытом для сканирования каталоге. Если указывается каталог, путь к нему должен заканчиваться слешем. Поддерживается квантор «*» для обозначения префикса/суффикса пути или всего пути.
Sitemap. Необязательная директива, их может быть несколько или совсем не быть. Указывает на расположение карты сайта файла Sitemap. Можно перечислить
несколько файлов Sitemap, каждый на отдельной строке.
Неизвестные директивы игнорируются. Это позволяет при необходимости писать комментарии в файле robots.txt.

Типичными ошибками в robots.txt являются:

Перепутанные инструкции. Одна из самых распространённых ошибок в robots.txt - перепутанные между собой инструкции. Например:

Disallow: Yandex

Правильно писать вот так:

User-agent: Yandex
Disallow:/

Указание нескольких каталогов в одной инструкции disallow. Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.

Disallow: /css//cgi-bin//images/

Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Правильно надо писать так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Имя файла содержит заглавные буквы. Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.

Что стоит знать во время настройки robots.txt и его проверки в Google Search Console

настроить и скрыть страницы сайта google search console robots.txt

Зеркала сайта и URL в директиве Host. Чтобы указать, какой сайт является главным, а какой - зеркалом (дублем), для Google используются 301 редирект и внесение информации в Google Search Console, а для Яндекса ранее использовалась директива host. Сейчас эта директива устарела. Главное зеркало сайта явно указывается в Яндекс вебмастере. Рекомендуется эту директиву не использовать.

Редирект на страницу 404-й ошибки. Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.

Отсутствие инструкции Disallow. Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой. Disallow. По стандарту инструкция Disallow является обязательной, и робот может «неправильно вас понять».

Неправильный НТТР-заголовок. Сервер должен возвращать в НТТР-заголовке для ots.txt «Content-Туре: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

Логические ошибки. Зачастую при разветвленной структуре сайта возникают логические ошибки в определении того, что и как нужно блокировать от индексации.

Для Google: на уровне группы, в частности для директив allow и disallow, самое строгое правило, учитывающее длину записи [путь], будет важнее менее строгого и более короткого правила. Порядок очередности правил с подстановочными знаками не определен.

При конфликте между двумя директивами с префиксами одинаковой длины в Яндексе приоритет отдается директиве Allow. В любом случае протестируйте ваш robots.txt на конфликты в обоих вебмастерах.
Дополнительно проверьте, что вы закрыли от индексации:
страницы действий (добавление в корзину, сравнение товаров, перенос в список <<Избранное»),

корзины с товарами,
встроенный поиск на сайте,
служебные каталоги с конфиденциальными документами (адреса доставки, контактные телефоны), идентификаторы сессии, utm-метки с помощью директивы «Clean-param>>> для Яндекса.

Создание и тщательная подготовка robots.txt крайне важны. При его отсутствии поисковые роботы собирают всю информацию, относящуюся к сайту. В поиске могут появиться незаполненные страницы, служебная информация или тестовая версия сайта.

Нужна помощь в правильной настройке файла robots.txt? Обратитесь к нам, это поможет избежать критических проблем вашего сайта.

Статьи

Оцените статью:

( 1 )

Комментарии

Пока нет комментариев

Написать комментарий

Имя*

Введите комментарий*

Категории