Стандарт исключений для роботов – файл robots.txt

В прошлой статье мы создали файл sitemap.xml, для того, чтобы облегчить роботам доступ к содержимому сайта и ускорить попадание страниц в индекс поисковых систем.

В этой статье познакомимся с файлом robots.txt, который выполняет противоположные задачи – ограничивает доступ к определенным страницам сайта и запрещает их индексирование.

Зачем же закрывать доступ к страницам?

Дело, в том, что на любом сайте есть страницы, которые не имеют ценности для посетителей, а соответственно не нужны и поисковым системам.

Например, возьмем файл xmlrpc.php, который есть, по умолчанию, на всех сайтах, созданных на базе CMS WordPress. В этом файле прописан код, который позволяет осуществлять удаленную публикацию статей, к примеру, из внешнего редактора Windows Live Writer.

Так вот, файл xmlrpc.php не имеет видимого для посетителя содержимого. Тем не менее, если не принять соответствующих мер, то он будет сканироваться и индексироваться поисковыми системами.

Запретить доступ к xmlrpc.php можно простой инструкцией в файле robots.txt:

Disallow: /xmlrpc.php.

Таким образом мы избавляем роботов он ненужной работы и даем им возможность просканировать более важные страницы, содержащие полезную для посетителей информацию.

По аналогии закрывается доступ к прочим техническим страницам сайта. Какие страницы рекомендуется закрывать и пример файла robots.txt вы увидите далее в статье.

Помимо инструкций для ограничения доступа, в файле robots.txt можно и нужно указать путь к карте сайта для поисковых систем, с которой мы познакомились в прошлой статье. Делается это таким образом:

Sitemap: http://wordpress-life.ru/sitemap.xml.gz

Sitemap: http://wordpress-life.ru/sitemap.xml

Также в robots.txt указывается главное зеркало сайта:

Host: wordpress-life.ru

Для поисковых роботов сайты wordpress-life.ru и www.wordpress-life.ru – это два разных сайта. Роботы индексируют сайт только по адресу главного зеркала. Вот инструкцией, указанной выше, можно указать предпочтительный домен для индексирования (с www или без www).

Еще в robots.txt прописывают инструкции, которые помогают избежать дублирования контента на сайте. Делать это через robots.txt – это нехорошая практика, но для лучшего понимания вопроса вкратце изложу суть.

На сайте по разным url-адресам может быть доступно одно и тоже содержимое, Например, в нескольких последних статьях вашего блога присутствуют одинаковые метки: “wordpress” и “плагин”. Если вы захотите посмотреть все статьи, содержащие метку “wordpress” и перейдете по url-адресу: ваш_сайт/tag/wordpress, а потом посмотрите статьи для тега “плагин”:  ваш_сайт/tag/plagin, то увидите одинаковый список статей с анонсами.

Вот такая ситуация, с точки зрения поисковых систем, считается дублированием содержимого или дублирование контента. Такой текст считается уже не уникальным, поскольку доступен по нескольким урл-адресам, и соответственно теряет свои позиции в поисковой выдаче.

В таком случае в файле robots.txt можно прописать инструкцию Disallow: /tag/, таким образом, запретив индексирование всех url-адресов, содержащих в себе фрагмент /tag/.

Почему не желательно решать вопрос дублирования контента с помощью robots.txt?

Потому что, например, после переноса сайта на другой хостинг файл robots.txt получит, по умолчанию, такие права доступа, при которых он будет недоступен для поисковых систем. Вы можете забыть установить необходимые разрешения и все страницы, которые вы так тщательно закрывали в robots.txt успешно проиндексируются…

Закрывать от индексирования дубли страниц лучше средствами WordPress и плагинов. Например, в настройках плагина All In One SEO Pack есть пункт: “Use NOINDEX for Tag Archives”, включив который, вы закроете страницы тегов от индексирования и решите тем самым проблему дублирования содержимого, возникающую через теги. Аналогичные пункты есть для категорий и дат.

Теперь перейдем к самому интересному – примеру файла robots.txt.

Многие пишут статьи с заголовком “Правильный robots.txt для WordPress”. Что можно сказать по этому поводу? Правильным этот файл может быть в плане синтаксиса, т.е. если все инструкции написаны согласно стандарту, то любой такой файл robots.txt можно называть правильным.

В плане же содержимого нельзя говорить, что вот если у вас есть такие-то инструкции, то этот robots.txt правильный, иначе у вас неправильный robots.txt. Всё содержимое этого файла – это не закон, а всего лишь рекомендации для поисковых систем и каждый вправе решать для себя какие рекомендации он будет давать ПСам относительно своего сайта.

Предлагаемый в статьях о robots.txt файл, лучше называть не правильный, а, например, используемый автором или рекомендуемый автором и т.п.

 

Где находится robots.txt?

Файл robots.txt находится в корне сайта:

ваш_сайт/robots.txt

Собственно, вот вам и ключ к большому количеству примеров содержимого robots.txt.

Зайдите на любой популярный сайт, созданный с помощью WordPress, допишите в адресной строке браузера /robots.txt и вот вам пример содержимого файла. Таким образом, проанализировав файл robots.txt с нескольких сайтов, можете создать свой собственный, используя опыт и знания других сайтостроителей.

Успехов в управлении роботами! =)

Понравилась статья? Не забудьте поделиться с друзьями и коллегами:

Вы можете пропустить чтение записи и оставить комментарий. Размещение ссылок запрещено.

2 комментария к записи “Стандарт исключений для роботов – файл robots.txt”

  1. Павлуха

    На всякий случай после правки robots.txt стоит зайти в инструменты для вебмастера Яндекса или Гугла (лучше в оба). И добавить в поле проверки корректности robots.txt адреса, которые не должны быть исключены: записи, статические страницы, картинки, страницы пагинации на карте сайта и т.д. По одному адресу всех типов для проверки достаточно. Зато после проверки можно быть уверенным, что не заблокировал ничего лишнего

    • Алексей Ершов

      Отличное и очень важное замечание!
      Спасибо!

Оставить комментарий

Для размещения кода в комментарии используйте теги <pre> </pre>, например:


Подписаться, не комментируя