Привет, читатель блога GuideComputer! У меня хорошая новость, я наконец-то разобрался как правильно составить robots.txt. Всех заинтересованных прошу незамедлительно пройти к чтению статьи:
Начну с того, что лет 7 назад я создавал сайты на Ucoz, а затем на Joomla. В поисковой выдаче всегда творился ад — дубли, дубли и служебные страницы… Позже я узнал, можно говорить поисковикам, что нужно индексировать и добавлять в поисковую выдачу, а что нельзя с помощью robots.txt.
Содержание:
Что такое robots.txt?
Роботс (на русский манер) — это текстовый файл, дающий рекомендации поисковым роботам : какие страницы/файлы стоит сканировать.
Где лежит robots.txt в wordpress?
Находится файл в корневой папке сайта и располагается по адресу site.ru/robots.txt. Кстати, таким образом вы можете посмотреть роботс не только моего веб-ресураса, но и любого другого.
Сейчас я покажу пример правильного robots.txt для сайта на WordPress:
Строки выше необходимо скопировать, вставить в текстовый документ, сохранить с именем robots.txt и загрузить в корневую папку сайта. К сожалению, из-за популярности кода, мне пришлось его вставить в виде картинки, иначе уникальность статьи падает до 45%.
Не расстраивайтесь, что вам придется переписывать вручную, я приготовил файл, в котором нужно поменять всего две строчки. Написать название своего ресурса и расположение карты sitemap.xml — Загрузить robots.txt.
Для тех, кому вышесказанное показалось сложным существует более простое решение! Если на вашем сайте установлен плагин Yoast Seo, то существует возможность создать robots.txt прямо из админ панели WordPress. Показываю как:
Заходим в настройки плагина, открываем вкладку инструменты:
Открываем редактор файлов.
Вставляем код, который вы загрузили выше, и не забываем сохранить!
Ниже находится файл .htaccess — без знаний что это такое советую туда не лезть. С этим файлом нужно обращаться очень осторожно, потому что изменения могут привести к ошибкам, в следствии которых сайт может перестать загружаться.
Синтаксис
Особо не стоит заморачиваться над синтаксисом файла, поэтому я расскажу лишь об основных частях кода.
User-agent: — данное выражение отвечает для каких поисковых роботов будут применяться правила. Например, * — обозначается для всех, Yandex — для Яндекса, Googlebot — для Гугл робота.
Disallow — выражение, отвечает за запрет индексирования разделов. Если вы не хотите дублей или технических страниц в поиске, то таким образом можете запретить доступ. Например, вот таким образом Disallow: /tag я не разрешаю индексирование тегов.
Host — данное выражение отвечает за главное зеркало сайта. Учтите, что http, https, www и без — это 4 разных варианта. Необходимо выбрать только один и именно его прописать в роботс.
Sitemap — данное выражение задает адрес по которому располагается карта сайта. На моем веб-ресурсе она создана автоматически с помощью плагина Yoast Seo.
Впервые слышишь о карте сайта? — Читай, что такое sitemap и как его создать для wordpress.
Проблемы без ЧПУ
Я уже рассказывал о важности настройки ЧПУ WordPress для сайта. Этот раздел посвящен тем, кто проигнорировал мои рекомендации:
Без ЧПУ ссылки сайта выглядят следующим образом — guidecomputer.ru/?p=123. Строчка Disallow: /*?* запрещает индексирование статей, поэтому её необходимо удалить. Для невнимательных, в коде выше она встречается 2 раза.
Проверка robots.txt
Чтобы проверить правильность составленного файла — необходимо провести анализ. Для этого существуют два наиболее популярных инструмента:
Проверка robots.txt в Яндекс вебмастере или с помощью инструментов Google. ( Если вы еще не зарегистрировались в сервисах для Вебмастеров — советую это сделать незамедлительно. )
Я покажу как воспользоваться обеими вариантами, выбирайте сами какой больше нравиться. А еще лучше воспользуйтесь каждым, тем более это не займет больше пары минут.
Проверка с помощью Яндекс Вебмастера
Заходим в инструменты в левом меню, и выбираем первый пункт Анализ robots.txt:
Добавляем ссылку на проверяемый сайт, нажимаем кнопку загрузки, а затем проверить.
Немного ждем и смотрим Результаты анализа, в моем случае 0 ошибок.
Проверка с помощью Search Console
Заходим в Сканирование, выбираем раздел инструменты проверки файла:
Вставляем robots.txt и кликаем отправить.
В 3-ем пункте выбираем отправить и смотрим на количество ошибок.
Заключение
Не стоит откладывать с применением вышесказанного: настройка robots.txt — это одно из важнейших первичных действий при создании веб-ресурса. Значительность которого можно сравнить с дверями вашего дома, которые оберегают от непрошеных гостей и обеспечивает безопасность.
После того, как построен каркас дома ставят двери. Так же должно происходить с сайтом — покупка домена и хостинга, установка CMS WordPress, а затем роботс.
Надеюсь, что раскрыл все моменты связанные с правильной настройкой файла robots.txt для wordpress. Но если у вас остались вопросы, с удовольствием отвечу — Добро пожаловать в комментарии!