Правильный robots.txt для WordPress 2020

Сегодня я вам дам полную инструкцию, как общаться с поисковыми роботами с помощью одного интересного файла robots.txt и как составить правильный robots.txt для WordPress 2020 года.

Google и Яндекс работают с содержанием нашего сайта согласно командам robots.txt

Благодаря командам, указанным в файле robots.txt, мы можем контролировать, как роботы должны сканировать наш сайт. Для этого мы должны выучить их язык.

Правильный robots.txt для wordpress 2020

Цель создания вашего собственного сайта — всегда присутствовать в Интернете. Поэтому мы решаем оптимизировать сайт, чтобы он показывался в поиске на высоких позициях.

Основной вопрос - как Google или Яндекс узнают содержание нашего сайта? Ведь задача агентов поисковых систем — изучить контент сайтов. Как только они доберутся до нашего сайта, стоит сообщить им, где они могут совать свой нос, а где нет — существуют страницы, видимость которых нежелательна.

Правильный ROBOTS.TXT - Как его настроить

Мы используем файл robots.txt для связи с интернет-роботами. Именно этот простой текстовый файл они ищут в первую очередь, когда попадают на наш сайт. Он состоит из комбинации команд, которые соответствуют стандарту протокола исключения роботов - «языку», понятному ботам.

Благодаря этому мы можем влиять на направление их трафика, ограничивая доступ к ресурсам, которые не нужны в контексте результатов поиска. Это могут быть:

  • графические файлы,
  • стили,
  • сценарии
  • и, что самое важное, отдельные страницы нашего сайта.

МЕСТА, КОТОРЫЕ РОБОТ НЕ ДОЛЖЕН ИНДЕКСИРОВАТЬ

Сайты давно перестали быть простыми файлами, содержащими только текстовое содержимое. Особенно в интернет-магазинах часто есть тысячи записей, некоторые из которых не имеют значения в контексте результатов поиска, а в худшем случае приведут к дублированию контента.

Такие предметы, как корзина для покупок, внутренняя поисковая система, процедура заказа или панель пользователя, не должны быть доступны для роботов. Гораздо более вероятно, что из-за их конструкции они внесут ненужную путаницу, чем в то, что они улучшат нашу видимость в SERP. Также стоит блокировать копии страниц, созданных CMS, которые увеличивают внутреннее дублирование.

Примечание: WordPress создаёт много дублированного контента за счёт создания отдельных директорий:

  • рубрики
  • метки
  • архивы.

В результате поисковые роботы видят одни и те же статьи в разных разделах. При этом им всё равно, что этот контент находится на одном и том же сайте. Они просто фиксируют, что под разными URL-адресами  размещён абсолютно одинаковый текст. Они считают его не неуникальным, скопированным и понижают в выдаче, а то и вовсе убирают  весь сайт из Интернет-поиска

БУДЬТЕ ОЧЕНЬ ОСТОРОЖНЫ!

При создании правил, регулирующих движение индексных ботов, вы должны быть знакомы со структурой сайта. Существует риск, что с помощью одной команды мы заблокируем им доступ ко всему веб-сайту или контенту, важному для нас. Результат будет контрпродуктивным — мы исчезнем из результатов поиска.

 Правильный ROBOTS.TXT для WordPress — РЕКОМЕНДАЦИИ, актуальные на 2020 год

Робот может следовать нашим рекомендациям, но мы не можем навязать ему свою волю. Для этого есть разные причины. Во-первых, робот Google, - это не один бот, просматривающий сайты.  Личные данные всегда должны быть защищены паролем - роботы не могут их обработать. Поэтому в контексте этого файла речь идет о сокрытии данных, а не об их удалении из индекса поисковой системы.

 Как написать правильный robots.txt для WordPress 2020

В Интернете существует множество генераторов файлов Robots. Есть также отличные учебники по WordPress.  Однако стоит знать синтаксис протокола.

Правильный robots.txt для WordPress 2020

Как устроены команды файла Robots.txt

Для выдачи команд мы используем несколько ключевых слов, оканчивающихся на двоеточие, создающих правила доступа.

User-agent: - указывает получателя команды. Введите имя индексирующего бота здесь. В Интернете мы найдем обширную базу данных имен ( http://www.robotstxt.org/db.html ) , но чаще всего мы хотим общаться с роботом Google - это уже упомянутый робот Google или все сразу - тогда мы используем звездочку " * ". Например, для бота Google первая строка правил выглядит так:

User-agent: Googlebot

Disallow: - после этого слова мы даем адрес, который боты не должны сканировать. Наиболее популярным методом является скрытие содержимого целых каталогов путем ввода пути, заканчивающегося символом «/», например,

Disallow: /wp-admin/

или файлы:

Disallow: /image/ filegraphic.html

Allow — разрешить: - если внутри скрытого каталога есть контент, которым мы хотели бы поделиться с сканируемыми роботами, путь к нему указывается после слова Allow  :

Allow: /catalog/ prosmotr/

Allow: /zatalog/2020/file.html

Sitemap— карта сайта:   - после этого слова мы указываем путь к карте сайта.  Этот элемент не нужен для корректной работы файла robots.txt . Например:

Sitemap: http:/moysait.com/sitemap.

robots/txt

ПРАВИЛА ВВОДА МАРКИРОВКИ В ROBOTS.TXT и
ПРАВИЛО ПО УМОЛЧАНИЮ

Прежде всего, стоит помнить, что инструкция по умолчанию для сканеров - дать согласие на сканирование всего сайта. Итак, если файл robots.txt должен разрешить это:

User-agent: *
Allow: /

тогда нам не нужно помещать это в каталог сайта. Боты будут сканировать его по своему усмотрению. Однако стоит размещать такой файл, чтобы избежать возможных ошибок при его анализе.

РЕГИСТР БУКВ

Это может стать неожиданностью, но роботы могут распознавать прописные и строчные буквы. Поэтому sait.php и Sait.php будет для них два разных адреса.

СИЛА ЗВЕЗДЫ в robots.txt

Другой практической функциональностью является оператор подстановочного знака, то есть звездочка, упомянутая ранее  *. В протоколе исключения роботов это информация о том, что в данном месте может появиться любая заданная строка символов неограниченной длины (также нулевая). Например, правило:

Disallow: /*/file.html

будет применяться к обоим файлам, расположенным в:

/katalog1/file.html5

а также это в папке:

/folder1/folder2/folder36/file.html

Мы можем использовать звезду по-другому. Инструкция, в которую мы помещаем его перед конкретным расширением файла, позволяет нам ссылаться на правило для всех файлов этого типа. Например:

Disallow: /*.php

будет ссылаться на все файлы .php на нашем сайте (кроме пути "/", даже если он ведет к файлу с расширением .php) и правила:

Disallow: /folder1/test*

ко всем файлам и каталогам в folder1 с символами «test» в начале.

КОНЕЦ СТРОКИ

Вы также должны знать о существовании оператора " $ ", который отмечает конец адреса. Таким образом, например, используя правило:

User-agent: *
Disallow: /folder1/
Allow: /folder1/*.php$

Мы разрешаем доступ  к файлам .PHP в заблокированной папке folder1

 

КОММЕНТАРИИ в robots.txt

Если полученный файл и наш сайт достаточно сложны, стоит добавить комментарии, объясняющие наши решения. Это очень просто - просто добавьте « # » в начало строки. Роботы пропустят его содержимое во время своей работы.

Мы процитировали правило, которое разблокирует доступ ко всем файлам ранее. Также стоит знать тот, который заставит ботов покинуть наш сайт.

User-agent: *
Disallow: /

Поэтому, если наш сайт вообще не виден в поисковой системе, стоит проверить, не была ли найдена эта запись в файле robots.txt .

КУДА ПОЛОЖИТЬ ФАЙЛ ROBOTS.TXT?

Мы уже создали текстовый файл, который соответствует всем стандартам. Все, что нам нужно сделать, это отправить его на сервер. Здесь правило очень простое. Он должен быть найден в корневом каталоге нашего сайта. Любое другое место не позволит ботам найти его. Итак, пример адреса:

http://wps2.ru/robots.txt

Файл robots.txt представляет собой набор рекомендаций для ботов, которые сканируют наш сайт. Они не обязаны их соблюдать. Тем не менее, основные поисковые системы выполняют наши инструкции. Поэтому, если мы подготовили файл в соответствии с рекомендациями Google, это, несомненно, будет способствовать правильной индексации последующих подстраниц. Если вы хотите полностью и на 100% заблокировать доступ к определенным данным на сервере, стоит использовать другие методы, среди которых наиболее надежным будет пароль, который трудно взломать.

Пример:  правильный robots.txt для WordPress  на 2020 г.

Disallow: */rss # rss фид
Disallow: */embed # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,
# правило можно удалить)
Disallow: /xmlrpc.php # файл WordPress API
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Allow: */uploads # открываем папку с файлами uploads

User-agent: GoogleBot # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback

Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback

Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать
# от индексирования, а удалять параметры меток,
# Google такие правила не поддерживает
Clean-Param: openstat # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
# не нужно). Yoast создает 3 карты сайта, как в примере ниже.
Sitemap: https://wpress2.ru/post-sitemap.xml
Sitemap: https://wpress2.ru/page-sitemap.xml
Sitemap: https://wpress2.ru/category-sitemap.xml

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: https://wpress2.ru

Такой файл я применяю на всех своих сайтах, и ни разу не было ни одного негативного случая. Не сомневайтесь, это правильный robots.txt для WordPress 2020 год.

Только  поменяйте название моего сайта на ваше😊

Вот ещё рабочий вариант robots.txt. Качай и устанавливай!

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: http://ваш сайт.ru

Sitemap: http://ваш сайт.ru/sitemap.xml

Ну вот и всё. Пишите в комментариях, что нужно уточнить.

Комментарии 2

2 комментария

  • А вот эту всю строчку вставлять в робот тхт или что то удалять и что удалять — людям котороые плохо знают про робот тхт и заходят чиать эти статьи, а по сути статья бесполезная потому что не понятно что оставлять тут а что удалять —- Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ — для приоритета)

    а спецы ктоторое это понимают и так сами все знают и не ходят читать эти статья

    • Спасибо за высказанное мнение! Вставлять в таком виде можно не только строчку, но и весь файл, ведь то что написано после знака # — это просто комментарии.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Читайте ранее:
WORDPRESS!
Лучшие бесплатные шаблоны Вордпресс

Выбор темы для оформления сайта довольно труден, потому что мы часто не представляем сами, что хотим получить в финале. Я,...

Закрыть
«Copyright © 2020 год by Mikhailov S. Все права защищены в Seneschal.ru. Запрещено любое копирование материалов сайта без письменного согласия владельца – Mikhailov S»