Robots.txt - это специальный служебный файл, расположенный в корневом каталоге сайта. В нем можно указать поисковым роботам, какие страницы и данные не следует индексировать.
Файл robots.txt - незаменимый помощник в борьбе с дублями и нецелевыми страницами, попавшими в индекс. Обязательно создайте этот файл в соответствии с
рекомендациями поисковых систем. С его помощью вы сможете помочь поисковым паукам корректно индексировать ваш сайт.
Перечислим основные разделы и страницы с дублированным контентом, индексацию которых стоит запретить в файле robots.txt. В первую очередь, это:
- страницы пагинаций, фильтраций и сортировок с дублированным контентом,
- страницы с UTM-метками,
- результаты поиска,
- тестовые страницы, поддомены и серверы,
- RSS-фиды.
Перечислим основные разделы и страницы с малоинформативным и служебным контентом, индексацию которых стоит запретить в файле robots.txt. В первую очередь, это:
- служебные страницы и файлы, логи сайта, страницы с внутренней статистикой, вход в административную панель, кэш страниц, модули, подгружаемые на страницы, и другие технические страницы,
- страницы авторизации, смены и напоминания пароля,
- висячие узлы (то есть страницы, с которых нет ссылок на другие страницы сайта, например, версия страницы для печати),
- страницы совершения действия вида (добавления в корзину, оформления заказа и пр),
- страницы с
динамическими параметрами;
- неинформативные или пустые doc- и pdf файлы (такие файлы лучше не просто закрывать от индексации, а удалять с сайта). При этом надо помнить, что, если такие файлы уникальны и несут полезную информацию, их не закрывают от индексации.
Понятно, что приведенные списки не являются исчерпывающими. Каждый движок имеет свои особенности, поэтому желательно делать регулярную проверку, выявлять дубли и мусорные страницы и запрещать их к индексации.
Надо отметить, что запрещение индексации разделов через файл robots.txt без скрытия ссылок на них может приводить к тому, что эти разделы все же попадут в индекс со всеми вытекающими последствиями.
Про robots.txt профессионалы даже шутят, что он как презерватив: вроде бы защищает, но гарантий никаких.
Поэтому желательно просто убирать ссылки на нежелательные разделы из клиентской части сайта: так вы надежно скроете их и от поисковиков, и от пользователей.
Также в файле robots.txt следует указать:
- ссылку на карту сайта с помощью
директивы Sitemap - главное зеркало с помощью
директивы Host.
Остается добавить, что для анализа корректности файла роботс нужно воспользоваться валидаторами
Яндекса и
Гугля.
Больше информации:
Если вы хотите заказать продвижение сайта, свяжитесь со мной любым удобным способом:
+7 (906) 719-95-80
sergey@mainbit.ru serganisimov (skype).