четверг, 11 октября 2012 г.

Все, что нужно знать о robot.txt

При создании и сео-оптимизации своего сайта администратор должен знать, как можно создать инструкции для поисковых роботов и заложить определенные настройки индексации и безопасности. Для этого применяются файлы определенного типа.



Смотрите полный видеокурс на iTunes

Файлы robot.txt представляют собой текстовые страницы – инструкции для поисковых роботов – спрятанные в корне каталога сайта. В robot.txt обязательно вписываются команды для запрета индексирования определенных страниц сайта, содержащих техническую информацию. Делать это необходимо, чтобы поисковики, выбрасывая замеченные технические страницы из индекса, по ошибке не проигнорировала страницы полезные.
Также в файлах robot.txt называется основное зеркало, используемое сайтом. И указывается путь к файлу карты сайта. Так что эти файлы несомненно полезны и стоит научиться их создавать.


Создание robot.txt

Файл с инструкциями легко создать в обычном Блокноте. Затем его располагают в корневом каталоге сайта – так роботы сразу его находят.
Главные применяемые команды – это User-agent и Disallow, после которой вписывается путь к запрещенной для индексирования странице либо файлу. Если запрещены несколько файлов, для каждого задается отдельная команда отдельной строкой.
Если строка директивы выглядит так: User-agent:* Disallow:/, это означает запрет всем поисковым роботам индексировать сайт (что бывает нужно на этапе создания или реконструкции).
Когда придет пора открыть файл или папку, воспользуйтесь директивой Allow.


Дополнительные директивы robot.txt

  1. Sitemap — эта директива указывает роботу адрес файла, в котором лежит карта сайта.
  2. Host – применяется, если сайт имеет зеркала и необходимо указать главное зеркало, которое будет выдаваться в результатах поиска.
  3. Директива Crawl-delay указывает периодичность загрузки страниц. Нужна на крупном ресурсе, где создано много страниц. Скажем, Crawl-delay: 3 означает команду делать паузу в 3 секунды между загрузками страниц.
  4. Visit-time – указывает период времени, когда роботу позволено загружать страницы. Время устанавливается по Гринвичскому меридиану. Например, директива Visit-time: 0900-1800 говорит о работе с 9 до 18 часов.
  5. Request-rate – дает команду роботу о периодичности загрузки страниц. К примеру, пишите Request-rate: 1/5, если хотите, чтобы поисковик грузил страницу через 5 секунд.


Проверка правильности настройки robot.txt

Если вы новичок в веб-дизайне, не забудьте проверить правильность и создания своих файлов robot.txt. Проще всего зайти на Яндекс и отыскать специальный сервис «Анализ robot.txt». Делается это просто. Всего лишь введите имя проверяемого сайта – и анализируйте полученный результат.
Впишите в поле имя проверяемого домена и Вы увидите все ошибки. Не игнорируйте эту проверку, поскольку лучше перепроверить настройки robot.txt несколько раз, чем неожиданно увидеть в поисковой индексации конфиденциальные страницы с рабочей или внутренней информацией. И еще раз подчеркнем: правильная настройка robot.txt спасет для индексации полезные страницы и спрячет ваши рабочие.

Кстати если вы хотите заказать дом или коттедж, то do-ma.ru - это то, что вам нужно! Специалисты компании быстро и не дорого воплотят все ваши мечты в жизнь.

Комментариев нет: