Блог

Изменение в обработке robots.txt Яндексом

14 июня

Опубликовал: Бульбик | Комментарии: | Дата: 14 июня 2014

Давно не заходил в справку яндекса и поэтому не могу сказать, когда вступили новые правила обработки.

Не могу с точностью сказать, как и что было написано раньше в справке, но сейчас смысл работы яндекс-бота заключается в сортировке строк по длинне условий в директивах от меньшего к большему. Т.е. теперь роботу начхать в какой последовательности у вас написаны директивы Allow и Disallow.

Пример нового принципа обработки robots.txt

Например, у нас в роботсе написано следующее:

    User-agent: * Disallow: /assets/ Allow: */docs/ Allow: */docsdocs/

В первой строке мы запрещаем доступ к папке assets и всему, что в ней находится
Во второй и третьей строке мы разрешаем доступ к папкам docs и docsdocs которые могут располагаться в любой папке, в том числе и в assets.

На первый взгляд всё очевидно

Но нет! Робот яндекса хитрее! он перебирает все строчки и сортирует по длинне значения каждой инструкции. В нашем случае: /assets/ = 8 символов, */docs/ = 7 символов, */docsdocs/ = 11 символов, а значит отсортированный роботс будет таким:

    User-agent: * Allow: */docs/ Disallow: /assets/ Allow: */docsdocs/

А это значит, что адрес site.su/assets/docs/ будет закрыт от индексации, а адрес site.su/assets/docsdocs/ будет открыт, т.к. он ниже disallow.

Всё это вы легко можете проверить в панели вебмастера и потренироваться с различными вариантами.

Удачи вам и будьте внимательны!

Комментарии
Для писем — pstyleby@gmail.com, поговорить по скайпу — p-style.by или по телефону — +375(29) 694-72-79