Перечень директив для ботов поисковых систем

Contorra аватар
25

REP (Robots Exclusion Protocol – Протокол Исключений для Роботов) обеспечивает контроль над деятельностью поисковых ботов на уровне всего сайта (файл robots.txt), на уровне отдельных страниц (META-тег или тег X-Robots) и на уровне элементов HTML-кода. Таким образом, можно контролировать и процесс изучения ботами вашего сайта, и его отображение на страницах с результатами поиска (SERPах). По ссылке привожу таблицу с перечнем часто встречающихся задач (пользовательских сценариев), способов их решения (директив) и поисковых систем, которые их поддерживают.

Буду рад комментариям и дополнениям - обсуждение на Хабре.

Дима аватар
405

Насколько я знаю, Google и Яндекс поддерживают wildcard, и, скажем, для друпала имеет смысл дописывать в robots.txt:
Disallow: /*sort=
Disallow: /*destination=
Disallow: /*track

Contorra аватар
25

wildcard = звездочка (*)?
а почему формат такой: /*sort=

Дима аватар
405

"Contorra" писал(а):
wildcard = звездочка (*)?

Да.

"Contorra" писал(а):
а почему формат такой: /*sort=

Чтобы отфильтровывать http://sitequest.ru/forum/448?sort=asc&order=%D0%A...

Soft-Lab аватар
127

Боты яндекса плевать хотели на те директивы которые вписаны в мета или ссылки. А вот robots.txt читают и стараются куда не надо не ходить. Господа из РБС проводили несколько опытов. Делали страницу с уник. контентом, ставили ссылку и закрывали ее от индексации. И чтобы вы думали? :) через неделю она была в индексе и чудесно находилась.
ЗЫ
Возможно я не в тему, но вот, что-то захотелось высказаться о наболевшем :)

Дима аватар
405

Боты ходят там, где robots.txt им запрещает, но в индекс обычно страницы не попадают.

Snob аватар
320

Дмитрий прав, по моим наблюдениям, робот ходит везде, и данные забирает. При просмотре страниц не обращает никакого внимания на robots.txt. Другое дело, что ПС просто эти страницы в основной индекс не отдаёт.