Перечень директив для ботов поисковых систем
REP (Robots Exclusion Protocol – Протокол Исключений для Роботов) обеспечивает контроль над деятельностью поисковых ботов на уровне всего сайта (файл robots.txt), на уровне отдельных страниц (META-тег или тег X-Robots) и на уровне элементов HTML-кода. Таким образом, можно контролировать и процесс изучения ботами вашего сайта, и его отображение на страницах с результатами поиска (SERPах). По ссылке привожу таблицу с перечнем часто встречающихся задач (пользовательских сценариев), способов их решения (директив) и поисковых систем, которые их поддерживают.
Буду рад комментариям и дополнениям - обсуждение на Хабре.
Похожие темы
Разделы форума
- Привлечение посетителей
- Интернет-магазины и корпоративные сайты
- Контент-проекты и сообщества
- Монетизация сайтов
- Реальные примеры, истории успеха
- Футурология и тренды
- Юридические и финансовые вопросы
- Тестирование сайтов, советы
- Технические вопросы
- Технические аспекты SEO
- Хостинг
- Реклама компаний и сервисов
- Объявления фрилансеров
- Работа, поиск исполнителей
- Сайты ищут рекламодателей
- Об этом сайте
Теги к теме Перечень директив для ботов поисковых систем
Насколько я знаю, Google и Яндекс поддерживают wildcard, и, скажем, для друпала имеет смысл дописывать в robots.txt:
Disallow: /*sort=
Disallow: /*destination=
Disallow: /*track
wildcard = звездочка (*)?
а почему формат такой: /*sort=
Да.
Чтобы отфильтровывать http://sitequest.ru/forum/448?sort=asc&order=%D0%A...
Боты яндекса плевать хотели на те директивы которые вписаны в мета или ссылки. А вот robots.txt читают и стараются куда не надо не ходить. Господа из РБС проводили несколько опытов. Делали страницу с уник. контентом, ставили ссылку и закрывали ее от индексации. И чтобы вы думали? :) через неделю она была в индексе и чудесно находилась.
ЗЫ
Возможно я не в тему, но вот, что-то захотелось высказаться о наболевшем :)
Боты ходят там, где robots.txt им запрещает, но в индекс обычно страницы не попадают.
Дмитрий прав, по моим наблюдениям, робот ходит везде, и данные забирает. При просмотре страниц не обращает никакого внимания на robots.txt. Другое дело, что ПС просто эти страницы в основной индекс не отдаёт.