Файл Sitemap - нужен ли?

Enni аватар
73

Я уже писала, что являюсь редактором сайта, а в программировании не разбираюсь. Тем не менее...

Захожу в инструменты для веб-мастеров Гугла и сталкиваюсь с замечанием, что они не получили файл Sitemap.

Обращаюсь к программисту - он отвечает, что все страницы моего сайта индексируются, и поэтому отсылать Гуглу такой файл не нужно. Это верно?

Дима аватар
405

Если сайт небольшой - до нескольких тысяч страниц, то он вполне может нормально индексироваться без загрузки sitemap. А если у вас на сайте есть 50 тысяч страниц, а в индексе только 10 тысяч, то sitemap может помочь.

Кстати, у Яндекса есть аналогичная панель веб-мастера. Там тоже можно sitemap загружать, смотреть ссылки на сайт, узнавать об ошибках индексации.

Enni аватар
73

Спасибо, Дима.

А как определить, сколько у меня страниц, и все ли они индексируются? Есть ли специальный сервис?

Мас аватар
25

Методом увеличения счетчика на единицу, при просмотре каждой страницы своего сайта, можно выяснить сколько страниц на проекте)

Специальных сервисов не видел)

Если стоит CMS, то можно попробовать заказать скрипт, который генерирует sitemap.xml.

Enni аватар
73

В итоге: я зашла в Яндекс (по вашей ссылке, Дима) - и выяснила, что на Яндексе загружено 108 тысяч страниц моего сайта. Не знаю, все ли это.

Потом в одном специальном сервисе создала файл Sitemap, и адрес файла сообщила Яндексу. Вроде бы принял...

Для меня, чайника, инструменты для вебмастеров на Яндексе оказались более ясными и простыми для понимания, чем в Гугле.

Спасибо, Дима, за ссылку.

Дима аватар
405

Обычно сайт представляет собой хранилище некоторых объектов: сколько-то статей, сколько-то пользовательских профилей, сколько-то тегов. И обычно на один объект достаточно одной страницы. Зная это, несложно прикинуть, сколько полноценных страниц может быть на сайте.

Если у вас яндекс знает 108 тысяч страниц, то есть вероятность, что в индексе много мусора. А какие-то нормальные страницы не проиндексированы.

Я бы исследовал, есть ли мусор в индексе. И если есть, то закрыл бы его через robots.txt. И загрузил бы карты сайта, сгенерированные не сторонними сервисами, а на основе базы данных сайта.

Enni аватар
73

Яндекс мой файл Sitemap обработал, выдает, что ошибок нет. Меня только волнует, что я создавала его в сервисе с ограничением в 500 URL.

А Гугл файл не принял. Может, к лучшему - судя по информации, которую я нашла здесь: http://www.seoschool.ru/google-optimization/why-an...

Вот вы пишете, что нужно исследовать, есть ли мусор в индексе. А как это лучше сделать?

Что касается robots.txt, то его вроде бы у меня нет.

Дима аватар
405

Если яндекс знает у вас на сайте 108 тысяч страниц, то sitemap на 500 URL ничего не решит.

По ссылке написана какая-то ерунда: sitemap - это вспомогательная мера, она не отменяет необходимость нормальной перелинковки на сайте. Почитайте там комментарии, кстати.

Простой способ поискать мусор в индексе такой: открываете http://yandex.ru/advanced.html. В поле "Находится на сайте" пишете адрес своего сайта. В поле "В результатах поиска показывать" ставите "50". Получаете что-то вроде этого http://yandex.ru/yandsearch?date=&text=&spcctx=not....

В моем примере все ожидаемо. Проиндексированы темы форума -- адреса, содержащие слово node, подборки по тегам -- taxonomy/term, профили пользователей -- user.

Вы так же можете посмотреть. Все 108 тысяч не нужно, достаточно понять тенденции.

У гугла тоже есть такой сервис -- http://www.google.com/advanced_search?hl=en. Вот мой пример -- http://www.google.com/search?hl=en&as_q=&as_epq=&a.... Здесь уже не все так гладко -- в индекс попали служебные страницы вида user/login?destination= и forum/x?sort=asc&order=. Первое -- это просто перенаправление на исходную страницу после регистрации, второе -- сортировка списков форумных тем по разным признакам.

Вот мой robots.txt -- http://sitequest.ru/robots.txt. В нижних строчках я запретил индексацию служебных страниц. Скоро они выпадут из индекса.

Как посчитать, сколько страниц реально должно быть проиндексировано на этом сайте?

Есть примерно 20 что-то написавших пользователей -- значит 20 страниц с их профилями должны быть в индексе. Есть 7 разделов форума -- еще 7 страниц. Есть 70 тем -- еще 70 страниц. Есть примерно 50 тегов -- еще 50 страниц. Есть главная, страница с регистрацией и еще по мелочи. Итого 20 + 7 + 70 + 50 + 10 = 157 страниц. Яндекс знает всего 115, Гугл -- 158, но с мусором. Все более или менее в порядке.

Enni аватар
73

Спасибо большое, Дима, что вы так терпеливо все объясняете!