Индексация сайта в google: проблемы, основной и дополнительный индекс.

Индексация сайта в google: проблемы, основной и дополнительный индекс.:

Привет, друзья! В сегодняшнем посте я затрону тему индексации сайта в поисковой системе Google. Какие проблемы возникают с ней? Существует ли сейчас основной и дополнительный индекс? Все мои наблюдения на этот счет ниже ;-).

Индексация сайта в google: проблемы, основной и дополнительный индекс.

Не знаю как у вас, а у меня Google индексирует меньше страниц, чем Яндекс. По крайней мере он показывает это по таким запросам:

индексация сайта в google

Кстати в этой записи все буду разбирать на примере блога. Он находится в dmoz-каталоге, на нем авторские уникальные статьи, теги, архивы и другие, дублирующие контент страницы (кроме категорий и нумерации страниц по средствам плагины PageNavi) запрещены в robots.txt. Что на такой запрос говорит Яндекс?

индексация сайта в яндекс

Тут уже 281 страница. Причем вообще в sitemap записано примерно 200 страниц + примерно 80 – это как раз те, которые создаются постраничной навигацией. Эти цифры ближе к реальности :smile:.

Вернемся опять к гуглу. Получилось, что сейчас он знает только о 172 страницах моего блога. Что же на самом деле? У меня получилась следующая картина:

таблица индексации сайта sosnovskij.ru

Сейчас я объясню всю эту таблицу ;-).

  • Основной индекс. Существуют такие понятия как основной индекс в Google и дополнительный. Страницы основного индекса участвуют в ранжировании на общих основаниях. Страницы, которые находятся в дополнительном индексе (”в соплях” – supplemental) очень редко появляются в выдаче, и то только по тем запросам, по которым нет ответов у страниц из “основы” (например, некоторые низкочастотные запросы или long tail). Чтобы определить, сколько документов находится в основном индексе Google, необходимо ввести запрос site:http://sosnovskij.ru/&. У меня получилось 95. А у вас сколько? Причем интересно то, что сюда попадают страницы вида http://sosnovskij.ru/page/4/, то есть не особо полезные для пользователей.
  • Дополнительный индекс. По мнению гугла это некачественные страницы, которые не могут дать хороших, исчерпывающих ответов на поисковые запросы. Эти страницы часто включаются в “опущенные результаты“. Они были определены путем исключения из тех 172 страниц 95, которые находятся в основном. Как видно, что 172-95=77, а не 38. В цифре 172 также много страниц навигации.
  • Нет в индексе. Это самый понятный пункт :smile:.
  • Не определено. Этих страниц не было в числе 172, не было в числе основного индекса, но Google о них знает. Поиск был как просто по url, так и по кускам текста.
  • Всего страниц в sitemap. Это только посты, страницы и категории.

Что же получается? Google оказывается знает о 187 страницах + несколько десятков навигационных, а не о 172. По-моему кто-то что-то скрывает или прячет ;-).

Выводы по поводу индексации в Google

  1. Дополнительный индекс или “сопли” точно существует, потому что некоторые из страниц выдаются по запросу url не на первой строчке. Также я проверил некоторые среднечастотные и низкочастотные запросы на этих страницах. Их не было в ТОП 100.
  2. В категории “не определено” скорее всего, те же “сопли”, так как страницы ведут себя также.
  3. дополнительный индекс в Google

  4. Часто страницы, которые находятся в дополнительном индексе, находятся в выдаче ниже сайтов, копирующих и грабящих контент. То есть одна из причин попадания в “сопли” – это неуникальный контент.
  5. Нельзя судить по запросу site:http://sosnovskij.ru/ о точном количестве проиндексированных страниц в этой поисковой системе. Их больше, но они будут не в основном индексе, и посетителей с гугла скорее всего не принесут. В доказательство этому 185 страниц, на которые были посещения в течение месяца.

количество страниц блога, которые вызвали посещения через поисковую систему google

До проведения данного анализа я считал, что у моих сайтов проблемы с индексацией. На самом же деле проблемы с тем, что некоторые страницы попадают в дополнительный индекс, а о других Google знает, но молчит :smile:.

Почему Google отправляет страницы в дополнительный индекс?

  1. Как я уже написал выше, причиной может служить дублирование контента. Для этого можно запретить к индексации дублирующие страницы: теги, архивы и так далее.
  2. Часто страницы с копированным контентом тоже отправляются в сопли, либо просто с незначительным его количеством или низким качеством.
  3. Ошибки поисковой системы. Поисковой робот может неправильно проанализировать страницу, несмотря на то, что она будет являться первоисточником с уникальным и интересным контентом.

Как же вывести страницы из соплей? А вот этим я и буду заниматься. В одном из последующих постов опубликую результаты эксперимента, который должен будет вытащить некоторые страницы блога в основной индекс. Не пропустите ;-). Что вы думаете по поводу индексации ваших сайтов в гугл? Какие особенности были замечены?

Десерт на сегодня: ссылку можно оставлять с профиля форума www.***x.org.ru (ТИЦ 2200). Жирные ссылки выходят только в новых постах. Когда выйдет следующий пост, то ссылка на этот сайт пропадет, поэтому советую подписаться на обновления, чтобы не пропустить новые места, где можно оставить обратный линк.

Постовой:

Хотите подарить девушке что-то практичное и оригинально? Здесь в наличие стопоры для книг, двойник для наушников и еще много интересного. Все это лавка подарков Bubbles.

Статьи по теме: