Индексация сайта в google: проблемы, основной и дополнительный индекс.:
Привет, друзья! В сегодняшнем посте я затрону тему индексации сайта в поисковой системе Google. Какие проблемы возникают с ней? Существует ли сейчас основной и дополнительный индекс? Все мои наблюдения на этот счет ниже .
Не знаю как у вас, а у меня Google индексирует меньше страниц, чем Яндекс. По крайней мере он показывает это по таким запросам:
Кстати в этой записи все буду разбирать на примере блога. Он находится в dmoz-каталоге, на нем авторские уникальные статьи, теги, архивы и другие, дублирующие контент страницы (кроме категорий и нумерации страниц по средствам плагины PageNavi) запрещены в robots.txt. Что на такой запрос говорит Яндекс?
Тут уже 281 страница. Причем вообще в sitemap записано примерно 200 страниц + примерно 80 – это как раз те, которые создаются постраничной навигацией. Эти цифры ближе к реальности .
Вернемся опять к гуглу. Получилось, что сейчас он знает только о 172 страницах моего блога. Что же на самом деле? У меня получилась следующая картина:
Сейчас я объясню всю эту таблицу .
- Основной индекс. Существуют такие понятия как основной индекс в Google и дополнительный. Страницы основного индекса участвуют в ранжировании на общих основаниях. Страницы, которые находятся в дополнительном индексе (”в соплях” – supplemental) очень редко появляются в выдаче, и то только по тем запросам, по которым нет ответов у страниц из “основы” (например, некоторые низкочастотные запросы или long tail). Чтобы определить, сколько документов находится в основном индексе Google, необходимо ввести запрос site:http://sosnovskij.ru/&. У меня получилось 95. А у вас сколько? Причем интересно то, что сюда попадают страницы вида http://sosnovskij.ru/page/4/, то есть не особо полезные для пользователей.
- Дополнительный индекс. По мнению гугла это некачественные страницы, которые не могут дать хороших, исчерпывающих ответов на поисковые запросы. Эти страницы часто включаются в “опущенные результаты“. Они были определены путем исключения из тех 172 страниц 95, которые находятся в основном. Как видно, что 172-95=77, а не 38. В цифре 172 также много страниц навигации.
- Нет в индексе. Это самый понятный пункт .
- Не определено. Этих страниц не было в числе 172, не было в числе основного индекса, но Google о них знает. Поиск был как просто по url, так и по кускам текста.
- Всего страниц в sitemap. Это только посты, страницы и категории.
Что же получается? Google оказывается знает о 187 страницах + несколько десятков навигационных, а не о 172. По-моему кто-то что-то скрывает или прячет .
Выводы по поводу индексации в Google
- Дополнительный индекс или “сопли” точно существует, потому что некоторые из страниц выдаются по запросу url не на первой строчке. Также я проверил некоторые среднечастотные и низкочастотные запросы на этих страницах. Их не было в ТОП 100.
- В категории “не определено” скорее всего, те же “сопли”, так как страницы ведут себя также.
- Часто страницы, которые находятся в дополнительном индексе, находятся в выдаче ниже сайтов, копирующих и грабящих контент. То есть одна из причин попадания в “сопли” – это неуникальный контент.
- Нельзя судить по запросу site:http://sosnovskij.ru/ о точном количестве проиндексированных страниц в этой поисковой системе. Их больше, но они будут не в основном индексе, и посетителей с гугла скорее всего не принесут. В доказательство этому 185 страниц, на которые были посещения в течение месяца.
До проведения данного анализа я считал, что у моих сайтов проблемы с индексацией. На самом же деле проблемы с тем, что некоторые страницы попадают в дополнительный индекс, а о других Google знает, но молчит .
Почему Google отправляет страницы в дополнительный индекс?
- Как я уже написал выше, причиной может служить дублирование контента. Для этого можно запретить к индексации дублирующие страницы: теги, архивы и так далее.
- Часто страницы с копированным контентом тоже отправляются в сопли, либо просто с незначительным его количеством или низким качеством.
- Ошибки поисковой системы. Поисковой робот может неправильно проанализировать страницу, несмотря на то, что она будет являться первоисточником с уникальным и интересным контентом.
Как же вывести страницы из соплей? А вот этим я и буду заниматься. В одном из последующих постов опубликую результаты эксперимента, который должен будет вытащить некоторые страницы блога в основной индекс. Не пропустите . Что вы думаете по поводу индексации ваших сайтов в гугл? Какие особенности были замечены?
Десерт на сегодня: ссылку можно оставлять с профиля форума www.***x.org.ru (ТИЦ 2200). Жирные ссылки выходят только в новых постах. Когда выйдет следующий пост, то ссылка на этот сайт пропадет, поэтому советую подписаться на обновления, чтобы не пропустить новые места, где можно оставить обратный линк.
Постовой:
Хотите подарить девушке что-то практичное и оригинально? Здесь в наличие стопоры для книг, двойник для наушников и еще много интересного. Все это лавка подарков Bubbles.