Что же представляет собой индексация сайта? Можно сказать , что усилия seo оптимизаторов направлены на прохождение индексации с максимальным эффектом.
Краулеры ( поисковые роботы) сканируют все страницы сайта, затем данные обрабатываются и сведения о сайте добавляются поисковым роботом в базу данных, которая в дальнейшем используется для поиска информации на проиндексированных сайтах.
Индексациия сайта напрямую влияет на место в поиске, поэтому именно с оптимизации индекса начинаются меры по продвижению сайта.
К каким хитростям прибегают разработчики?
Специалисты удаляют из индекса технические страницы с бесполезным содержимым, это хорошо влияет на позиции сайта на странице поиска. Поэтому в файл robots.txt специалисты прописывают правила для поискового робота для всех поисковиков или каждому отдельно. Таким образом из анализа исключают технические страницы, где нет полезного контента, обозначают URL c UTM-метками, которые не следует анализировать. Это также положительно влияет на временной фактор. Так как у робота ограниченное время на сбор информации с одного сайта, важно, чтобы ценное время ушло на обработку полезных нам страниц с максимальным эффектом.
Как индексацию проводит Google
При индексации страница проводит три звена: планировщика, робот-сканер и систему, которая анализирует полученные данные.
Google Scheduler расчитывает время, отведенное на индексацию.
Googlebot сканирует сайты и передает данные дальше на обработку в Google Caffeine в бинарном формате. Потом система расшифровывает и обрабатывает информацию и распределяет индексы.
Одномоментно Caffeine способен обработать тысячи страниц. Этот процесс никогда не останавливается. После очередной индексации индекс сайта может вырасти или упасть.
Как работает Caffeine?
Упрощенная схема выглядит так:
Google Caffeine – не просто обновление поисковой службы Google. Это совсем новый механизм, в котором все анализируется по новым критериям: от индекса веб-документов до алгоритма поиска.
Обработка данных проходит по Protocol Buffers — протокол передачи структурированных данных бинарным кодом как альтернатива текстовому формату XML. Система переводит информацию в специальный формат доступный для анализа роботам.
Бывает, что сайт содержит ошибки в коде, провести анализ содержания таких страниц – невозможно. Страница передается в лексер — инструмент для анализа лексики, деления написанного кода на отдельные элементы, исправления ошибок. На странице определяются такие элементы как:
- Meta tags
- Title
- H1, h2, h3, h4, h5
В конечном итоге, страница оказывается в Collapsor , который определяет куда отнести страницу:
- Индекс прошедших индексацию, но бесполезных;
- Индекс обслуживания или Serving Index.
Вывод :
Коллапсер отфильтровывает страницы, где товар отсутствует, есть дубли, страницы без полезного содержания. Индексация сайта отвечает за обработку страниц. Google Коллапсер проводит страницу в поисковую выдачу. А само место в поисковой выдаче присваивает уже Serving Index. Serving Index – расположен в дата-центрах Google, оттуда люди получают результаты поиска на своих устройства.
Если вдруг страницы не открываются или сайт выдает код ошибки, то их удалят и из индекса.
При индексации сколько страниц будет проанализировано?
Количество страниц для индексации диктует краулинговый бюджет. Это количество страниц , которые поисковой робот сможет обработать за единицу времени.
Как изменяются в подходы по оптимизации индекса?
Критерии оптимизации сильно изменились.
Раньше наличие большого объема страниц в поисковой выдаче оказывало позитивно на продвижении, то сейчас ситуация изменилась. Алгоритмы поисковых систем усовершенствовали. Большее внимание уделяется содержанию и качеству страниц. Если страницы способны приносить трафик, то и их количество может быть большим без ущерба для индекса.
Вывод:
Над улучшением индексации сайта специалисты работают постоянно, поскольку это влияет на позиции сайта в поисковой выдаче. Важно, чтобы от индексации не скрывали страницы:
— Страницы по которым вы привлекаете трафика из поисковой выдачи;
— Страницы сайта, важные для факторов E-A-T.
Бывает , что ресурс проиндексирован, но затем не принят в расчет при включении в индекс обслуживания.