Что вам нужно знать про индексацию сайтов в 2021

by Ekaterina

Что же представляет собой индексация сайта? Можно сказать , что усилия seo оптимизаторов направлены на прохождение индексации с максимальным эффектом.

Краулеры ( поисковые роботы) сканируют все страницы сайта, затем данные обрабатываются и сведения о сайте добавляются поисковым роботом в базу данных, которая в дальнейшем используется для поиска информации на проиндексированных сайтах.
Индексациия сайта напрямую влияет на место в поиске, поэтому именно с оптимизации индекса начинаются меры по продвижению сайта.

К каким хитростям прибегают разработчики?

Специалисты удаляют из индекса технические страницы с бесполезным содержимым, это хорошо влияет на позиции сайта на странице поиска. Поэтому в файл robots.txt специалисты прописывают правила для поискового робота для всех поисковиков или каждому отдельно. Таким образом из анализа исключают технические страницы, где нет полезного контента, обозначают URL c UTM-метками, которые не следует анализировать. Это также положительно влияет на временной фактор. Так как у робота ограниченное время на сбор информации с одного сайта, важно, чтобы ценное время ушло на обработку полезных нам страниц с максимальным эффектом.

Как индексацию проводит Google

При индексации страница проводит три звена: планировщика, робот-сканер и систему, которая анализирует полученные данные.

Google Scheduler расчитывает время, отведенное на индексацию.

Googlebot сканирует сайты и передает данные дальше на обработку в Google Caffeine в бинарном формате. Потом система расшифровывает и обрабатывает информацию и распределяет индексы.
Одномоментно Caffeine способен обработать тысячи страниц. Этот процесс никогда не останавливается. После очередной индексации индекс сайта может вырасти или упасть.

Как работает Caffeine?

Упрощенная схема выглядит так:

Google Caffeine – не просто обновление поисковой службы Google. Это совсем новый механизм, в котором все анализируется по новым критериям: от индекса веб-документов до алгоритма поиска.
Обработка данных проходит по Protocol Buffers — протокол передачи структурированных данных бинарным кодом как альтернатива текстовому формату XML. Система переводит информацию в специальный формат доступный для анализа роботам.

Бывает, что сайт содержит ошибки в коде, провести анализ содержания таких страниц – невозможно. Страница передается в лексер — инструмент для анализа лексики, деления написанного кода на отдельные элементы, исправления ошибок. На странице определяются такие элементы как:

  • Meta tags
  • Title
  • H1, h2, h3, h4, h5

В конечном итоге, страница оказывается в Collapsor , который определяет куда отнести страницу:

  • Индекс прошедших индексацию, но бесполезных;
  • Индекс обслуживания или Serving Index.

Вывод :

Коллапсер отфильтровывает страницы, где товар отсутствует, есть дубли, страницы без полезного содержания. Индексация сайта отвечает за обработку страниц. Google Коллапсер проводит страницу в поисковую выдачу. А само место в поисковой выдаче присваивает уже Serving Index. Serving Index – расположен в дата-центрах Google, оттуда люди получают результаты поиска на своих устройства.
Если вдруг страницы не открываются или сайт выдает код ошибки, то их удалят и из индекса.

При индексации сколько страниц будет проанализировано?

Количество страниц для индексации диктует краулинговый бюджет. Это количество страниц , которые поисковой робот сможет обработать за единицу времени.

Как изменяются в подходы по оптимизации индекса?

Критерии оптимизации сильно изменились.
Раньше наличие большого объема страниц в поисковой выдаче оказывало позитивно на продвижении, то сейчас ситуация изменилась. Алгоритмы поисковых систем усовершенствовали. Большее внимание уделяется содержанию и качеству страниц. Если страницы способны приносить трафик, то и их количество может быть большим без ущерба для индекса.
Вывод:

Над улучшением индексации сайта специалисты работают постоянно, поскольку это влияет на позиции сайта в поисковой выдаче. Важно, чтобы от индексации не скрывали страницы:
— Страницы по которым вы привлекаете трафика из поисковой выдачи;

— Страницы сайта, важные для факторов E-A-T.

Бывает , что ресурс проиндексирован, но затем не принят в расчет при включении в индекс обслуживания.

ПУБЛИКАЦИИ