ТерминSEO

Индексация

Индексация — процесс, в котором поисковый робот сканирует страницу и добавляет её в свою базу, после чего она может появиться в выдаче. Пока страница не проиндексирована, её не существует для поиска, а попадание в индекс занимает от часов до нескольких недель.

Определение Индексации

Индексация — это процесс, в котором поисковый робот находит страницу, считывает её содержимое и заносит в свою базу данных — индекс. Только страницы из индекса участвуют в ранжировании и могут показаться в выдаче по запросам. Происходит это в три этапа: сначала робот обнаруживает URL (по ссылкам, sitemap или через Вебмастер), затем сканирует — загружает и анализирует контент, и наконец индексирует — сохраняет обработанную версию в базу. Пока страница не прошла весь путь, для поиска её просто не существует: даже идеальный текст не приведёт трафик, если страница не в индексе. По наблюдениям отрасли, попадание новой страницы в индекс занимает от нескольких часов до двух-трёх недель в зависимости от авторитета сайта и частоты обхода.

Индексация — фундамент SEO: без неё бессмысленны и контент, и ссылки, и микроразметка. Управление индексацией — это контроль над тем, какие страницы поисковик видит, а какие игнорирует, чтобы в базу попадало нужное, а служебные и дублирующие страницы оставались за её пределами.

Как работает и применение

Роботом управляют несколькими инструментами. Файл robots.txt разрешает или запрещает обход разделов, мета-тег noindex запрещает добавлять конкретную страницу в индекс, а sitemap подсказывает роботу список важных URL и ускоряет их обнаружение. Объём страниц, который робот готов обойти за визит, называют краулинговым бюджетом — на крупных сайтах его берегут, закрывая мусорные URL. Настраиваем индексацию при поисковом продвижении в BigPanda и следим за ней в рамках сопровождения сайта.

Типичная проблема — индексируется не то: в базу попадают дубли по фильтрам и служебные страницы, а важные товары остаются за бортом. Управление индексацией наводит здесь порядок, концентрируя обход робота на коммерчески значимых страницах.

ИнструментЧто делает с индексацией
robots.txtРазрешает или запрещает обход разделов
Мета-тег noindexЗапрещает добавлять страницу в индекс
Sitemap.xmlСписок важных URL, ускоряет обнаружение
CanonicalУказывает основную версию среди дублей
ВебмастерОтправка URL на переобход вручную

Виды и управление

По задаче управление индексацией делится на два направления. Открытие индексации — обеспечить, чтобы важные страницы были доступны роботу: не закрыты в robots.txt, не помечены noindex, есть в sitemap и связаны внутренними ссылками. Закрытие индексации — наоборот, убрать из базы то, что не должно ранжироваться: страницы корзины и личного кабинета, результаты внутреннего поиска, технические и дублирующие URL. Для тонкой настройки различают запрет обхода (robots.txt — робот не заходит) и запрет индексации (noindex — заходит, но не добавляет в базу). Путать их опасно: закрытую в robots.txt страницу робот не увидит и не прочитает на ней noindex.

Инструменты и пример

Состояние индекса отслеживают в Яндекс.Вебмастере: сколько страниц в базе, какие исключены и почему, отправка URL на переобход. Сопоставить число проиндексированных страниц с реальным трафиком помогает Яндекс.Метрика, а полный список URL сайта собирает краулер вроде Screaming Frog. Пример: у магазина в Вебмастере значилось 1200 страниц в индексе из 4000 товаров. Краулер показал, что часть категорий случайно закрыта в robots.txt, а карточки с GET-параметрами фильтров плодят дубли без canonical. После правки robots.txt, добавления canonical и обновления sitemap все товары вошли в индекс, и трафик заметно вырос.

Связанные концепции

  • robots.txt — файл, управляющий доступом робота к разделам сайта. Ошибка в нём — частая причина, по которой важные страницы не попадают в индекс.
  • Sitemap — карта сайта со списком значимых URL. Ускоряет обнаружение новых и изменённых страниц и помогает роботу не пропустить важное.
  • Канонический URL — определяет, какая из дублирующих страниц попадёт в индекс. Каноническая версия индексируется, дубли из базы выпадают.
  • Технический SEO-аудит — диагностирует проблемы индексации: случайный noindex, ошибки robots.txt, дубли. Без него причину выпадения страниц найти трудно.
  • Краулинговый бюджет — объём страниц, который робот обходит за визит. Дубли и мусорные URL расходуют его впустую, и важные страницы индексируются реже.
  • Переобход — повторное сканирование страницы роботом после изменений. Ускоряется отправкой URL на переобход в Вебмастере, что важно после правок и переездов.

Частые ошибки

  • Закрывают раздел в robots.txt, рассчитывая убрать из индекса, — но робот не заходит и не видит noindex, страница остаётся в выдаче.
  • Оставляют на боевых страницах noindex, забытый после переноса с тестового сайта.
  • Не обновляют sitemap, и новые товары неделями не попадают в индекс.
  • Плодят дубли по фильтрам без canonical, расходуя краулинговый бюджет на копии.
  • Не проверяют отчёт об индексации в Вебмастере и узнают о выпадении страниц по падению трафика.

Частые вопросы

Чем сканирование отличается от индексации?

Сканирование (краулинг) — это когда робот загружает страницу и читает её содержимое. Индексация — следующий шаг: обработанная версия сохраняется в базу поисковика и становится доступной для выдачи. Страница может быть просканирована, но не проиндексирована, если на ней стоит noindex или поисковик счёл её малоценной. В выдачу попадают только проиндексированные страницы.

Сколько времени занимает индексация новой страницы?

От нескольких часов до двух-трёх недель. Скорость зависит от авторитета сайта, частоты его обхода и того, насколько легко робот находит страницу. Новые и редко обновляемые сайты индексируются медленнее. Ускорить попадание в индекс помогает отправка URL на переобход в Яндекс.Вебмастере, актуальная sitemap и внутренние ссылки на новую страницу.

Как закрыть страницу от индексации?

Мета-тегом noindex в коде страницы — робот зайдёт, прочитает запрет и не добавит страницу в базу. Важно не путать это с запретом в robots.txt: там робот вообще не заходит и noindex не увидит, поэтому страница, уже бывшая в индексе, может в нём остаться. Для гарантированного удаления страницу оставляют открытой для обхода, но помечают noindex.

Почему страницы выпали из индекса?

Частые причины: случайно проставленный noindex, ошибка в robots.txt, дубли без canonical, низкое качество или малая ценность контента по мнению алгоритма, технические ошибки и долгий ответ сервера. Причину показывает отчёт об индексации в Вебмастере. Найти и устранить её помогает SEO-продвижение в BigPanda с диагностикой через технический аудит.

Как проверить, проиндексирована ли страница?

Самый точный способ — отчёт об индексации в Яндекс.Вебмастере: он показывает статус каждого URL и причину исключения. Быстрая проверка — поисковый запрос с оператором url: или вставка точного адреса в строку поиска. Если страницы нет ни там, ни там, она не в индексе, и нужно разбираться с доступностью для робота.

Что делать, чтобы в индекс попадали нужные страницы?

Обеспечить роботу доступ к важным страницам и закрыть мусорные. Важные — не блокировать в robots.txt, не помечать noindex, включить в sitemap и связать внутренними ссылками. Служебные и дублирующие — убрать canonical или noindex. Регулярно следить за отчётом в Вебмастере. Настроить и поддерживать это помогаем при сопровождении сайта в BigPanda.

Перейти к букве

Другие термины глоссария