Индексация
Индексация — процесс, в котором поисковый робот сканирует страницу и добавляет её в свою базу, после чего она может появиться в выдаче. Пока страница не проиндексирована, её не существует для поиска, а попадание в индекс занимает от часов до нескольких недель.
Определение Индексации
Индексация — это процесс, в котором поисковый робот находит страницу, считывает её содержимое и заносит в свою базу данных — индекс. Только страницы из индекса участвуют в ранжировании и могут показаться в выдаче по запросам. Происходит это в три этапа: сначала робот обнаруживает URL (по ссылкам, sitemap или через Вебмастер), затем сканирует — загружает и анализирует контент, и наконец индексирует — сохраняет обработанную версию в базу. Пока страница не прошла весь путь, для поиска её просто не существует: даже идеальный текст не приведёт трафик, если страница не в индексе. По наблюдениям отрасли, попадание новой страницы в индекс занимает от нескольких часов до двух-трёх недель в зависимости от авторитета сайта и частоты обхода.
Индексация — фундамент SEO: без неё бессмысленны и контент, и ссылки, и микроразметка. Управление индексацией — это контроль над тем, какие страницы поисковик видит, а какие игнорирует, чтобы в базу попадало нужное, а служебные и дублирующие страницы оставались за её пределами.
Как работает и применение
Роботом управляют несколькими инструментами. Файл robots.txt разрешает или запрещает обход разделов, мета-тег noindex запрещает добавлять конкретную страницу в индекс, а sitemap подсказывает роботу список важных URL и ускоряет их обнаружение. Объём страниц, который робот готов обойти за визит, называют краулинговым бюджетом — на крупных сайтах его берегут, закрывая мусорные URL. Настраиваем индексацию при поисковом продвижении в BigPanda и следим за ней в рамках сопровождения сайта.
Типичная проблема — индексируется не то: в базу попадают дубли по фильтрам и служебные страницы, а важные товары остаются за бортом. Управление индексацией наводит здесь порядок, концентрируя обход робота на коммерчески значимых страницах.
| Инструмент | Что делает с индексацией |
|---|---|
| robots.txt | Разрешает или запрещает обход разделов |
| Мета-тег noindex | Запрещает добавлять страницу в индекс |
| Sitemap.xml | Список важных URL, ускоряет обнаружение |
| Canonical | Указывает основную версию среди дублей |
| Вебмастер | Отправка URL на переобход вручную |
Виды и управление
По задаче управление индексацией делится на два направления. Открытие индексации — обеспечить, чтобы важные страницы были доступны роботу: не закрыты в robots.txt, не помечены noindex, есть в sitemap и связаны внутренними ссылками. Закрытие индексации — наоборот, убрать из базы то, что не должно ранжироваться: страницы корзины и личного кабинета, результаты внутреннего поиска, технические и дублирующие URL. Для тонкой настройки различают запрет обхода (robots.txt — робот не заходит) и запрет индексации (noindex — заходит, но не добавляет в базу). Путать их опасно: закрытую в robots.txt страницу робот не увидит и не прочитает на ней noindex.
Инструменты и пример
Состояние индекса отслеживают в Яндекс.Вебмастере: сколько страниц в базе, какие исключены и почему, отправка URL на переобход. Сопоставить число проиндексированных страниц с реальным трафиком помогает Яндекс.Метрика, а полный список URL сайта собирает краулер вроде Screaming Frog. Пример: у магазина в Вебмастере значилось 1200 страниц в индексе из 4000 товаров. Краулер показал, что часть категорий случайно закрыта в robots.txt, а карточки с GET-параметрами фильтров плодят дубли без canonical. После правки robots.txt, добавления canonical и обновления sitemap все товары вошли в индекс, и трафик заметно вырос.
Связанные концепции
- robots.txt — файл, управляющий доступом робота к разделам сайта. Ошибка в нём — частая причина, по которой важные страницы не попадают в индекс.
- Sitemap — карта сайта со списком значимых URL. Ускоряет обнаружение новых и изменённых страниц и помогает роботу не пропустить важное.
- Канонический URL — определяет, какая из дублирующих страниц попадёт в индекс. Каноническая версия индексируется, дубли из базы выпадают.
- Технический SEO-аудит — диагностирует проблемы индексации: случайный noindex, ошибки robots.txt, дубли. Без него причину выпадения страниц найти трудно.
- Краулинговый бюджет — объём страниц, который робот обходит за визит. Дубли и мусорные URL расходуют его впустую, и важные страницы индексируются реже.
- Переобход — повторное сканирование страницы роботом после изменений. Ускоряется отправкой URL на переобход в Вебмастере, что важно после правок и переездов.
Частые ошибки
- Закрывают раздел в robots.txt, рассчитывая убрать из индекса, — но робот не заходит и не видит noindex, страница остаётся в выдаче.
- Оставляют на боевых страницах noindex, забытый после переноса с тестового сайта.
- Не обновляют sitemap, и новые товары неделями не попадают в индекс.
- Плодят дубли по фильтрам без canonical, расходуя краулинговый бюджет на копии.
- Не проверяют отчёт об индексации в Вебмастере и узнают о выпадении страниц по падению трафика.
Частые вопросы
Чем сканирование отличается от индексации?
Сканирование (краулинг) — это когда робот загружает страницу и читает её содержимое. Индексация — следующий шаг: обработанная версия сохраняется в базу поисковика и становится доступной для выдачи. Страница может быть просканирована, но не проиндексирована, если на ней стоит noindex или поисковик счёл её малоценной. В выдачу попадают только проиндексированные страницы.
Сколько времени занимает индексация новой страницы?
От нескольких часов до двух-трёх недель. Скорость зависит от авторитета сайта, частоты его обхода и того, насколько легко робот находит страницу. Новые и редко обновляемые сайты индексируются медленнее. Ускорить попадание в индекс помогает отправка URL на переобход в Яндекс.Вебмастере, актуальная sitemap и внутренние ссылки на новую страницу.
Как закрыть страницу от индексации?
Мета-тегом noindex в коде страницы — робот зайдёт, прочитает запрет и не добавит страницу в базу. Важно не путать это с запретом в robots.txt: там робот вообще не заходит и noindex не увидит, поэтому страница, уже бывшая в индексе, может в нём остаться. Для гарантированного удаления страницу оставляют открытой для обхода, но помечают noindex.
Почему страницы выпали из индекса?
Частые причины: случайно проставленный noindex, ошибка в robots.txt, дубли без canonical, низкое качество или малая ценность контента по мнению алгоритма, технические ошибки и долгий ответ сервера. Причину показывает отчёт об индексации в Вебмастере. Найти и устранить её помогает SEO-продвижение в BigPanda с диагностикой через технический аудит.
Как проверить, проиндексирована ли страница?
Самый точный способ — отчёт об индексации в Яндекс.Вебмастере: он показывает статус каждого URL и причину исключения. Быстрая проверка — поисковый запрос с оператором url: или вставка точного адреса в строку поиска. Если страницы нет ни там, ни там, она не в индексе, и нужно разбираться с доступностью для робота.
Что делать, чтобы в индекс попадали нужные страницы?
Обеспечить роботу доступ к важным страницам и закрыть мусорные. Важные — не блокировать в robots.txt, не помечать noindex, включить в sitemap и связать внутренними ссылками. Служебные и дублирующие — убрать canonical или noindex. Регулярно следить за отчётом в Вебмастере. Настроить и поддерживать это помогаем при сопровождении сайта в BigPanda.