Поисковый индекс. Быстрый способ проверить индексацию страниц в Яндексе и Google Как индексируются страницы

Что такое индексация сайта в поисковых системах известно многим веб-мастерам. Они с нетерпением ожидают обновления поисковой базы, чтобы порадоваться результатам индексации или найти и исправить ошибки оптимизации, которые мешают качественной индексации и дальнейшему продвижению сайта .

Благодаря качественной индексации сайтов в интернете можно найти все, что угодно.

Как же работает система индексации в крупных поисковых системах?
У поисковиков есть программы-роботы (поисковые боты), которые постоянно «гуляют» по ссылкам в поисках новых страниц. Если они находят новую страницу, которая удовлетворят требованиям алгоритма данного поисковика, то она включается в результаты поиска и проходит индексацию.


рис: Индексация помогает находить сайты

Самое ценное и одновременно сложное – это алгоритмы поисковых систем, по которым они выбирают страницы для своей поисковой базы. У разных поисковиков они свои: у кого-то лучше, у кого-то чуть попроще. Это также необходимо учитывать при индексации сайта. Говорят, что в интернете можно найти всё, что угодно. А благодаря чему можно найти? Правильно! Благодаря качественной индексации сайтов.

Как добавить сайт в индекс поисковых систем?

Как же быстро и просто добавить свой сайт в индекс поисковых систем? Казалось бы, что в этом ничего сложного нет: достаточно всего лишь разместить сайт в сети, и поисковые машины сами бросятся на него. Если бы всё было так просто, то многочисленные seo оптимизаторы остались бы без работы.

Давайте разберемся, что такое индексация. Индексация – это процесс добавления страниц вашего сайта в базу данных поисковой системы. Говоря простым языком, поисковая система собирает ваши страницы, чтобы потом их показывать пользователям по определенным запросам. В каком порядке показывать и по каким запросам – это тема не одной статьи.

Провести индексацию сайта довольно просто: необходимо «сказать» поисковой системе, что у вас есть сайт, который может её заинтересовать. Каждый поисковик обладает формой добавления сайтов в индекс. Вот ссылки на формы добавления сайтов в индекс некоторых поисковиков:

Для ускорения индексации многие рекомендуют регистрировать сайт в системах социальных закладок. Это действительно оправдано, т.к. поисковые роботы (программы, которые проводят индексацию) очень часто посещают подобные сайты. Если они увидят там ссылку на ваш ресурс, то его индексация не заставит себя долго ждать.

Регистрацию сайта в поисковиках и социальных закладках можно проводить как самостоятельно, так и доверить это дело фирмам, которые занимаются вопросами раскрутки сайтов.

Зачем нужна индексация?

Вам нужен сайт, который увеличивает продажи вашей фирмы и продвигает ваши товары? А может, вам нужен сайт, который сам по себе приносит прибыль? Может быть, вы хотите вести личный дневник и получать за это деньги? Если на какой то из этих вопросов вы ответили утвердительно, то должны хотя бы в общих чертах представлять, что такое индексация сайта в поисковых системах.

Следуйте главному условию – создавайте сайт «для людей», удобный и с уникальнм контентом.

Действительно, если вашего сайта нет в поисковой выдаче крупнейших поисковиков (Яндекс, Google, Рамблер...), то на получение прибыли и на продвижение своих товаров или услуг вы можете даже не надеяться. Сайт будет лишним грузом, отъедающим бюджет фирмы на свое поддержание.

Совершенно иная ситуация возникнет, если сайт проиндексирован. Причем, чем больше страниц прошли индексацию – тем лучше. Главное, что необходимо для успешной индексации – оптимизация и уникальность контента сайта.

Поисковые системы стремительно развиваются, алгоритмы индексации постоянно совершенствуются. Теперь уже поисковикам не составляет труда определить плагиат или нечитаемый текст. Поэтому следуйте главному условию, которое необходимо для успешной индексации – создавайте сайт «для людей», удобный и с уникальнм контентом.

Индексация сайта дает не только большое количество целевых посетителей (что в конечном счете отражается на продажах товаров вашей компании), она ещё способствует развитию самого проекта и может направить владельца сайта по более перспективному пути расширения своего интернет проекта.

Как часто происходит индексация в Интернете?

На многих крупных форумах, посвященных раскрутке и продвижению сайтов, можно встретить темы с примерно одинаковыми названиями: АПы поисковой базы . Что же это такое, и как часто «ап»аются базы данных поисковых машин? Как всё это влияет на индексацию? Попробуем разобраться.

Человек, который немного разбирается в терминологии интернета , наверняка знает, что такое «ап». А вот что такое ап поисковой базы, или обновление индексации знают только те, кто занимается раскруткой и продвижением сайтов. Мы понимаем, что данные в поисковых системах не могут обновляться постоянно. Это чревато не только банальными перегрузками серверов, но и выходом из строя оборудования. Конечно, небольшие базы данных могут постоянно изменять свое состояние, а если речь зашла о базах поисковых систем, которые отвечают за индексацию сайтов, то тут совсем другое дело.

Представьте, какое огромное количество запросов получает база индексации каждую секунду. А что станет с ней, если параллельно ещё будет изменяться информация об индексации? Естественно, она может не выдержать, что и наблюдалось на заре развития поисковых машин.

Сегодня эта проблема решена довольно универсальным способом: данные об индексации с поисковых роботов хранятся во временных базах, а обновление «главной» базы данных происходит с задержкой в несколько суток. Поэтому индексация сайтов в крупных поисковых системах проходит довольно быстро и без «глюков».

Подготовка сайта к индексации.

Многие начинающие вебмастера на специализированных форумах задают один и тот же вопрос: как правильно подготовить сайт к индексации. Возможно эти рекомендации помогут Вам:

  1. Для успешной индексации необходим качественный уникальный контент. Это, пожалуй, первое и главное условие. Если на вашем сайте используется "ворованный"контент , то вероятность того, что индексация будет успешной, мала.

  2. Не используйте «серые» и «черные» методы оптимизации страниц: раз и навсегда откажитесь от списка ключевых слов в цвет фона страницы, а также различных ифреймовых структур. Если робот поисковой системы заподозрит вас в подобных нарушениях, то доменное имя будет вообще запрещено для индексации.

  3. После того, как вы выложили сайт на сервер, не спешите добавлять его везде, где только можно. Проверьте ещё раз контент, код на валидность , внутреннюю перелинковку страниц. Если всё сделано правильно, оповещайте поисковых ботов и приглашайте их на индексацию.

  4. Проверьте наличие метатегов , ключевых слов и описаний в них, тайтлов страниц и альтов изображений. Если всё это в наличии, то смело можете проводить индексацию.

  5. Добавьте свой сайт в поисковики через специальные панели.

Как видите, советы довольно простые. Но почему-то многие начинающие оптимизаторы не уделяют должного внимания им, а потом жалуются, что индексация их сайтов затягивается на несколько месяцев.

Другие материалы

Для молодого сайта особо важна быстрая индексация в поисковых системах. Потому что у него ещё нет определенного веса (или «траста»). Особенно важно в первые месяцы жизни сайта его регулярно обновлять. Контент также должен быть высокого качества.

Быстрая индексация нового сайта в Яндексе

Для того, чтобы ваш новый сайт быстро проиндексировался в Яндексе, необходимо добавить его в Яндекс Вебмастер. Далее выбрать блок «Индексация» -> «Переобход страниц» (см. рис).

Переобход страниц в Яндекс Вебмастер

Для молодого сайта обязательно включать и главную страницу в этот список. Часты случаи, когда робот заходит на главную страницу и индексирует все внутренние ссылки с неё. Таким способом можно проиндексировать намного больше, чем 20 страниц.

Быстрая индексация сайта в Гугле

Аналогично с Яндексом, для ускорения индексации нового сайта в Google, его необходимо добавить в Гугл Вебмастер (Google Search Console). Нужно выбрать вкладку «Скинрование» -> «Посмотреть как GoogleBot».

Функция Посмотреть как ГуглБот

И в открывшейся форме вставить адрес нужной страницы, нажать «Сканирование». После этого у вас появится результат сканирования страницы и появится волшебная кнопка «Запросить индексирование».

Функционал Запросить индексирование

Нажмите на кнопку и увидите примерно такое окно:

Как проиндексировать сайт в Гугл

Здесь обязательно нужно выбрать «сканировать этот URL и прямые ссылки». В этом случае робот попытается пробежаться по всем внутренним ссылкам на странице, которую вы указали. С большой долей вероятности они все войдут в индекс Google с максимально возможной скоростью!

Индексация нового сайта на старом домене

В данном случае задача не такая тривиальная, как кажется. На доменах с историей зачастую бывает сложно проиндексировать новый сайт. Этот процесс может занимать недели или месяцы. Это зависит от истории домена: были ли на него ранее наложены санкции и какие.

Схема действий в этом случае проста:

  • Добавить сайт в вебмастер Яндекса и Гугла
  • Запросить переиндексацию через соответствующий функционал
  • Подождать 2-3 апдейта.
  • Если ничего не изменилось — писать в поддержку и решать этот вопрос в индивидуальном порядке.

Методы ускорения индексации молодого сайта

Кроме методов, которые я указал выше, есть ещё несколько работающих:

  1. Расшаривание материала в социальных сетях . Рекомендую использовать следующие: Вконтакте, Facebook, Twitter, Google+ (несмотря на то, что соцсеть гугла фактически мертва, она помогает ускорить индексацию новых страниц)
  2. Регулярное обновление сайта . Со временем у сайта набирается статистика публикации новых материалов, она помогает индексировать новые страницы. Регулярно обновляйтесь и, может быть, вам удастся «прикормить быстробота» (в этом случае индексация новых страниц будет занимать 1-10 минут).
  3. Новостным сайтам: войти в Яндекс Новости . Это не так сложно, как может показаться, но эффект будет потрясающий. На всех сайтах из Яндекс Новостей живет быстробот.
  4. Грамотная внутренняя структура сайта . Обязательно используйте перелинковку, ТОП материалы и т.д. Увеличение числа внутренних ссылок на странице (в разумных пределах) также позволит ускорить индексацию

Быстрая индексация новых страниц старого сайта

Вопрос-ответ по индексации молодых сайтов

У вас есть вопросы по индексации молодых сайтов? Задайте их в комментариях!

В: Закрывать ли новый сайт от индексации?
О: Я рекомендую не открывать сайт для поисковых роботов, пока он не будет заполнен стартовым контентом. Как показывает моя практика, на переиндексацию существующих страниц уходит намного больше времени, чем на индексацию новых.

В: Сколько времени нужно яндексу для индексации нового сайта?
О: В среднем, это 1-2 апдейта (от 1 до 3 недель). Но ситуации могут быть разными.

В: Какие могут быть проблемы с индексацией молодого сайта?
О: Наверное, главная проблема — плохой контент. Именно по этой причине сайт может не проиндексироваться. Ещё бывали случаи, когда выкатывался молодой, но крупный сайт с тысячами страниц. У поиска ещё живы воспоминания о дорвеях, поэтому к молодым сайтам с тысячами страниц есть «особое отношение».

В: Со скольки страниц открывать к индексации новый сайт и как часто его обновлять?
О: Вы можете открыть к индексации сайт и из 1 страницы. Важно придерживаться простого правила: сразу не размещать на сайте тысячи страниц, т.к. это может быть расценено как поисковой спам, и регулярно добавлять новые материалы на сайт. Пусть по 1 материалу в 3 дня, но регулярно! Это очень важно!

В: Как часто Яндекс индексирует сайты?
О: По официальной информации Яндекса частота индексации может быть от 2 дней до нескольких недель. А про методы ускорения написано выше.

В последнее время август-сентябрь 2015 г. многие заметили, что Яндекс стал очень сильно косячить по части индексации страниц. Виной тому стал краш большого объема серверов и тем самым снижение мощностей краулеров Яндекса. Проще говоря робот Яндекса теперь дольше к вам идет и дольше обрабатывается полученные с ваших страниц данные. Как быстро переиндексировать свой сайт после переноса в текущих реалиях? Многие задают себе этот вопрос. Но нет конкретного руководства о том как же все таки это делать.

К сожалению, ситуация со столь длительным индексированием страниц Вашего сайта связана с ранее возникшими техническими проблемами с нашей стороны. В настоящий момент мы занимаемся их устранением, но, увы, на это потребуется время. (пример шаблонного ответа)

  • тех.часть они чинят уже 2 месяц.

И так что нам потребуется для того чтобы быстро переиндексировать сайт:

  • Сайт;
  • Web-мастер яндекса
  • Наличие прямых рук!

Что нужно сделать для переиндексации:

Шаг 1. Добавляем на проверку страницы

Если страниц не много, то все их добавить через сервис "Проверить URL" в Яндекс. Вебмастере.

Если страниц слишком много, то добавляем основные разделы и пока на этом шаге все. Можно воспользоваться как функционалом яндекс веб-мастер, так и : http://webmaster.yandex.ru/addurl.xml

Шаг 2. Пишем в поддержку Яндекса. (честно не люблю я их сапорт, пока долезешь до него взбеситься можно!)

https://webmaster.yandex.ru/site/feedback.xml - задаем вопрос о сайте.

Кликаем: Мой сайт плохо индексируется =>Сайт полностью пропал из поиска => Рекомендации не помогли

Пишем правильное письмо в Яндекс.

Добрый день, большинство моих страниц которые ранее успешно находились в поиске и занимали позиции в топе вылетели из поискового индекса. Пожалуйста переиндексируйте мой сайт. И скажите в чем причина вылета моего сайта из индекса.

Приложите выгрузку CSV страниц из раздела. "Индексирование сайта" => "Исключенные страницы"
Это интерляцию придется повторить 2-4 раза, пока весь сайт не переиндексируется. Это единственный способ ускорить индексацию страниц сайта в Яндексе после переноса сайта на новый хостинг или домен.

Дополнительная информация. Яндекс стал чаще делать апдейты поисковой выдаче, в среднем это 3 дня против прошлых 10 дней. Стоит ожидать что к концу 2017 года скорость индексирования сайтов в рунете сильно возрастёт.

Как часто нужно отправлять страницы сайта на переиндексацию?

Исходя из своей практики, рекомендую делать это после каждого даже незначительного изменения в странице. Отправка на переиндексацию ускоряет обход роботом искомых страниц и как следствие изменения внесенные в них быстрее учитываются. Если же вы по большей части не меняли страница, то можно делать принудительный обход раз в 2-недели на основные разделы.

Что такое индексирование? Это процесс получения роботом содержимого страниц вашего сайта и включение этого содержимого в результаты поиска. Если обратиться к цифрам, то в базе индексирующего робота содержится триллионы адресов страниц сайта. Ежедневно робот запрашивает миллиарды таких адресов.

Но этот весь большой процесс индексирования Интернета можно разделить на небольшие этапы:


Во-первых, индексирующий робот должен узнать о появлении страницы вашего сайта. Например, проиндексировав другие страницы в Интернете, найдя ссылки, либо загрузив файл set nemp. О страничке мы узнали, после чего планируем обход этой страницы, отправляем данные к вашему серверу на запрос этой страницы сайта, получаем контент и включаем его в результаты поиска.

Этот весь процесс – это процесс обмена индексирующим роботом с вашим сайтом. Если запросы, которые посылает индексирующий робот, практически не меняются, а меняется только адрес страницы, то ответ вашего сервера на запрос страницы роботом зависит от многих факторов:

  • от настроек вашей CMS;
  • от настроек хостинг провайдера;
  • от работы промежуточного провайдера.

Этот ответ как раз меняется. Прежде всего при запросе страницы робот от вашего сайта получает такой служебный ответ:


Это HTTP заголовки. В них содержится различная служебная информация, которая дает роботу понять передача какого контента сейчас будет происходить.

Мне хочется остановиться на первом заголовке – это HTTP-код ответа, который указывает индексирующему роботу на статус страницы, которую запросил робот.

Таких статусов HTTP-кодов несколько десятков:


Я расскажу о самых популярных. Наиболее распространенный код ответа – это HTTP-200. Страница доступна, ее можно индексировать, включать в результаты поиска, все отлично.

Противоположность этого статуса – это HTTP-404. Страница отсутствует на сайте, индексировать нечего, включать в поиск тоже нечего. При смене структуры сайтов и смене адресов внутренних страниц мы советуем настраивать 301 сервер на редирект. Как раз он укажет роботу на то, что старая страница переехала на новый адрес и необходимо включать в поисковую выдачу именно новый адрес.

Если контент страницы не менялся с последнего посещения страницы роботом, лучше всего возвращать код HTTP-304. Робот поймет, что обновлять в результатах поиска страницы не нужно и передача контента тоже не будет происходить.

При кратковременной доступности вашего сайта, например, при проведении каких-либо работ на сервере, лучше всего настраивать HTTP-503. Он укажет роботу на то, что сейчас сайт и сервер недоступны, нужно зайти немножко попозже. При кратковременной недоступности это позволит предотвратить исключение страниц из поисковой выдачи.

Помимо этих HTTP-кодов, статусов страниц, необходимо еще получить непосредственно контент самой страницы. Если для обычного посетителя страница выглядит следующим образом:


это картиночки, текст, навигация, все очень красиво, то для индексирующего робота любая страница – это просто набор исходного кода, HTML-кода:


Различные метатеги, текстовое содержимое, ссылки, скрипты, куча всякой информации. Робот собирает ее и включает в поисковую выдачу. Кажется, все просто, запросили страницу – получили статус, получили содержимое, включили в поиск.

Но недаром в службу поискового сервиса в Яндексе приходит более 500 писем от вебмастеров и владельцев сайтов о том, что возникли определенные проблемы как раз с ответом сервера.

Все эти проблемы можно разделить на две части:

Это проблемы с HTTP-кодом ответа и проблемы с HTML-кодом, с непосредственным содержимым страниц. Причин возникновения этих проблем может быть огромное множество. Самая распространенная – это блокировка индексирующего робота хостинг-провайдером.


Например, вы запустили сайт, добавили новый раздел. Робот начинает посещать ваш сайт чаще, увеличивает нагрузку на сервер. Хостинг-провайдер видит это на своих мониторингах, блокирует индексирующего робота, и поэтому робот не может получить доступ к вашему сайту. Вы заходите на ваш ресурс – все отлично, все работает, странички красивенькие, все открывается, все супер, робот при этом проиндексировать сайт не может. При временной недоступности сайта, например, если забыли оплатить доменное имя, сайт отключен на несколько дней. Робот приходит на сайт, он недоступен, при таких условиях он может пропасть из поисковой выдачи буквально через некоторое время.

Некорректные настройки CMS, например, при обновлении или переходе на другую CMS, при обновлении дизайна, так же могут послужить причиной того, что страницы вашего сайта могут пропасть из выдачи при некорректных настройках. Например, наличие запрещающего метатега в исходном коде страниц сайта, некорректная настройка атрибута canonical. Проверяйте, что после всех изменений, которые вы вносите на сайт, страницы доступны для робота.

В этом вам поможет инструмент в Яндекс. Вебмастере по проверке ответа сервера:


Можно посмотреть какие HTTP заголовки возвращает ваш сервер роботу, непосредственно содержимое страниц.


В разделе «индексирование» собрана статистика, где вы можете посмотреть какие страницы исключены, динамику изменения этих показателей, сделать различную сортировку и фильтрацию.


Так же, уже сегодня говорил об этом разделе, раздел «диагностика сайта». В случае, если ваш сайт стал недоступен для робота, вы получите соответствующее уведомление и рекомендации. Каким образом это можно исправить? Если таких проблем не возникло, сайт доступен, отвечает кодам-200, содержит корректный контент, то робот начинает в автоматическом режиме посещать все страницы, которые он узнает. Не всегда это приводит к нужным последствиям, поэтому деятельность робота можно определенным образом ограничить. Для этого существует файл robots.txt. О нем мы и поговорим в следующем разделе.

Robots.txt

Сам по себе файлик robots.txt – это небольшой текстовый документ, лежит он в корневой папке сайта и содержит строгие правила для индексирующего робота, которые нужно выполнять при обходе сайта. Преимущества файла robots.txt заключаются в том, что для его использования не нужно особых и специальных знаний.

Достаточно открыть Блокнот, ввести определенные правила по формату, а затем просто сохранить файл на сервере. В течении суток робот начинает использовать эти правила.

Если взять пример файла robots.txt простенького, вот он, как раз на следующем слайде:


Директива User-Agent:” показывает для каких роботов предназначается правило, разрешающие\запрещающие директивы и вспомогательные директивы Sitemap и Host. Немножко теории, хочется перейти к практике.

Несколько месяцев назад мне захотелось купить шагометр, поэтому я обратился к Яндекс. Маркету за помощью с выбором. Перешел с главной страницы Яндекс на Яндекс. Маркет и попал на главную страницу сервиса.


Внизу вы видите адрес страницы, на которую я перешел. К адресу самого сервиса еще добавился идентификатор меня, как пользователя на сайте.

Потом я перешел в раздел «каталог»


Выбрал нужный подраздел и настроил параметры сортировки, цену, фильтр, как сортировать, производителя.

Получил список товаров, и адрес страницы уже разросся.

Зашел на нужный товар, нажал на кнопочку «добавить в корзину» и продолжил оформление.

За время моего небольшого путешествия адреса страниц менялись определенным образом.


К ним добавлялись служебные параметры, которые идентифицировали меня, как пользователя, настраивали сортировку, указывали владельцу сайта откуда я перешел на ту или иную страницу сайта.

Такие страницы, служебные страницы, я думаю, что не очень будут интересны пользователям поисковой системы. Но если они будут доступны для индексирующего робота, в поиск они могут попасть, поскольку робот себя ведет, по сути, как пользователь.

Он переходит на одну страничку, видит ссылочку, на которую можно кликнуть, переходит на нее, загружает данные в базу робота свою и продолжает такой обход всего сайта. В эту же категорию таких адресов можно отнести и личные данные пользователей, например, такие, как информация о доставке, либо контактные данные пользователей.

Естественно, их лучше запрещать. Как раз для этого и поможет вам файл robots.txt. Вы можете сегодня вечером по окончанию Вебмастерской прийти на свой сайт, покликать, посмотреть какие страницы действительно доступны.

Для того, чтобы проверить robots.txt существует специальный инструмент в Вебмастере:


Можно загрузить, ввести адреса страниц, посмотреть доступны они для робота или нет.


Внести какие-то изменения, посмотреть, как отреагирует робот на эти изменения.

Ошибки при работе с robots.txt

Помимо такого положительного влияния – закрытие служебных страниц, robots.txt при неправильном обращении может сыграть злую шутку.

Во-первых, самая распространенная проблема при использовании robots.txt – это закрытие действительно нужных страниц сайта, те, которые должны находиться в поиске и показываться по запросам. Прежде чем вы вносите изменения в robots.txt, обязательно проверьте не участвует ли страница, которую вы хотите закрыть, не показывается ли по запросам в поиске. Возможно страница с каким-то параметрами находится в выдаче и к ней приходят посетители из поиска. Поэтому обязательно проверьте перед использованием и внесением изменений в robots.txt.

Во-вторых, если на вашем сайте используются кириллические адреса, в robots.txt их указать не получится в прямом виде, их обязательно нужно кодировать. Поскольку robots.txt является международным стандартным, им следуют все индексирующие роботы, их обязательно нужно будет закодировать. Кириллицу в явном виде указать не получится.

Третья по популярности проблема – это различные правила для разных роботов разных поисковых систем. Для одного индексирующего робота закрыли все индексирующие страницы, для второго не закрыли совсем ничего. В результате этого у вас в одной поисковой системе все хорошо, в поиске нужная страница, а в другой поисковой системе может быть трэш, различные мусорные страницы, еще что-то. Обязательно следите, если вы устанавливаете запрет, его нужно делать для всех индексирующих роботов.

Четвертая по популярности проблема – это использование директивы Crawl-delay, когда в этом нет необходимости. Данная директива позволяет повлиять на чистоту запросов со стороны индексирующего робота. Это практический пример, маленький сайт, разместили его на небольшом хостинге, все прекрасно. Добавили большой каталог, робот пришел, увидел кучу новых страниц, начинает чаще обращаться на сайт, увеличивает нагрузку, скачивает это и сайт становится недоступным. Устанавливаем директиву Crawl-delay, робот видит это, снижает нагрузку, все отлично, сайт работает, все прекрасно индексируется, находится в выдаче. Спустя какое-то время сайт разрастается еще больше, переносится на новый хостинг, который готов справляться с этими запросами, с большим количеством запросов, а директиву Crawl-delay забывают убрать. В результате чего робот понимает, что на вашем сайте появилось очень много страниц, но не может их проиндексировать просто из-за установленной директивы. Если вы когда-либо использовали директиву Crawl-delay, проверьте, что сейчас ее нет и что ваш сервис готов справиться с нагрузкой от индексирующего робота.


Помимо описанной функциональности файл robots.txt позволяет еще решить две очень важные задачи – избавиться от дублей на сайте и указать адрес главного зеркала. Об этом как раз мы и поговорим в следующем разделе.

Дубли


Под дублями мы понимаем несколько страниц одного и того же сайта, которые содержат абсолютно идентичный контент. Самый распространенный пример – это страницы со слешом и без слеша в конце адреса. Так же под дублем можно понимать один и тот же товар в различных категориях.

Например, роликовые коньки могут быть для девочек, для мальчиков, одна и та же модель может находиться в двух разделах одновременно. И, в-третьих, это страницы с незначащим параметром. Как в примере с Яндекс. Маркетом эта страничка «идентификатор сессии», такой параметр не меняет контент страницы в принципе.

Чтобы обнаружить дубли, посмотреть к каким страницам робот обращается, вы можете использовать Яндекс. Вебмастер.


Помимо статистики есть еще и адреса страниц, которые робот загрузил. Вы видите код и последнее обращение.

Неприятности, к которым приводят дубли

Чем же плохи дубли?

Во-первых, робот начинает обращаться к абсолютно идентичным страницам сайта, что создает дополнительную нагрузку не только на ваш сервер, но и влияет на обход сайта в целом. Робот начинает уделять внимание дублирующим страницам, а не тем страницам, которые нужно индексировать и включать в поисковую выдачу.


Вторая проблема – это то, что дублирующие страницы, если они доступны для робота, могут попасть в результаты поиска и конкурировать с основными страницами по запросам, что, естественно, может негативно повлиять на нахождение сайта по тем или иным запросам.

Как можно бороться с дублями?

Прежде всего я советую использовать “canonical” тег для того, чтобы указать роботу на главную, каноническую страницу, которая должна индексироваться и находиться в поиске по запросам.

Во втором случае можно использовать 301 серверный редирект, например, для ситуаций со слешом на конце адреса и без слеша. Установили перенаправление – дублей нет.


И в-третьем, как я уже говорил, это файл robots.txt. Можно использовать как запрещающие директивы, так и директиву Clean-param для того, чтобы избавиться от незначащих параметров.

Зеркала сайта

Вторая задача, которую позволяет решить robots.txt – это указать роботу на адрес главного зеркала.


Зеркала – это группа сайтов, которые абсолютно идентичны, как дубли, только различные два сайта. Вебмастера обычно с зеркалами сталкиваются в двух случаях – когда хотят переехать на новый домен, либо, когда для пользователя нужно сделать несколько адресов сайта доступными.

Например, вы знаете, что пользователи, когда набирают ваш адрес, адрес вашего сайта в адресной строке, часто делают одну и ту же ошибку – опечатываются, не тот символ ставят или еще что-то. Можно приобрести дополнительный домен для того, чтобы пользователям показывать не заглушку от хостинг-провайдера, а показывать тот сайт, на который они действительно хотели перейти.

Остановимся на первом пункте, потому что именно с ним чаще всего и возникают проблемы в работе с зеркалами.

Весь процесс переезда я советую осуществлять по следующей инструкции. Небольшая инструкция, которая позволит вам избежать различных проблем при переезде на новое доменное имя:

Во-первых, вам необходимо сделать сайты доступными для индексирующего робота и разместить на них абсолютно идентичный контент. Так же убедитесь, что о существовании сайтов роботу известно. Проще всего добавить их в Яндекс. Вебмастер и подтвердить на них права.

Во-вторых, с помощью директивы Host указывайте роботу на адрес главного зеркала – тот, который должен индексироваться и находиться в результатах поиска.

Ждем склейки и переноса всех показателей со старого сайта на новый.


После чего уже можно установить перенаправление со старого адреса на новый. Простенькая инструкция, если вы переезжаете, обязательно используйте ее. Надеюсь, проблем не возникнет с
переездом.

Но, естественно, при работе с зеркалами возникают ошибки.

Прежде всего самая главная проблема – это отсутствие явных указаний для индексирующего робота на адрес главного зеркала, тот адрес, который должен находиться в поиске. Проверьте на ваших сайтах, что в robots.txt у них указана директива хоста, и она ведет именно на тот адрес, который вы хотите видеть в поиске.

Вторая по популярности проблема – это использование перенаправления для того, чтобы сменить главного зеркала в уже имеющейся группе зеркал. Что происходит? Старый адрес, поскольку осуществляет перенаправление, роботом не индексируется, исключается из поисковой выдачи. При этом новый сайт в поиск не попадает, поскольку является неглавным зеркалом. Вы теряете трафик, теряете посетителей, я думаю, что это никому не нужно.


И третья проблема – это недоступность одного из зеркал при переезде. Самый распространенный пример в этой ситуации, когда скопировали контент сайта на новый адрес, а старый адрес просто отключили, не оплатили доменное имя и он стал недоступен. Естественно такие сайты склеены не будут, они обязательно должны быть доступны для индексирующего робота.

Полезные ссылки в работе:

  • Больше полезной информации вы найдете в сервисе Яндекс.Помощь .
  • Все инструменты, о которых я говорил и даже больше – есть бета-версия Яндекс.Вебмастера .

Ответы на вопросы

«Спасибо за доклад. Нужно ли в robots.txt закрывать индексацию CSS-файлов для робота или нет?».

На текущий момент мы не рекомендуем закрывать их. Да, CSS, JavaScript лучше оставить, потому что сейчас, мы работаем над тем, чтобы индексирующий робот начал распознавать и скрипты на вашем сайте, и стили, видеть, как посетитель из обычного браузера.

«Подскажите, а если url’ы адресов сайта будут одинаковые, у старого и у нового – это нормально?».

Да, ничего страшного. По сути, у вас просто обновление дизайна, добавление какого-то контента.

«На сайте есть категория и она состоит из нескольких страниц: слеш, page1, page2, до 10-ти, допустим. На всех страницах один текст категории, и он, получается, дублирующий. Будет ли этот текст являться дубликатом или нужно его как-то закрывать, новый индекс на вторых и далее страницах?».

Прежде всего, поскольку на первой странице пагинации, а на второй странице контент, в целом-то, отличаются, они дублями не будут. Но нужно рассчитывать, что вторая, третья и дальше страницы пагинации могут попасть в поиск и показывать по какому-либо релевантному запросу. Лучше в страницах пагинации я бы рекомендовал использовать атрибут canonical, в самом лучшем случае – на странице, на которой собраны все товары для того, чтобы робот не включал страницы пагинации в поиске. Люди очень часто используют canonical на первую страницу пагинации. Робот приходит на вторую страницу, видит товар, видит текст, страницы в поиск не включает и понимает за счет атрибута, что надо включать в поисковую выдачу именно первую страницу пагинации. Используйте canonical, а сам текст закрывать, думаю, что не нужно.

Источник (видео): Как настроить индексирование сайта - Александр Смирнов

Магомед Чербижев