Дублированный контент — это текст страницы, который одинаково (или практически одинаково) отображается на разных URL (адресах).
Как появляется дублирующий контент
Это может произойти на двух (или более) разных страницах, когда:
- Ваш основной контент на странице слишком мал по сравнению со вторичным контентом (header, footer, sidebar, повторяющаяся информация на страницах), хотя поисковые системы снижают вес этих разделов и концентрируются на основном контенте страницы.
- Вы повторно используете стандартный текст в качестве заголовков, названий страниц или метаописаний, в результате чего сниппеты результатов поиска для разных страниц выглядят одинаково, хотя страницы не являются таковыми.
- У вас есть две идентичные версии страницы, например для тестирования.
- Две похожие страницы, например, страница товара для “гвоздя 100 мм” и страница товара для “гвоздя 200 мм”, содержат минимальные различия. В данном примере с метизами единственным отличием могут быть миллиметры, указанные в названии товара.
Наконец, даже если вы не использовали контент в другом месте, дублированный контент может быть создан CMS (системой управления контентом, например, WordPress), которая может иметь несколько способов адресации одной и той же страницы.
Важно помнить, что для целей поисковой системы одна страница, на которую можно попасть по четырем следующим URL-адресам, не выглядит как одна страница. Вместо этого она выглядит как четыре разные страницы с одинаковым содержанием:
- www.example.com/about/
- www.example.com/about?utm=my_parameter
- www.example.com/category/article/100/
Как влияют дубли страниц на продвижение
Проблема, связанная с дублированием контента, довольно проста:
Как поисковая система должна узнать, какой адрес является основным и подходящим для индексации и ранжирования?
Имейте в виду, что если все эти URL будут проиндексированы и начнут ранжироваться – то это заставит их конкурировать друг с другом за рейтинг в результатах поиска и клики пользователей. Возникает пресловутая «каннибализация запросов». При этом позиции в выдаче снижаются для всех страниц по сравнению с позициями,которые вы могли бы получить для одного URL.
К типам контента, которые следует проверять на полное или частичное дублирование относятся:
- Названия страниц (мета заголовок).
- Теги H1.
- Теги H2 (как правило их проверку опускают).
- Мета-описания.
- Текст на полной странице (основной контент).
В результате аудита должен получиться список страниц с проблемами дублирования, типом проблемы, а также списком страниц, на которых можно найти такое же содержание.
Лучшим решением является полная уникализация контента, мета заголовков, мета описания и <h1>.
Вот несколько дополнительных рекомендаций:
- Для страниц товаров и категорий, которые должны оставаться похожими, создайте уникальные описания, заголовки, рубрики и структурированные данные. По возможности добавляйте уникальные изображения/видео.
- Варьируйте шаблонные элементы, такие как призывы к действию, разделы связанных постов и т.д. По возможности программно.
- Для дублирующего контента, создаваемого пользователями, например на форумах или в комментариях, запретите поисковую индексацию с помощью robots.txt или мета-тега noindex.
- Постоянно создавайте свежий контент. Поисковые системы предпочитают сайты, регулярно публикующие новый уникальный контент.
Когда дублирование контента происходит из-за того, что одна страница имеет несколько URL-адресов, лучшей стратегией является информирование поисковых систем о том, какой URL-адрес является правильным, а какие URL- адреса являются дополнительными указателями на одну и ту же страницу.
Это можно сделать с помощью тега <link rel=”canonical”> в заголовке. Этот тег должен присутствовать на всех URL с дублированным контентом и указывать на ту страницу, который вы хотите проиндексировать.
Элемент rel=canonical, часто называемый «канонической ссылкой», представляет собой элемент HTML, который помогает веб-мастерам предотвращать проблемы с дублированием контента. Он делает это, указывая «канонический URL», «предпочтительную» версию веб-страницы. В большинстве случаев это исходный URL. Использование канонических URL улучшает SEO вашего сайта.
Идея проста: если у вас есть несколько версий одного и того же контента, вы выбираете одну «каноническую» версию и указываете на нее поисковым системам.
Добавление канонического элемента к URL-адресу сообщает поисковым системам, что именно его они должны отображать в своих результатах.
Ваш аудит должен включать список канонизированных URL и URL, на которые они указывают. Убедитесь, что:
- Все страницы-дубли с различными URL-адресами имеют канонический URL-адрес.
- Укажите, имеет ли канонический URL мобильную версию, добавив параметр <link rel=”alternate”> в заголовок канонического URL.
Ключевым моментом является стратегическое управление дубликатами, а также создание уникальных заголовков, описаний и текстов на основе любых шаблонов или требуемых сходств. По возможности предотвращайте дублирование, а при необходимости используйте такие сигналы, как редиректы и rel=canonical, для укрепления позиций.
Google имеет несколько отчетов в GSC в разделе «Страницы» → «Неиндексируемые страницы», где выводит списки страниц – дублей:
Страница является копией. Канонический вариант не выбран пользователем.
Страница дублирует другую, но не имеет соответствующей пометки. Робот Google считает канонической другую версию этой страницы, поэтому дубликат не появляется в результатах поиска. Узнать, какой ресурс робот Google считает исходным, можно при помощи инструмента проверки URL.
Если канонической выбрана верная страница, то делать ничего не нужно. Если же произошла ошибка, можно выполнить нормализацию. Чтобы страница не считалась копией той, которая занесена в индекс Google как каноническая, их содержимое должно существенно различаться.
Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают.
Этот URL помечен как канонический для набора страниц, но Google считает, что другой URL больше подходит в качестве канонического. Робот проиндексировал не эту страницу, а выбранную Google. Чтобы узнать, какой ресурс был выбран роботом Google в качестве канонического, проверьте этот URL. Чтобы страница не считалась копией той, которая занесена в индекс Google как каноническая, их содержимое должно существенно различаться.
Как найти все дубли с помощью программы
Скачиваем и запускаем seo-программу Screaming Frog и открываем в ней вкладку «Content».
На этой вкладке отображаются данные, связанные с содержанием внутренних HTML-адресов, обнаруженных в ходе сканирования. Сюда входят количество слов, читабельность, дубли и частичные дубли, а также орфографические и грамматические ошибки.
Это один из самых важнейших аудитов, позволяющих сократить «Thin Content» на сайте: избавиться от дублей, от неоформленных страниц, от малоценных страниц и пр.
Количество слов – это все слова внутри тега body, исключая HTML-разметку. Количество слов основано на области содержимого, которую можно настроить в разделе
«Config» → «Content» → «Area». По умолчанию навигация и данные нижнего колонтитула (футера) исключены.
Вы можете включать или исключать HTML-элементы, классы и идентификаторы для расчета уточненного количества слов. Цифры могут отличаться от тех, которые можно получить при ручном подсчете, так как парсер выполняет определенные исправления недействительного HTML. Настройки рендеринга также влияют на то, что считать HTML.
Наше определение слова – это текст, разделенный пробелами. Не учитывается видимость содержимого (например, текст внутри div, установленного в скрытый режим).
Крайне важно правильно настроить область содержимого. Необходимо чтобы в нее попадал только значимый (основной) контент.
Как это сделать? Я буду сканировать сайт в мобильном режиме с рендерингом элементов. Нажимаем в Хроме CTRL+SHIFT+I. Включаем мобильное представление (1). Смотри скриншот:
Активируем инструмент выбора элементов (1) и прощелкиваем все ненужные блоки (2) на сайте (повторяющиеся, не содержащие основной контент). Смотрим класс ненужного блока – в данном случае это «block_appointment». Пример на скриншоте:
Добавляем его в исключения в настройках программы:
А затем добавляем классы, подлежащие исключению:
Повторяем так для всех ненужных блоков на странице.
Обязательно анализируем несколько разнородных страниц – например страница каталога, карточка товара и страница блога. Заполняем настройки исключений исходя из классов или id отдельных блоков этих страниц.
Далее переходим в настройку поиска дублей:
Включаем поиск нечетких дублей и устанавливаем процент схожести контента:
Теперь нам осталось просканировать весь сайт.
После этого обязательно запускаем анализ данных. Без этого дубликаты не будут найдены:
Проверьте конфигурацию анализа данных, там должен быть включен такой пункт:
Если в результате анализа получится слишком много частично похожих страниц, которые не совсем сходятся – то вам нужно уточнить настройки исключений, добавить дополнительные общие блоки в исключения.
Обратите внимание! Повторное сканирование всего сайта не нужно. После того как вы уточните исключения из контента – просто запустите повторный анализ.
В результате мы получим два важных отчета – полное и частичное дублирование контента на сайте.
- Полные дубли – вычисляются как хэш-значение страницы с использованием алгоритма MD5. Если два хэш-значения совпадают, страницы полностью идентичны по содержанию. Если разница в один символ, они будут иметь уникальные хэш-значения и не будут обнаружены как дублированный контент.
- Частичные дубли – вычисляются с использованием шинглов и ранее настроенного порога схожести, который по умолчанию равен 90%.
Как их анализировать – рассмотрим далее.
Кроме того, в последних версиях «Screaming Frog» было встроено несколько новых функций, правда, некоторые только для английского языка. Поддержку иных языков обещали позже.
Word Count – количество слов – это все внутри тега body, исключая HTML-разметку. Количество слов зависит от области содержимого, которая может быть настроена в разделе «Config» → «Content» → «Area». По умолчанию исключаются элементы навигации и нижнего колонтитула. Вы можете включать или исключать HTML-элементы, классы и идентификаторы, чтобы рассчитать более точное количество слов.
Цифры могут отличаться от тех, которые были бы получены при ручном расчете, так как парсер выполняет определенные исправления недействительного HTML. Настройки рендеринга также влияют на то, какой HTML будет учитываться.
Определение слова – это взятие текста и разделение его пробелами. При этом не учитывается видимость содержимого (например, текст внутри div, установленного в скрытый режим).
Average Words Per Sentence – общее количество слов из области содержимого, разделенное на общее количество обнаруженных предложений. Этот показатель рассчитывается в рамках анализа удобочитаемости по Флешу.
Flesch Reading Ease Score – тест Флеша на легкость чтения измеряет удобочитаемость текста. Это широко используемая формула удобочитаемости, которая использует среднюю длину предложений и среднее количество слогов в слове для получения оценки в диапазоне 0-100. 0 – это очень трудночитаемый текст, который лучше всего понимают выпускники университетов, а 100 – это очень легкочитаемый текст, который может понять 11-летний школьник.
Readability – читабельность. Общая классификация оценки читабельности, основанная на балле легкости чтения Флеша и документированных группах баллов.
Давайте рассмотрим саму вкладку и основные полезные фильтры.
Точные дубли страниц (Exact Duplicates)
Этот фильтр показывает страницы, идентичные друг другу, используя алгоритм MD5, который вычисляет “хэш” значение для каждой страницы, которое можно увидеть в колонке “хэш”. Эта проверка выполняется по полному HTML страницы. Она покажет все страницы с одинаковыми значениями хэша, которые полностью совпадают.
Точные дубликаты страниц могут привести к расщеплению сигналов PageRank, возникновению каннибализации поисковых запросов и непредсказуемости ранжирования.
Должна существовать только одна каноническая версия URL, на которую есть внутренние ссылки. Другие версии не должны иметь ссылок, и они должны быть 301 перенаправлены на каноническую версию.
Частичные дубли страниц (Near Duplicates)
Этот фильтр показывает похожие страницы, основываясь на настроенном пороге сходства, используя алгоритм minhash. Порог можно настроить в разделе «Config» → «Content» →«Duplicates», по умолчанию он установлен на 90%.
В столбце «Ближайшее сходство» отображается наибольший процент сходства с другой страницей. В столбце «Closest Similarity Match» (Кол-во близких дубликатов) отображается количество страниц, похожих на данную страницу в соответствии с порогом сходства. Алгоритм работает с текстом на странице, а не с полным HTML, как в случае с точными дубликатами.
Страницы могут иметь 100% сходство, но быть только “близкими дубликатами”, а не точными дубликатами. Это происходит потому, что точные дубликаты исключаются как близкие дубликаты, чтобы они не были отмечены дважды. Показатели сходства также округляются, поэтому 99,5% и выше будут отображаться как 100%.
Для анализа есть нижняя вкладка «Duplicate Details». Смотри скриншот:
Выберите страницы для сравнения и в правой части окна покажется помеченное сходство на страницах.
Существуют отчеты, позволяющие выгрузить полные и частичные дубли контента:
Для частичных дублей, сразу после выгрузки, настройте автофильтры в Excel.
Я начинаю анализ со страниц со 100% схожестью и постепенно проанализировав и пометив страницы, для которых требуются действия, перехожу к страницам с 99% схожестью.
Вам крайне необходимо избавляться от полных и частичных дублей на сайте. Это резко ухудшает его качество, размывает бюджет сканирования, приводит к каннибализации поискового запроса.
Использование канонических тегов для избавления от дублей не всегда оправдано. Для Гугла канонические теги – лишь рекомендация и он произвольно может выбрать главную страницу из пула дублей. Поэтому зачастую дубли стоит удалить или закрыть мета noindex.
Страницы с малым количеством значимых слов (Low Content Pages)
По умолчанию здесь отображаются все HTML-страницы с количеством слов менее 200. Количество слов основано на параметрах области содержимого, используемых в анализе, которые можно настроить через «Config» → «Content» →«Area».
Пороговый объем слов настраивается в конфигурации сканирования «Config» → «Spider» →«Preferences» →«Low Content Word Count».
В действительности минимального количества слов для страниц не существует, но поисковым системам требуется описательный текст, чтобы понять назначение страницы.
Этот фильтр следует использовать только в качестве приблизительного ориентира, чтобы помочь определить страницы, которые можно улучшить, добавив более описательный контент в контексте сайта и назначения страницы.
Очень важно! Отсортируйте отчет по количеству слов (3). Смотри скриншот:
Как мы видим в примере выше встречаются даже пустые страницы, без значимого контента. Вам необходимо пройтись по страницам (открыть их). Возможно, вам встретятся пустые страницы, страницы с крайне малым объемом контента. Их необходимо либо поправить, либо удалить.
Здесь же можно найти открытые для индексации технические страницы сайта, которые нужно закрыть в мета noindex и многое другое.
Отнеситесь тщательно к работе с этими страницами, ведь они являются малополезным контентом и снижают общее качество сайта. Обратите внимание, что есть выгрузка в Excel – для этого нажмите кнопку «Export» (3).
Это одна из важнейших частей технического аудита сайта.
Страницы с ошибкой 404
Здесь собраны страницы, которые отвечают кодом состояния “200”, предполагая, что они “в порядке”, но на самом деле являются страницей ошибки – часто называемой “404” или “страница не найдена”. Как правило, они должны отвечать кодом состояния 404, если страница больше не доступна.
Такие страницы определяются по обычному тексту ошибки, используемому на страницах, например “Page Not Found” или “404 Page Can’t Be Found”.
Текст, используемый для идентификации этих страниц, может быть настроен в разделе «Config» → «Spider» →«Preferences».
Если вы проводите аудит русскоязычного сайта, то дополните список следующими фразами:
404 ошибка
не могу найти страницу
не могу найти эту страницу
не удалось найти страницу
ошибка 404
произошла ошибка
нет результатов поиска
страница не может быть найдена
страница не может быть отображена
страница не найдена
страница не существует
страница больше не существует
страница, которая больше не существует
запрашиваемый URL не найден
поиск не дал результатов
не удалось найти запрашиваемую страницу
А также откройте 404 страницу на анализируемом сайте и дополните список значениями из h1 или иным текстом, указывающим на то, что это страница ошибки.