Как находить дубли на сайте при помощи Screaming Frog Seo Spider: пошаговая инструкция
Чтобы избавиться от дублей страниц, необходимо их найти, а это может стать весьма кропотливой работой. Чтобы упростить себе задачу, можно воспользоваться программой поиска Screaming Frog, благодаря которой можно находить даже страницы, дублирующие друг друга на 70-80%. Подробная инструкция ниже поможет во всем разобраться.
Как найти похожие страницы на сайте (дубли)
Заходим на вкладку «Конфигурации» (Configurations). В выпавшем списке находим опцию Content и переходим на опцию Duplicates.
В открывшемся диалоговом окне вы увидите две опции. Отмечаем нижнюю строчку – Enable Near Duplicates. Далее нам потребуется установить порог схожести для страниц-дубликатов, которые мы ищем (Near Duplicates Similarity Threshold). Программа рекомендует устанавливать значение в 80-90%, но можно выставить и меньше для более эффективного поиска.
Когда опции выставлены, запускаем парсинг сайта. Щелкаем по стрелке в правом верхнем углу и переходим в раздел Контент (Content).
В открывшемся списке в правом верхнем углу щелкаем по строке Near Duplicates. После этого в основном окне появится список ссылок на страницы с указанием степени схожести страниц-дубликатов. Ссылки расставлены по убыванию – от 100% схожести.
Щелкнув по нужной ссылке, мы отправляем ее в нижнее левое окно. После чего, кликнув по ней еще раз, мы переходим в настройки страницы. Открыв две и более страниц подобным образом, можно увидеть одинаковые или похожие элементы, которые и делают их дублями.
Однако если сайт слишком большой, поиск дублей даже в таком режиме может занять много времени. Если вам нужно просто увидеть количество дублей в целом, можно действовать по-другому. Выставьте большее значение порога схожести. В верхнем меню выбираем пункт Crawl Analytics и кликаем по опции Configure в выпадающем списке.
Смотрим, выставлен ли флажок напротив раздела Content. Наличие флажка говорит о постоянном анализе контента. Если нет, отмечаем его и нажимаем Start.
Снова проверяем результаты в разделе Near Duplicates справа. Там их будет уже меньше, так как программа выдаст только страницы с большей степенью схожести.
Как отключить учет какого-либо блока на сайте при поиске дублей
Причины неуникальности страниц чаще всего заключаются в наличии важных сквозных блоков – шапки страницы, популярных товаров и так далее.
Если нужно проверить только переменную часть контента, это делается следующим образом. Снова переходим в раздел Content и выбираем раздел Area в выпадающем списке.
В открывшемся окне видим два режима – Include (Включить) и Exclude (Исключить). Сделать это можно по тегам, классам и ID.
Для примера посмотрим на сайте какой блок хранит в себе список популярных товаров.
Возвращаемся в раздел Area, вставляем класс или тег блока, который хотим исключить и выбираем Exclude.
Снова переходим в Crawl Analytics и проверяем наличие дублей по уже установленным параметрам. Если параметры выставлены правильно, исключенные блоки не будут отображаться при проверке настроек в нижнем поле.
Все готово.
Видеоинструкция
Оригинал статьи взят с сайта Чакканбаев Ильхом
Другие статьи: