Подробная инструкция по использованию Screaming Frog SEO Spider

5766

01.10.2022 | Время чтения: 13 минут

Автор: Webline

Правильный аудит сайта – это половина успешной оптимизации. Но для его проведения требуется ряд инструментов и их понимание.

Одним из наиболее полезных сервисов является Screaming Frog (SF), который дает возможность с помощью парсинга (сбора информации) получить необходимые данные, например, массово выгрузить пустые страницы или найти все дубликаты по метатегу Title.

Подробная инструкция по использованию Screaming Frog SEO Spider

В процессе оптимизации мы часто используем данный сервис, поэтому решили составить цикл обзорных статей, чтобы упростить специалистам навигацию по инструментарию и поиску решений нетривиальных задач. В этой статье-переводе расскажем о настройке парсинга и опишем, как без лишних проблем сканировать большие сайты.

Ознакомиться с сервисом более подробно можно в разделе первоисточника User Guide, на этом же сайте можно скачать бесплатную версию (предел парсинга – до 500 страниц, есть ограничение в настройках, поэтому рекомендуем использовать полную версию).

Содержание

Configuration Options (опции для парсинга)
Spider Configuration
Basic
Limits
Rendering
Advanced
Robots.txt (настройки влияния robots.txt)
Settings
Ignore robots.txt
Respect robots.txt
Custom
URL Rewriting
Remove Parameters
Regex Replace
Options
Test
CDNs
Include/Exclude (включение и исключение папок при парсинге)
Speed (скорость парсинга)
User-Agent (с помощью какого “бота” парсим)
HTTP Header (учет определенных http-заголовков)
Custom (настройки для парсинга дополнительных данных)
Custom Search
Custom Extraction
User Interface (сброс сортировки столбцов)
API Access (интеграция с сервисами)
System (настройки парсера)
Memory
Storage
Proxy
Embedded Browser
Mode (режимы сканирования)

Configuration Options (опции для парсинга)

Spider Configuration

Здесь задаются основные настройки парсера, которые разбиты по следующим вкладкам:

Basic;
Limits;
Rendering;
Advanced;
Preferences.

Basic

Если здесь и далее чекбокс отмечен, выполняется указанный вид операции с созданием (при возможности) соответствующего отчета:

Check Images – анализ картинок.
Check CSS – анализ CSS-файлов.
Check JavaScript – анализ JS-файлов.
Check SWF — анализ Flash-анимаций.
Check External Link – анализ ссылок с сайта на другие ресурсы.
Check Links Outside of Start Folder – возможность проанализировать ссылки вне сканирования стартовой папки.
Follow internal “nofollow” – сканирование внутренних ссылок, закрытые в тег “nofollow”.
Follow external “nofollow” – сканирование ссылок на другие сайты, закрытые в тег “nofollow”.
Crawl All Subdomains – парсинг всех поддоменов сайта, если ссылки на них встречаются на сканируемом домене.
Crawl Outside of Start Folder – сканируется весь сайт, однако проверка начинается с указанной папки.
Crawl Canonicals – выведение в отчете атрибута rel=”canonical” при сканировании страниц с использованием данного атрибута.
Crawl Next/Prev – выведение в отчете атрибутов rel=”next”/”prev” при сканировании страниц пагинации.
Extract hreflang/Crawl hreflang – при сканировании учитывается атрибут hreflang, отображаются коды языка и региона страницы.
Extract AMP Links/Crawl AMP Links – извлечение в отчет ссылок с атрибутом AMP (определение версии контента на странице).
Crawl Linked XML Sitemap – сканирование карты сайта.

Если включена данная опция, можно выбрать «Auto Discover XML Sitemaps via robots.txt» (SF сам найдет sitemap.xml с помощью robots.txt) или предоставить список файлов, отметив «Crawl These Sitemap» и вставив их в поле, которое появится.

Limits

Limit Crawl Total – задаем лимиты страниц для сканирования (сколько страниц сканируем для одного проекта).
Limit Crawl Depth – задаем глубину парсинга: до какого уровня может дойти краулер при сканировании проекта. Если укажете уровень вложенности 1, Screaming Frog выдаст все URL уровня вложенности от введенного документа. Например, если указать главную страницу и в Limit Crawl Depth добавить значение 1, то краулер перейдет по всем ссылкам с главной страницы и остановится. При параметре со значением 0 будет проверен только указанный документ.
Limit Max Folder Depth – задаем глубину парсинга вплоть до уровня вложенности папки. Указанное значение отвечает за то, как глубоко можно сканировать сайт по адресу URL site.ru/papka-1/papka-2/papka-3/, где значение – параметр в Limit Max Folder Depth.
Limit Number of Query Strings – задаем глубину парсинга для страниц с параметрами.
Max Redirects to Follow – задаем максимальное количество редиректов, по которым краулер может переходить с одного адреса.
Max URL Length to Crawl – максимальная длина URL, допустимого для сканирования.
Max Links per URL to Crawl – максимальное количество ссылок в сканируемом URL для обхода.
Max Page Size (KB) to Crawl – максимальный размер страницы для обхода (указываем в килобайтах).

Rendering

На выбор три опции:

Text Only – краулер анализирует только текст страницы.
Old AJAX Crawling Scheme – проверяет по устаревшей схеме сканирования AJAX.
JavaScript – учитывает скрипты при рендеринге.

Детальные настройки есть только в опции JavaScript.

Enable Rendered Page Screen Shots – если чекбокс активен, SF делает скриншоты анализируемых страниц и сохраняет их в папке на ПК.
AJAX Timeout (secs) – лимиты таймаута. Означает, как долго SF должен разрешать выполнение JavaScript, прежде чем проверять загруженную страницу.
Window Size – выбор размера окна.

Sample – пример окна.
Чекбокс Rotate – повернуть окно (было 768х1280, стало 1280х768).

Advanced

Allow Cookies – учитывает Cookies, как это делает поисковый бот (можно принимать во внимание при выборе бота для парсинга).
Pause on High Memory Used – останавливает сканирование сайта, если процесс забирает слишком много оперативной памяти. После остановки можно отключить опцию и продолжить парсинг.
Always Follows Redirect – разрешает краулеру анализировать все редиректы, вплоть до финальной страницы.
Always Follows Canonicals – разрешает краулеру анализировать все атрибуты “canonical”, вплоть до финальной страницы.
Respect Noindex – страницы с “noindex” не отображаются в отчете.
Respect Canonical – страницы с “canonical” не отображаются в отчете.
Respect Next/Prev – страницы с rel=”next”/”prev” не отображаются в отчете, кроме первой (основной).
Extract Images from img srscet Attribute – изображения извлекаются из атрибута srscet тега <img>. SRSCET – атрибут, который позволяет указывать разные типы изображений для разных размеров экрана/ориентации/типов отображения.
Respect HSTS Policy – если чекбокс активен, SF выполнит все будущие запросы через HTTPS, даже если перейдет по ссылке на URL-адрес HTTP (в этом случае код ответа будет 307). Если же чекбокс неактивен, краулер покажет «истинный» код (например, в случае постоянного редиректа – 301).
Respect Self Referencing Meta Refresh – учитывает принудительную переадресацию на себя же по метатегу Refresh.
Response Timeout – время ожидания ответа страницы, перед тем как краулер перейдет к анализу следующего URL. Можно сделать больше (для медленных сайтов) или меньше.
5хх Response Retries – количество попыток “достучаться” до страниц с 5хх ответом сервера.
Store HTML – можно сохранить статический HTML-код каждого просканированного URL-адреса на диск и просмотреть до обработки JavaScript.
Store Rendered HTML – позволяет сохранить отображенный HTML-код каждого просканированного URL-адреса на диск и просмотреть DOM после обработки JavaScript.
Extract JSON-LD – извлекает микроразметку сайта JSON-LD.
Extract Microdata – извлекает микроразметку сайта Microdata.
Extract RDFa – извлекает микроразметку сайта RDFa.

При выборе последних трех пунктов в каждом случае доступны дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).

Здесь задаем желаемые параметры для ряда сканируемых элементов (Title, Description, URL, H1, H2, ALT и размер картинок).

Page Title Width – оптимальная ширина заголовка страницы. Указываем желаемые размеры от и до в пикселях и в символах.
Meta Description Width – оптимальная ширина описания страницы. Размеры – как в случае с Title.
Other – сюда входит максимальная желаемая длина:

URL-адреса в символах (Max URL Length Chars).
H1 в символах (Max H1 Length Chars).
H2 в символах (Max H2 Length Chars).
ALT картинок в символах (Max Image Length Chars).
Максимальный вес картинок в КБ (Max Image Size Kilobytes).

Robots.txt (настройки влияния robots.txt)

Здесь мы указываем парсеру, как именно учитывать файл robots.txt. Блок разделен на две вкладки – Settings и Custom.

Settings

Ignore robots.txt

По умолчанию SF будет подчиняться протоколу robots.txt: например, если сайт запрещен для сканирования в robots.txt, краулер не сможет его спарсить. Однако данная опция позволяет игнорировать этот протокол, таким образом разрешая попадание в отчет всех папок и файлов.

Respect robots.txt

При выборе опции мы можем получить отчет по внутренним и внешним ссылкам, закрытым от индексации в robots.txt. Для этого необходимо выбрать соответствующие чекбоксы: для отчета по внешним ссылкам – Show external URLs blocked by robots.txt, по внутренним – Show internal URLs blocked by robots.txt.

Custom

Пользовательский файл robots.txt использует выбранный User Agent в конфигурации, таким образом данная опция позволит просканировать или протестировать robots.txt без необходимости внесения правок для актуальных директив или использования панелей вебмастеров.

Сначала укажите в основной строке название, нажмите кнопку Add, в итоге вы получите robots.txt домена:

В правом нижнем углу есть кнопка Test. Если слева вписать нужный URL домена и нажать на нее, программа покажет доступность URL для индекса с учетом указанных в robots.txt настроек.

URL Rewriting

Данный блок дает возможность перезаписать сканируемые URL в процессе парсинга. Функция удобна, если во время сканирования надо изменить регулярные выражения, которые не нужны в конечном отчете.

Remove Parameters

Здесь вводят параметры, которые можно удалить из URL при анализе сайта либо исключить все возможные параметры (чекбокс Remove all):

Regex Replace

Изменяет все сканируемые URL с использованием регулярных выражений. Например, можно изменить все ссылки с HTTP на HTTPS:

Options

Здесь определяем перезапись прописных URL в строчные.

Test

Тут можно тестировать видоизменения URL перед началом парсинга, пример с учетом версии для Regex Replace:

CDNs

Данная функция позволяет включать в парсинг дополнительные домены и папки, считая их внутренними ссылками. При этом можно указать для сканирования только конкретные папки:

Во вкладке Test можно посмотреть, как будут определяться URL с учетом параметров Internal и External, где Internal означает, что ссылка считается внутренней, а External – внешней.

Include/Exclude (включение и исключение папок при парсинге)

Во вкладке Include мы вписываем выражения для парсинга только указанных папок, во вкладке Exclude – исключения, для парсинга всех, кроме указанных.

Разберем логику на примере вкладки Exclude:

Чтобы проверить выражение, можно использовать вкладку Test. Например, нужно запретить парсинг домена.

Если правило указано верно, то в Test при вводе нужного URL будет следующее:

Примеры других выражений:

Чтобы исключить конкретный URL или страницу: http://www.example.com/do-not-crawl-this-page.html

Чтобы исключить подкаталог или папку: http://www.example.com/do-not-crawl-this-folder/.*

Чтобы исключить все после бренда, где иногда могут быть другие папки: http://www.example.com/.*/brand.*

Если нужно исключить URL с определенным параметром, таким как price, содержащимся во множестве различных каталогов, можно использовать следующее выражение:
.*\?price.*

Важно: “?” является специальным символом в регулярном выражении и должен быть экранирован обратной косой чертой.

Если нужно исключить все файлы, заканчивающиеся на .jpg, регулярное выражение будет выглядеть так:
.*jpg$

Если нужно исключить все URL-адреса, заканчивающиеся случайным 6-значным числом после дефиса, например «-402001», регулярное выражение имеет такой вид:
.*-[0-9]{6}$

Если нужно исключить любой URL, в котором есть produce, регулярное выражение будет:
.*produce.*

Исключение страниц с HTTPS:
.*HTTPS.*

Исключение всех страниц на http://www.domain.com: http://www.domain.com/.*

Если не получается исключить URL-адрес, причиной может служить наличие специальных символов регулярного выражения, например “?”.
Вместо того, чтобы пытаться найти и экранировать их по отдельности (с помощью “\”), можно экранировать всю строку, начиная с \Q и заканчивая \E, например:
\Qhttp://www.example.com/test.php?product=special\E

Speed (скорость парсинга)

Можно выставить как количество потоков (по умолчанию 5), так и число одновременно сканируемых адресов. Влияет как на скорость парсинга, так и на вероятность бана бота, поэтому лучше быть осторожными.

User-Agent (с помощью какого “бота” парсим)

Опция Preset User-Agents позволяет выбрать, от лица какого бота будет происходить парсинг. Полезно, если в настройках сайта есть директивы, блокирующие конкретного бота. Дополнительно удобно при поиске ошибок, если парсинг производить от “лица” Googlebot Smartphone.

HTTP Header (учет определенных http-заголовков)

Данная опция позволяет указать конкретный вид контента для сканирования. Настроек много – от Accept-Language, Cookie, Referer или просто указания уникального имени заголовка.

Custom (настройки для парсинга дополнительных данных)

Данная вкладка является одной из наиболее ценных, если есть необходимость в поиске конкретной информации по всему сайту.

Custom Search

Функция дает возможность получить отчет с учетом любого регулярного выражения, которое будет указано в соответствующем фильтре. Например, можно получить отчет по страницам, содержащим кодировку utf-8 в HTML-коде:

Используем соответствующий фильтр:

Custom Extraction

С помощью данной функции можно получить информацию при помощи CSS, XPath или Regex, например:

За счет функции Extract text можно получить данные о количестве статей в разных странах в отчете Custom:

User Interface (сброс сортировки столбцов)

Функция для сброса пользовательской сортировки столбцов. Это все :-)

API Access (интеграция с сервисами)

Чтобы получить больше данных по сайту, можно настроить интеграцию с разными сервисами статистики, например, с Google Analytics или Ahrefs, при условии, что у вас есть необходимые данные для интеграции.

System (настройки парсера)

Memory

Здесь указываем предел оперативной памяти для парсинга.

Можно указать больше заданного, но делать это нужно осторожно.

Storage

Здесь указывается, куда будут сохраняться отчеты – в папку программы либо по указанному пути.

Proxy

Указываете прокси, с помощью которых будет происходить парсинг (используется, если выбран чекбокс).

Embedded Browser

Если чекбокс активен, парсер использует встроенный в программу браузер для сканирования.

Mode (режимы сканирования)

Выбираем режимы сканирования сайта.

Spider – классический парсинг сайта по внутренним ссылкам, вводим домен в адресную строку.

List – парсим только предварительно собранный список URL-адресов. Указать их можно несколькими способами:

From a File – выгружаем URL-адреса из файла.
Paste – выгружаем URL-адреса из буфера обмена.
Enter Manually – вводим вручную в соответствующее поле.
Download Sitemap – выгружаем их из карты сайта.

SERP Mode – режим не для сканирования: в нем можно загружать метаданные сайта, редактировать и тестировать для понимания дальнейшего отображения в браузере.

После парсинга информацию можно посмотреть в соответствующих отчетах вверху:

Или сбоку:

С помощью данных настроек можно решить ряд как простых, так и сложных задач в рамках аудита сайта. В других статьях мы будем их рассматривать.

Оригинал статьи взят с сайта Webline

Оцените статью

4.7/5

Другие статьи:

<< Назад