Инструкция по настройке и использованию Screaming frog SEO spider для технического аудита сайта

1854

13.10.2022 | Время чтения: 20 минут

Автор: Блог Артема Опарина

Инструкция по настройке и использованию Screaming frog SEO spider для технического аудита сайта

Основные настройки сканирования сайта

Для большинства специалистов общий аудит сайта – непростая задача, однако с таким инструментом, как Screaming Frog SEO Spider (СЕО Паук), она может стать значительно более простой для профессионалов и даже для новичков. Удобный интерфейс Screaming Frog позволяет работать легко и быстро: с его помощью можно проверить позиции сайта, просканировать все страницы, найти внутренние ссылки и проблемы с контентом. Однако многообразие вариантов конфигурации, сложность в настройке и функциональности может усложнить знакомство с программой.

Инструкция ниже призвана продемонстрировать способы использования Screaming Frog как для аудита сайтов, так и других задач необходимых для продвижения сайта.

Важно! Скачивать лучше последнюю версию программы, регулярно обновляя ее. Данный гайд рассчитан на версию 16.7. Если у вас более старая версия или, наоборот, новая, вы можете столкнуться с неточностями в описании или другим видом интерфейса программы.

Настройки парсера

Перечень базовых настроек перед стартом работ

Memory

Здесь указываем предел оперативной памяти для парсинга. Опираемся на параметры своего ПК: учтите, что при запуске краулера этот объем RAM будет полностью зарезервирован и доступен только ему. Слишком маленький объем буфера может привести к зависанию паука при сканировании очень больших сайтов.

Storage

В данном разделе указывается, куда будут сохраняться отчеты – в папку «Программы» либо по указанному пути (по умолчанию в /User).

Proxy

Указывается прокси, с помощью которых будет происходить парсинг (используется, если выбран чекбокс).

Embedded Browser

Если чекбокс активен, парсер использует встроенный в программу браузер (на базе Chromium) для сканирования.

Режимы сканирования - Mode

Выбираем режимы сканирования сайта.

*Кстати, вы можете в любой момент приостановить сканирование, сохранить проект и закрыть программу, а при следующем запуске продолжить с того же места.

Spider – классический парсинг сайта по внутренним ссылкам, домен вводится в адресную строку.

List – парсим только предварительно собранный список URL-адресов. Указать последние можно разными способами:

From a File – выгружаем URL-адреса из файла.
Paste – выгружаем URL-адреса из буфера обмена.
Enter Manually – вводим вручную в соответствующее поле.
Download Sitemap – выгружаем их из карты сайта.

SERP Mode – режим не для сканирования: в нем можно загружать метаданные сайта, редактировать и тестировать.

Скорость парсинга

Еще одна основная настройка SEO Frog. При запуске парсинга внизу указывается средняя скорость и текущая. Если сайт не выдерживает большой нагрузки, то лучше в настройках задать другое значение.

Необходимо зайти в Configuration ➜ Speed и выставить более щадящие параметры.

Можно уменьшить кол-во потоков, а также максимальное количество обрабатываемых адресов в секунду.

Задаем параметры скорости анализа

Сканирование всего сайта

По умолчанию Screaming Frog сканирует лишь поддомен (или основной домен), на который вы заходите. Любой дополнительный поддомен, с которым сталкивается Spider, рассматривается как внешняя ссылка. Чтобы сканировать дополнительные поддомены, необходимо внести корректировки в меню конфигурации. Выбрав опцию «Crawl All Subdomains», вы можете быть уверены в том, что “паук” проанализирует любые ссылки, которые попадаются на поддоменах вашего сайта.

Заходим в настройки паука:

Переход к настройкам паука

Выставляем параметры:

Разрешение на анализ поддоменов

Чтобы ускорить сканирование, уберите чекбоксы на картинки, CSS, JavaScript, SWF или внешние ссылки.

Выключаем анализ медиафайлов

Парсинг только одного раздела

Если вы хотите ограничить сканирование конкретной папкой, просто введите URL.

Вставляем адрес сайта или раздела и нажимает “старт”

При этом убедитесь, что в настройках Configuration ➜ Spider ➜ Crawl убрана галочка с Crawl Outside of Start Folder.

Запрещаем переход за рамки указанной папки

Если вы хотите начать сканирование с конкретной папки, а затем перейти к анализу оставшейся части поддомена, то перед тем, как начать работу с необходимым URL, перейдите сначала в раздел Spider под названием «Configuration» и выберите в нем опцию «Crawl Outside Of Start Folder».

Разрешаем переход за рамки указанной папки

Как сканировать список поддоменов или каталогов

Чтобы взять в работу или, напротив, исключить конкретный список поддоменов или подкаталогов, вы можете использовать RegEx, чтобы задать правила включения (Include settings - сканируем только заданные папки) или исключения (Exclude settings - сканируем все, кроме указанных папок) определенных элементов в меню «Configuration».

Добавляем не нужный раздел в список исключений

Как сканировать сайт, размещенный на старом сервере

В некоторых случаях старые серверы могут оказаться неспособны обрабатывать заданное количество URL-запросов в секунду. Чтобы изменить скорость сканирования, в меню «Configuration» откройте раздел «Speed» и во всплывающем окне выберите максимальное число потоков, которые должны быть задействованы одновременно. В этом меню также можно выбрать максимальное количество URL-адресов, запрашиваемых в секунду.

Если в результатах сканирования вы обнаружите большое количество ошибок сервера, перейдите во вкладку «Advanced» в меню конфигурации Паука и увеличите значение времени ожидания ответа (Response Timeout) и число новых попыток запросов (5xx Response Retries).

Настройка авторизации

Паук Screaming Frog заходит на страницу, запрашивающую идентификацию, а затем всплывает окно, в котором требуется ввести логин и пароль.

Переход на страницу авторизации

Для того, чтобы впредь обходиться без данной процедуры, в меню конфигурации заходим в раздел Configuration ➜ Authentication и снимаем флажок.

Отключение авторизации

Парсинг списка URL

Итак, вы собрали много URL, но вам необходима дополнительная информация о них? Установите режим List, затем загрузите список URL-адресов в формате .txt или .csv. После завершения процедуры вы сможете увидеть код состояния, исходящие ссылки, количество слов и, конечно, метаданные для каждой страницы в вашем списке.

Переход в режим List -работа по перечню URL

Внутренние и внешние ссылки

Если вам не требуется информация про JavaScript, CSS и flash файлы, отключите эти опции в меню настроек для экономии времени обработки и памяти.

Как только алгоритм закончит сканирование, используйте Bulk Export и соответствующие пункты меню «Links» для экспорта CSV. Вы узнаете про расположение всех ссылок вместе с соответствующими текстами анкоров, директивами и т. д.

Использование меню для выгрузки отчетов в формате CSV

Все ссылки с большого сайта могут представлять собой большой отчет. Помните об этом при экспорте. Для больших сайтов экспорт может занять некоторое время.

Использование SEO Spider при внутренней перелинковке

Внутренняя перелинковка может принести хороший ROI (окупаемость инвестиций), особенно когда у вас есть стратегия распределения PageRank, ранжирование по ключевым словам и анкорам, в которых есть ключевые слова.

Анализ перелинковки

Не будем подробно разбирать правила перелинковки, просто расскажем два важных правила:

Важные для продвижения страницы должны быть как можно ближе к главной. Они должны иметь как можно больше входящих ссылок и меньше исходящих, чтобы у страницы был хороший внутри-ссылочный вес.
Во вкладках external и Internal нужно найти inlinks и outlinks, а затем отсортировать по значению. Желательно найти все важные и продвигаемые разделы в списке, для этого можно воспользоваться поиском. Значения входящих и исходящих ссылок у каждого сайта будут разные. Поэтому стоит отталкиваться от размера сайта, общего количества страниц и средне-ссылочной массы каждой из них.

Изучение исходящих и входящих ссылок на страницах. Можно посмотреть какие страницы ссылаются на ту или иную страницу и наоборот.

Поиск битых ссылок на сайте

Screaming Frog Seo Spider позволяет найти битые ссылки. Как только алгоритм закончит проверку, отфильтруйте результаты во вкладке «Internal» по «Status Code». Все 404, 301 и страницы с другим статусом будут показаны.

Обратите внимание на код ответа

Кликнув по любому отдельному URL в результате проверки, вы увидите изменение информации внизу программного окна. Нажав на вкладку «In Links» внизу окна, вы найдете список страниц, которые привязаны к выбранным URL, вместе с анкорным текстом и директивами, использованными на этих ссылках. Вы можете использовать это для мониторинга страниц, на которых нужно обновить внутренние ссылки.

Если страница имеет 404 код ответа, можно узнать, какие еще страницы ссылаются на нее, чтобы заменить или удалить на них битую ссылку.

Для экспорта полного списка страниц с битыми или редиректными ссылками, перейдите в Bulk Export ➜ Response Codes (коды ответов) и выберите «Redirection (3xx) In Links», «Client Error (4xx) In Links» или «Server Error (5xx) In Links». Таким образом вы получите данные в файле CSV.

Прокрутите до кодов ответов и посмотрите на следующие отчеты:

no response inlinks;
redirection (3xx) inlinks;
Redirection (JavaScript) inlinks;
redirection (meta refresh) inlinks;
client error (4xx) inlinks;
server error (5xx) inlinks.

Как найти 301, 302, 307 редиректы

Для экспорта полного списка ссылок с редиректом перейдите в Bulk Export ➜ Response Codes ➜ Redirection (3xx) In Links.

Метаданные и директивы

Поиск страниц с очень длинными заголовками страниц, СЕО-тегами или URL-адресами

После завершения сканирования перейдите на вкладку Page Titles и отфильтруйте по Over 65 Characters, чтобы увидеть слишком длинные заголовки страниц. Вы можете сделать то же самое на вкладке Meta Description или на вкладке URI.

Работа по обнаружению проблем с мета-тегами

Поиск дублей SEO-тегов или URL

После того, как SEO Spider закончил сканировать, перейдите на вкладку Page Titles, затем выберите Duplicate. Вы можете сделать то же самое на вкладках Meta Description или URI.

Поиск дублей seo-тегов

Поиск страниц с директивами nofollow, noindex, canonical и т.д.

После того, как SEO Spider закончил проверку, нажмите на вкладку Directives. Чтобы увидеть тип директивы, просто прокрутите вправо или растяните окно программы, чтобы увидеть, какие столбцы заполнены, или используйте фильтр, чтобы найти любой из следующих тегов:

Выберите интересующую вас директиву для получения списка страниц, использующих ее.

index;
noindex;
follow;
nofollow;
noarchive;
nosnippet;
noodp;
noydir;
noimageindex;
notranslate;
unavailable_after;
refresh.

Проверка файла robots.txt

По умолчанию Screaming Frog будет выполнять требования robots.txt. В качестве приоритета он будет следовать директивам, сделанным специально для пользовательского агента (user agent) Screaming Frog. Если для агента пользователя Screaming Frog нет никаких директив, то SEO Spider будет следовать любым директивам для поискового робота Googlebot, а если нет специальных директив для робота Googlebot, он будет следовать глобальным директивам для всех пользовательских агентов.

Если вы хотите заблокировать определенные части сайта от SEO Spider, используйте обычный синтаксис robots.txt с пользовательским агентом Screaming Frog SEO Spider. Если вы хотите игнорировать robots.txt, просто выберите эту опцию в настройках Configuration ➜ Spider.

Настройка паука для работы с роботс

Configuration ➜ Robots.txt ➜ Settings

Переход в настройки

Проверка микроразметки Schema и других структурированных данных

Начиная с Screaming Frog 11.0, Spider SEO также предлагает нам возможность просканировать, извлекать и проверять структурированные данные непосредственно из сканирования. Проверяйте любые структурированные данные JSON-LD, Microdata или RDFa в соответствии с рекомендациями Schema.org и спецификациями Google в режиме реального времени во время сканирования. Чтобы получить доступ к инструментам проверки структурированных данных, выберите параметры в Config ➜ Spider ➜ Extraction.

Даем добро на извлечение данных о микроразметке

Теперь в главном интерфейсе есть вкладка Structured Data, которая позволит вам переключаться между страницами, содержащими структурированные данные, и которые могут иметь ошибки или предупреждения проверки:

Поиск микроразметки на страницах через фильтр

Проверка контента сайта через Screaming Frog

Ищем страницы с не информативным контентом

Screaming Frog позволяет посмотреть несодержательные страницы, то есть с минимальным содержанием контента (или без него). Приводим инструкцию, как это сделать.

После того, как алгоритм закончит проверку, откройте вкладку «Internal», отсортируйте по HTML и прокрутите вправо до колонки «Word Count». Отсортируйте колонку «Word count» от наименьшего до наибольшего, чтобы найти страницы с маленьким количеством контента. Вы можете перетянуть колонку «Word Count» влево. Нажмите «Export» во вкладке «Internal», если вам удобнее работать с данными в формате CSV.

Отсортируйте колонку Word count по возрастанию

Поиск URL-адресов, которые необходимо переписать или добавить атрибут canonical

После того, как SEO Spider завершил сканирование, перейдите на вкладку URI, затем отфильтруйте по Underscores, Uppercase или Non ASCII Characters (список URI, который содержит символы, не включенные в схему кодирования ASCII символов), чтобы просмотреть URL, которые потенциально могут быть переписаны в более стандартную структуру.

Поиск страниц с нестандартными URL. Помните, что изменение URL приведет потере позиций в выдаче, если не будет настроен редирект со старого адреса на новый.

Выберите Duplicate и вы увидите все страницы с несколькими версиями URL. Отфильтруйте по Parameters, и вы увидите URL-адреса, содержащие параметры.

Как найти на сайте CSS-файл.

В меню Configuration ➜ Spider выберите «Crawl» и «Store» CSS перед проверкой.

После завершения отсортируйте результаты по «CSS» во вкладке «Internal».

Поиск css на страницах

Ищем файлы JavaScript.

В меню Configuration ➜ Spider выберите «Crawl» и «Store» для JavaScript перед проверкой

Отсортируйте результаты по «JavaScript» во вкладке «Internal» по завершении обхода

Как найти изображения без alt

Во-первых, вы должны убедиться, что в меню Spider ➜ Configuration выбран Check Images. После того, как SEO Spider закончил анализировать, перейдите на вкладку Images и отфильтруйте по Missing Alt Text (отсутствует Alt) или Alt Text Over 100 Characters. Вы можете найти страницы, где находится любое изображение, нажав на вкладку Image Info в нижнем окне. Страницы будут перечислены в столбце From.

Поиск изображений. Обратите внимание на изображения без Alt - поисковики этого не прощают.

Наконец, если вы предпочитаете CSV, используйте меню Bulk Export, чтобы экспортировать All Images или Images Missing Alt Text Inlinks, чтобы увидеть полный список изображений, где они находятся, и любой связанный с ним текст alt или проблемы с alt Text.

Экспорт данных в CSV в зависимости от того, какая проблема с изображениями вас интересует.

Необходимо проверить наличие атрибута alt на всех изображениях, которые используются на сайте. Большинство изображений выводятся циклами, поэтому рекомендуется искать закономерности. Очень важно заполнять теги картинок - Alt. Но на фоне фильтра Яндекс Noname категорически нельзя спамить ключевыми словами в пункты меню, хлебные крошки и теги картинок. Многие сайты попали под этот фильтр именно благодаря тегам картинок и долгие годы сидят под фильтром, ведь самая страшная особенность данного фильтра (отсюда и происходит его название) в том, что поддержка Яндекс не отвечает на запрос по этому фильтру и говорит, что с сайтом все хорошо, да только вот ранжирование сайта в Яндекс оставляет желать лучшего.

Поиск плагинов jQuery

Прежде всего, убедитесь, что в меню конфигурации выбрано «Check JavaScript». По завершении сканирования примените в панели «Internal» фильтр «JavaScript», а после сделайте поиск «jQuery». Это позволит вам получить список файлов с плагинами. Отсортируйте перечень по функции «Address» для более удобного просмотра. Затем просмотрите «InLinks» в нижнем окне или экспортируйте информацию в CSV. Чтобы найти страницы, на которых используются файлы, поработайте со столбиком «From».

Получение списка страниц с .JS на борту

Поиск flash на сайте

Перед сканированием в меню конфигурации выберите «Check SWF». А по завершении работы Паука отфильтруйте результаты в панели «Internal» по значению «Flash».

Как найти на сайте PDF-файлы

После завершения сканирования отфильтруйте результаты работы Spider при помощи опции «PDF» в панели «Internal».

Для отображения списка страниц с PDF и Flash

Проверка орфографии и грамматики

Как проверить орфографию и грамматику при помощи Screaming Frog? Новая вкладка «Content» содержит фильтры для «Spelling Errors» и «Grammar Errors» и отображает счетчики для каждой просканированной страницы.

Поиск страниц с грамматическими ошибками

Вы можете включить проверку орфографии и грамматики Configuration ➜ Content ➜ Spelling & Grammar.

Настройка словаря

Карта сайта

Создание XML Sitemap

После того, как паук закончил сканировать ваш ресурс, нажмите на «Sitemap» и выберите «XML Sitemap».

Сохраните вашу карту сайта в XML формате, а после откройте ее обычным блокнотом.

Генерация XML карты на основании полученного списка URL

После того, как карта сайта предстанет перед вами в табличной форме, вы с легкостью сможете изменить частоту, приоритет и прочие настройки. Обязательно убедитесь в том, что Sitemap содержит лишь один предпочитаемый (канонический) вариант каждого URL, без параметров и прочих дублирующих факторов.

После внесения каких-либо изменений пересохраните файл в формате XML.

Как найти страницы, которых нет в Sitemap.xml

Вы можете настроить параметры сканирования, чтобы обнаруживать и сравнивать URL-адреса в ваших XML-файлах сайта с URL-адресами в пределах вашего сайта.

Перейдите в Configuration ➜ Spider в главной навигации, и внизу есть несколько опций для XML-карт сайтов – Auto discover XML sitemaps через ваш файл robots.txt или вручную введите ссылку XML-карты сайта в поле. *Important note – если ваш файл robots.txt не содержит правильных целевых ссылок на все XML-карты сайта, которые вы хотите сканировать, вы должны ввести их вручную.

Настройка позволит найти страницы, которых не в sitemap

После обновления настроек сканирования XML-файла Sitemap перейдите к пункту Crawl Analysis в навигации, затем нажмите Configure и убедитесь, что кнопка Sitemaps отмечена.

Сначала запустите полное сканирование сайта
Вернитесь к Crawl Analysis и нажмите Start.

Убедитесь, что чекбокс Sitemaps активен

Общие проблемы

Определение проблем с индексацией и ранжированием

Хотите знать, почему некоторые страницы закрыты от индексации? Во-первых, стоит убедиться, что они не были случайно помещены в файл robots.txt или помечены как noindex. Затем нужно проверить, что SEO Spider может добраться до страниц, проверив ваши внутренние ссылки. Страницу, которая не имеет внутренних ссылок на вашем сайте, часто называют «сиротами» (Orphaned Page).

Чтобы выявить потерянные страницы, выполните следующие действия:

Перейдите в Configuration ➜ API Access ➜ Google Analytics – используя API, вы можете получить аналитические данные для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы из органического поиска, убедитесь, что они разделены на органический трафик.

Переход к настройкам Google Analytics

Вы также можете перейти к разделу Configuration ➜ API Access ➜ Google Analytics ➜ General ➜ Crawl New URLs Discovered In Google Analytics, если вы хотите, чтобы URL-адреса, обнаруженные в GA, были включены в ваш полный обход сайта. Если это не включено, вы сможете просматривать только новые URL-адреса, извлеченные из GA, в отчете Orphaned Pages.

Включение обхода новых URL, обнаруженных в GA

Перейдите в Configuration ➜ API Access ➜ Google Search Console – используя API, вы можете получить данные GSC для конкретной учетной записи и просмотра. Чтобы найти бесхозные страницы, вы можете искать URL-адреса, на которых получены клики и показы, которые не включены в ваш просмотр. Вы также можете перейти к разделу General ➜ Crawl New URLs Discovered In Google Search Console, если вы хотите, чтобы URL-адреса, обнаруженные в GSC, были включены в ваш полный обход сайта. Если этот параметр не включен, вы сможете просматривать только новые URL-адреса, извлеченные из GSC, в отчете Orphaned Pages.

Просканируйте весь сайт. После завершения сканирования перейдите в Crawl Analysis ➜ Start и дождитесь его завершения.

Просмотрите потерянные URL-адреса на каждой из вкладок или выполните Bulk Expor всех потерянных URL-адресов, перейдя в Reports ➜ Orphan Pages.

Получение списка страниц-сирот

Как найти медленные страницы

После того, как SEO Spider завершил сканирование, перейдите на вкладку Response Codes и отсортируйте по столбцу Response Time по возрастанию, чтобы найти страницы, которые могут страдать от низкой скорости загрузки.

Сортируем колонку по возрастанию. Время указано в секундах

Поиск вредоносного ПО и спама

Вам необходимо идентифицировать след вредоносного ПО или спама. Далее в меню Configuration нажмите Custom ➜ Search и введите искомый элемент, который вы ищете.

Настройка условий поиска

Вы можете ввести до 10 различных фильтров для сканирования.

В заключение

Если вы не SEO-специалист, то решение провести самостоятельный технический аудит сайта своей компании похвально. Такая программа, как Screaming Frog Spider SEO, может очень помочь вам в этом деле, но для полной оптимизации сайта этого все же недостаточно. Существует множество сервисов, которые помогают проанализировать проблемы, но данная программа имеет самый обширный арсенал возможностей. И помните главное правило — лучше делать долго, но качественно, чем быстро и почти никак.

Оригинал статьи взят с сайта Блог Артема Опарина

Оцените статью

5/5

Другие статьи:

<< Назад