Как сделать технический seo аудит сайта через Screaming Frog Seo Spider — пошаговое руководство

1152

10.10.2022 | Время чтения: 19 минут

Автор: SeoProfy

Первой задачей перед поисковым продвижением сайта является технический аудит. Он является частью SEO аудита.

Основная задача технического аудита – выявить проблемные места с точки зрения seo и как следствие их исправить.

Как сделать технический seo аудит сайта через Screaming Frog Seo Spider — пошаговое руководство

Мы подготовили пошаговое руководство, с помощью которого, вы сами сможете сделать технический аудит. Для этого понадобиться программа Screaming Frog SEO Spider. Это один из инструментов в нашем арсенале, который помогает проанализировать сайт.

Переходим к практике!

1. Настройка программы

Первоначальные настройки

Из нестандартных настроек Screaming Frog мы б рекомендовали установить следующие параметры:

В Configuration -> Spider на вкладке Advanced выставить галочки напротив Respect Noindex и Respect NoFollow

Первоначальные настройки Seo Spider Screaming Frog

Что даст возможность смотреть на сайт так, как его в итоге будут индексировать поисковики. Кроме этого, это позволит сократить время на анализ сайта.

Настройки при парсинге больших сайтов

Если вы знаете, что вам нужно будет проанализировать сайт с довольно большим количеством страниц, то, процесс парсинга всех страниц сайта может затянуться на очень долго (вплоть до нескольких дней). Поэтому, так как в основном, ошибки будут иметь однотипный характер для разных «функциональных частей» сайта (страницы каталога, страницы товаров/статей) вы можете ограничить глубину парсинга до 4-5 уровня вложенности.

Для этого переходим Configuration -> Spider на вкладке Limits и ставим там уровень вложенности 4-5.

Кроме того, сразу можно отключить галочку остановки процесса парсинга при использовании значительного объема памяти.

В итоге, после полного парсинга вы сможете выявить все типичные ошибки на сайте.

Парсинг только определенного вида страниц

Если вдруг, вам нужно проанализировать только один раздел сайта или определенную часть сайта, то, с помощью регулярных выражения вы можете указать какие шаблоны урлов вам необходимо спарсить. Для этого вы должны перейти на Configuration -> Include и задать эти шаблоны.

Например, чтобы на сайте wikimart’a спарсить только раздел сайта Телефоны, нужно задать вот такое регулярное выражение:

Парсинг только определенного вида страниц

Аналогично, используя регулярные выражения, вы можете исключить из парсинга некоторые разделы сайта или типы файлов. Для этого нужно воспользоваться вот этой настройкой Configuration -> Exclude и прописать, каким регулярным выражением, должны соответствовать те части сайта, которые не нужно парсить.

Благодаря этим настройкам вы можете значительно сократить как время парсинга, так и нагрузку на сайт.

Парсинг сайта на сервере разработчика

Так как желательно устранить все ошибки сайта перед его выкаткой на основной домен, то, итогда парсинг необходимо делать на сервере разработчика. Тут возникают следующие нюансы:

Доступ к сайту через аутенификацию. К счастью эта проблема решена и после ввода логина и пароля можно спокойно проводит анализ сайта:

Второй нюанс, что обычно, сайт полностью закрывается от индексации через robots.txt, а так как, даная программа, по-умолчанию, поддерживает инструкции из этого файла, то, процесс парсинга у вас не начнется. Для этого вы должны включить опции принудительно игнорировать данный файл:

Это позволит вам выявить основные ошибки уже на промежуточном этапе разработки. Но, после того, как вы настроите все инструкции в файле robots.txt и откроете для индексации основной контента сайта, нужно будет провести повторную проверку сайта уже учитывая все инструкции файла роботса.

Определение оптимальной скорости парсинга сайта

И последняя, но, наверно, одна из основных настроек — это скорость парсинга. Довольно мало сайтов выдерживают одновременно большое количество обращений, поэтому, изначально лучше всего в Configuration -> Speed выставить следующие параметры

При таких настройках вы сможете спарсить большинство сайтов. НО: как только вы включили процесс парсинга подождите 10-20 секунд и, в самом низу, проверьте насколько сайт выдерживает вашу нагрузку

Как видно, что сайт не выдерживает 10 обращений в секунду, поэтому, нужно ограничить кол-во обращений за секунду (при чем желательно не почти к самым пиковым значением, а оставить запас). В данном случае, лучше всего поставить значения Max URI/s = 2. Это позволит нам не уложить сайт и получить все данные по сайту.

Использование proxy

Если вы хотите скрыть свой ip или, что более вероятно, при парсинге заблокируют ваш ip, то, вы можете спокойно обойти это ограничение используя proxy сервер:

Настройка своих параметров поиска текста на страницах

С помощью этой вкладки вы можете задать некоторые свои параметры страницы, по которым вы б хотели получить данные. Например,

Таким образом мы можем получить список страниц

Которые содержат текст «Нет в наличии»
На которых отсутствует код Google Analytics.

Сохранение своих настроек

После того как вы сделаете настройку программы по своим параметрам, то, желательно из сохранить как «По умолчанию», чтобы каждый раз не вносить их заново:

Теперь давайте детально пройдемся по каждой вкладке и рассмотрим на что обращать внимание в первую очередь.

2. Internal

Данная вкладка содержит всю информацию по результатам парсинга (кроме, внешних ссылок и пользовательских значений).

Анализ пустых страниц и страниц, которые нужно закрыть от индексации

После полного анализа сайта мы можем проанализировать страницы, на которых минимальное количество контента. Это нам даст возможность понять

какие страницы нужно закрыть от индексации, например, страницы корзины, авторизации и тд.
на каких важных страницах отсутствует контент

Поэтому, чтобы быстро проанализировать пустые страницы лучше всего сделать экспорт в Excel, но, перед этим зафильтровать для анализа только HTML страницы.

Анализ пустых страниц и страниц, которые нужно закрыть от индексации

После открытия файла

переносим колонку WordCount (аналогично, можно потом проанализировать по колонке Size) поближе к url-адресам сайта и сортируем колонку по возрастанию
фильтруем колонку Status Code (это ответы сервера) на значения

В итоге, сразу получаем список страниц, на которых явно меньше контента, чем в среднем по сайту:

Очевидно, что эти страницы не содержат никакой полезной информации для пользователей, поэтому, их нужно исключить из поисковых результатов. Для этого, например, добавляем в файл robots.txt следующие инструкции

Disallow: /cart

Disallow: /checkout

Disallow: /contact-us

Disallow: /forgot-password

Disallow: /login

Disallow: /search

Анализируем другие страницы и собираем список пустых страниц, на которых должен быть контент, но он отсутствует.

В данном случае, мы еще нашли

пустые страницы совсем без текстовой информации
пустые категории, где совсем нет товарных позиций

Соответственно, теперь нужно заполнить данные страницы информацией, а категории или заполнить товарами, или сделать их не активными для отображения.

Анализ перелинковки на сайте: уровень вложенности страниц, кол-во входящих и исходящих ссылок для конкретных страниц сайта

При проектировании или уже при настройке перелинковки очень важно, чтобы важные страницы сайта

были как можно ближе к главной страницы (имели минимальный уровень вложенности). Тут мы или делаем сортировку по возрастанию по уровню вложенности = Level и смотрим все ли важные страницы находятся близко к топу, или через поиск вбиваем урл и проверяем его уровень вложенности на сайте

Анализ перелинковки на сайте: уровень вложенности страниц, кол-во входящих и исходящих ссылок для конкретных страниц сайта

имели как можно больше входящих ссылок и как меньше исходящих, при этом, на не важные страницы было как можно меньше ссылок (например, страницы с корзиной, регистрацией, авторизацией). Делаем сортировку по убыванию для колонки Inlinks и анализируем, какие страницы получают максимальное количество ссылок с сайта.

3. External

Данная вкладка включает всю информацию про внешние URI.

Анализ всех внешних ссылок с сайта

Очень важно понимать на какие ресурсы и с каких страниц сайта стоят внешние ссылки. Всю эту информацию мы получаем на данной вкладке и, желательно, чтобы все эти ссылки были у вас под контролем. Так как, или вебмастера могут проставить ссылки на свои ресурсы, или кто-то может взломать сайт и проставить кучу не видимых ссылок используя display:none. Поэтому, периодически очень желательно парсить весь сайт и проверять не появились ли какие-то новые не опознанные внешние ссылки.

Например, как на этом ресурсе

Мы видим:

очень много исходящих ссылок 250+, которые нужно теперь детально проверить
видим внешние ссылки, которые ссылаются на страницы с кодом ответа 404. Такие ссылки желательно или исправить, или совсем убрать со своего сайта.

Для того чтобы понять, какие именно страницы сайта ссылаются на определенную внешнюю страницу вы:

нажимаете на интересующую вас страницу
внизу во вкладке In Links получаете список страниц сайта, которые ссылаются по этой внешней ссылке.

Кроме такого точечного анализа во вкладке External, с помощью выгрузки Bulk Export -> All Out Links, вы можете сделать полную выгрузку в Excel по тому какая страница сайта на какую внешнюю страницу ссылается.

4. Response Codes

Эта вкладка содержит всю информацию по ответам сервера для внутренних и внешних ссылок. В идеальном варианте, нужно, чтобы 100% страниц были с 200 кодом ответа. Но, на практике часто имеем вот такую картину

Поэтому, рассмотрим, что делать в таком случае

Поиск страниц / url с ответом сервера 404 ошибка

В итоге получаем все страницы, которые отдают 4xx ответ сервера. Очевидно, что мы должны понять причину появления таких ошибок и исправить такие ссылки, которые приводят к ошибкам 4xx.

Кроме данных, по каким страницам у нас выдается 4xx ошибки, нам важно понимать с каких страниц стоят ссылки на эти страницы. Аналогично, пункту Анализа внешних ссылок мы или точечно, по каждой страницы, можем проанализировать внизу на вкладке In Links или можем воспользоваться экспортом (Bulk Export -> Client Error (4xx) in Links) по всем страницам, которые ссылаются на битые страницы и уже проводить детальный анализ с помощью Excel.

Поиск редиректов внутри сайта

Внутри сайта не должно быть редиректов, так как это негативно влияет на передачу веса по страницам сайта.

Анализ лучше всего проводить в Excel, для этого фильтруем на ошибки 3xx и делаем экспорт

Получаем файл с названием response_codes_redirection_(3xx).xlsx в котором

все страницы, по которым происходит редирект указаны в колонке Address
на какие страницы делается редирект указаны в колонке Redirect URI

Теперь, сделав еще выгрузку отчета из Bulk Export -> Client Error (4xx) in Links и получив файл с названием redirection_(3xx)_in_links.xlsx в котором

все страницы, по которым происходят редиректы указаны в колонке Destination
страницы с которых стоят ссылки на страницы по которым происходит редирект указаны в колонке Source

нужно сделать так, чтобы все страницы из колонки Source файла redirection_(3xx)_in_links.xlsx ссылались на правильные страницы Redirect URI из файла response_codes_redirection_(3xx).xlsx. По этому, алгоритму, конечно, есть разные нюансы (в основном, когда происходит 302 редирект для страниц с авторизацием, корзиной, личной информацией, а вы при этом не залогинены в системе), но, в общем он подходит для 95% и позволяет устранить редиректы внутри сайта.

Нюансы: что в выгруженных файлах будут также ссылки и на внешние сайта, но, в идеале, все такие не правильные ссылки тоже нужно исправить.

Поиск ошибок сервера у себя на сайте

Благодаря этому отчету вы сможете понять по каким uri у вас появляются ошибки, связанные с работой сервера. Тут разбираемся в причине появления и оперативно фиксим все такие проблемы. Часто причина возникновения может быть, что мы очень активно парсили сайт и сервер упал. Поэтому, сразу желательно проверить работоспособность сайта и парсить сайт уже при меньших нагрузках.

Страницы без ответа сервера – No Response

Аналогично, нужно разобраться в чем проблема, но, в основном, данная проблема по страницам возникает когда идет большая нагрузка от программы Screaming Frog и хостер просто блокирует ваш ip. Как раз в этом случае

При анализе сайта, хостер заблокировал наш ip J и мы получили такие ответы сервера. Эта проблема решается звонком в хостинг компанию или сменой ip (см. Использование proxy). Дальше значительно уменьшаем скорость парсинга, чтобы больше не получать такую проблему.

5. URL

На данной вкладке, можно проанализировать различные ошибки, непосредственно связанные со структурой url адреса.

Как найти ошибки связанные с url / url адресом

Рассмотрим какие данные мы можем оперативно получить по различным фильтрам на вкладке URI:

Non ASCII Characters – список URI который имеет символы в нем, не включенные в схему кодирования ASCII символов. Важно всё исправить, так как потом появится масса проблем с простановкой ссылок на такие страницы
Underscores – использование нижнего подчеркивания вместо использования дефиса в качестве разделителя между словами. В идеале, должен использоваться дефис, но, на данном этапе это уже не очень принципиально.
Duplicate – важнейший фильтр, он нам сразу, на основе хеша страниц, показывает дублирующие страницы на сайте. Сразу необходимо разобраться в причинах появления таких дублирующих страниц и оперативно заняться исправлением причины их возникновения.
Dynamic – список uri которые содержат параметры (типа ‘?’ или ‘&’ ). Желательно как минимум ознакомиться с этими страницами, но, в общем может быть, что всё нормально и ничего исправлять на сайте не нужно.
Over 115 characters – страницы которые имеют длину больше 115 символов. Очень важно не переспамливать ключевыми словами в урл и проектировать сайт, чтобы таких больших uri не получалось, так как это один из сигналов для поисковых систем, чтобы более пристально проверить на переспам остальные параметры данной страницы. Фиксить на текущем сайте можно если вы четко понимаете, что санкции получены именно за переспам, а, лучше всего, этот момент учитывать на этапе проектирования сайта.

6. Page Title

Данная вкладка содержит различную информацию по мета-тегу title. Это один из важнейших элементов на сайте, поэтому, нужно довольно внимательно подойти к изучению всех нюансов.

Как найти все пустые и дублирующиеся в коде title на сайте

Зафильтров по Missing мы получим список страниц без тега title. Очевидно, что для всех таких страниц нужно прописать релевантный странице title.

По фильтру Multiple можно увидеть где используется больше одного раза мета-тег title. Это редкая ошибка, но, нужно не забывать проверять данный момент.

Дублирующиеся title или как найти дублирующиеся страницы

По дублирующемуся title мы можем быстро определить страницы с одинаковым контентом, после этого, выясняем типичные ошибки и оперативно вносим правки на сайт.

Например, в данном случае,

Дублирующиеся title или как найти дублирующиеся страницы

имеем классические примеры:

Проблема с системными страницами сайта, которые отвечают уже за процесс покупки и, фактические, не должны быть в индексе
Проблема связанная с пагинацией на сайте: на первую страницу каталога проставляется ссылка с параметром, которого, на самом деле, не должно быть

Одинаковые title и h1

Очень желательно, чтобы у вас на сайте были разными title и h1. В первую очередь это касается контентных проектов или контентных разделов на коммерческих сайтах. Вы должны просмотреть список всех страниц, зафильтровав по Same as H1, и подправить такие страницы.

Оптимизация title

После того, как внесены все основные правки, можно заняться мега оптимизацией title и исправить все тайтлы страниц которые не удовлетворяют этим параметрам

Ошибки Over 65 characters и Over 482 pixels показывают вам, что текущий тайтл не будет весь отображён в результатах выдачи, а Below 30 Characrers и Below 200 pixels показывают вам, что тайтл короткий и, в теории, его можно было бы увеличить, чтобы он более подробно раскрывал суть страницы.

7. Descripion

Данная вкладка содержит различную информацию по мета-тегу description. Данный мета-тег в основном используется для формирования описания к снипету на страницах результатов поиска, поэтому, грамотное его заполнение может значительно увеличить долю кликов по вашему сайту.

Кроме этого, например, Google довольно часто, при отсутствии или банальном шаблоне генерации description, берет это за один из сигналов и в результате отправляет страницы сайта в дополнительный индекс. Поэтому, данному мета-тегу тоже нужно уделять довольно много внимания.

По данным анализа тут всё аналогично к мета-тегу title.

8. Keywords

Вкладка с информацией по мета-тегу keywords.

Данный тег давно уже потерял свою значимость, поэтому, особого внимания, кроме некоторых случаев, не стоит ему уделять. Единственный нюанс, что если вы все-таки заполняете keywords, то, его содержимое должно быть уникальным и четко описывать текущую страницу.

H1

Подробная информация по использованию тега h1 на сайте. Хоть данный тег, уже, и не имеет большого значение для поисковой оптимизации, но, все-равно его нужно правильно использовать.

Missing – все страницы на которых отсутствует тег h1. Желательно, чтобы все страницы содержали этот тег и четко описывали про что текущая страница. Это больше важно для пользователей, которые попадают на сайт, чтобы они могли быстро сориентироваться про что данная страница.
Duplicate – все дублирующиеся h1 внутри сайта. Почти всегда h1 должен быть уникальным для каждой страницы. Данная проблема часто возникает, когда через этот заголовок делают лого или название сайта, тогда имеем проблему, что на всех страницах один и тот же h1.
Over 70 characters – h1 с длиной больше чем 70 символов. В идеальном варианте, лучше не делать очень длинные заголовки страниц.
Multiple – мы всегда должны помнить, что «тег h1 всегда один». Поэтому, мультииспользование данного тега не допустимо и все такие ошибки должны быть исправлены на сайте.

H2

Вся информация, связанная с использованием тега h2 на сайте.

Из данного раздела, оперативно, можно определить неправильно использование заголовков <h…> при верстке сайта. Это видно если мы имеем много дублирующихся h2, которые можно посмотреть по фильтру Duplicate.

В данном случае, мы видим, что при верстке был использован тег h2, чего не стоило делать, а желательно, использовать стили и тег <div>.

Images

С помощью этой вкладке можно проанализировать ошибки при использовании картинок на сайте

Over 100kb – можно найти рисунки с размером больше 100kb.
Missing Alt Text – рисунки с отсутствующими описаниями в ALT.
Alt Text Over 100 Characters – рисунки с очень большим описанием (больше 100 символов).

Оптимизацией картинок можно заняться уже на финальном этапе, когда исправлены все технические нюансы и оптимизирована контентная часть сайта.

Directives

На данной вкладке собрана вся информация, связанная с использованием в meta заголовке, canonical, а также rel=“next” и rel=“prev”. Используя соответствующие фильтры, вы можете посмотреть на каких страницах используется та или иная директива для поисковых роботов. Рассмотрим в качестве примера, проверку использования rel="canonica".

Проверка правильности использования rel="canonical"

На вкладке Directives воспользовавшись фильтрами Canonical, Canonicalised, No Canonical вы можете проверить правильность использования атрибута rel="canonical".

Желательно выборочно просмотреть страницы на которых стоит rel="canonical" и проверить:

правильно ли выбрана логика работы: правильно выбрана каноническая страница, ссылка ведет на релевантную страницу, страница на которую ведет каноническая ссылка имеет код ответа 200, …
нет двойного использования данного параметра

Например, мы можем получить вот такую ситуацию

где:

2 раза используется атрибут rel="canonical".
И во втором случае на всех страницах сайта каноническая ссылка ведет на главную страницу, что является очень критической ошибкой использования данного атрибута.

Кроме этого, с помощью отчета Reports -> Canonical Errors

Вы можете получить список ошибочного использования данного атрибута.

AJAX

Данная вкладка показывает все страницы, которые получены в результате использование AJAX.

Custom

С помощью данных этой вкладки вы можете увидеть список тех страниц, которые соответствуют заданным фильтрам из Настройка своих параметров поиска текста на страницах.

Анализ файла sitemap.xml

После аудита сайта путем его парсинга, желательно, проверить какие url указаны в файле sitemap.xml. Там могут быть

несуществующие страницы,
страницы, по которым происходят редиректы
возможно, страницы, которые могут создавать дублирующий контент.

Для этого вы должны скачать файл sitemap.xml себе на компьютер и открыть его в режиме List:

После этого, произойдет, сбор данных по всем страницам, которые указаны в данной карте сайте и нужно, сделать заново все проверки, которые указаны выше, особенно уделив внимание разделу Response Codes, так как нужно, чтобы все страницы отдавали код ответа 200.

В заключение

В данном руководстве рассмотрены самые основные технические моменты в seo, на которые стоит обращать внимание. Их можно проверить как с помощью программы Screaming Frog Seo Spider, так и других.

Самое главное сделать все грамотно с технической части оптимизации. Тогда ваш сайт будет продвигаться в поисковых системах на порядок лучше и быстрее.

Оригинал статьи взят с сайта SeoProfy

Оцените статью

5/5

Другие статьи:

<< Назад