Технический экспресс-аудит с помощью Screaming Frog SEO Spider
Аудит сайта представляет собой целый комплекс мероприятий и включает:
- аудит технической составляющей сайта;
- анализ скорости загрузки страниц ресурса;
- анализ структуры проекта и его юзабилити;
- анализ контентной составляющей;
- анализ поведенческих факторов;
- анализ ссылочной массы сайта.
Мы поговорим о техническом аудите сайта, основная задача которого заключается в выявлении и устранении слабых мест и ошибок ресурса.
Почему экспресс-аудит?
Перед началом продвижения необходимо выполнить полный аудит сайта, чтобы устранить все ошибки, которые оказывают негативное влияние на индексацию и ранжирование вашего ресурса.
Под экспресс-аудитом следует понимать аудит высокого качества, выполненный за короткое время. Такой аудит рекомендуется проводить раз в 1-2 месяца – в зависимости от сайта, его структуры и темпов развития. Тем самым, под экспресс-аудитом мы понимаем периодический аудит, который позволяет в кратчайшие сроки выявить ошибки сайта.
Помощником в проведении технического аудита служит программа Screaming Frog SEO Spider (Лягушка). Давайте же рассмотрим основные (базовые) функции программы.
Интерфейс и функционал Screaming frog
Знакомство с программой начнем с ее интерфейса:
Рис.1 – Интерфейс Screaming Frog SEO Spider
Главное меню Frog SEO Spider:
Рис.2 – Главное меню
- Пункт "File" предназначен для работы с файлами проектов программы.
- "Configuration" - установка основных параметров проверки сайта.
- "Mode" - позволяет выбирать режим работы (сканирование сайта / анализ списка URL из текстового файла).
- "Bulk Export" - экспорт данных.
- "Sitemaps" - позволяет создать карту сайта (файл sitemap.xml).
Перейдем к знакомству с функционалом программы.
- Address – URL страниц.
- Content – вид и кодировка контента.
- Status Code – код ответа сервера.
- Status – расшифровка кода сервера (например, для кода 200 - статус ОК, для 301 - Moved Permanently, для 404 – Not Found).
- Title 1, Title 1 Length, Title 1 Pixel Width – параметры мета-тега Title.
- Meta Description 1, Meta Description Length, Meta Description 1 Pixel Width – значения и параметры тега Meta Description.
- Meta Keyword 1, Meta Keywords Length – значения тега Meta Keyword (уже не актуален).
- H1-1/H2-1 – cодержимое тегов на странице.
- H1-1 length/H2-1 length – длина тегов.
- Meta Robots 1 – содержимое мета-тега robots (выводит noindex и follow).
- Size – размер страницы в байтах.
- Word Count – количество слов на странице.
- Level – уровень вложенности страницы.
- Inlinks – количество входящих внутренних ссылок на эту страницу.
- Outlinks – количество исходящих внутренних ссылок.
- External Outlinks – количество внешних исходящих ссылок, включая noindex и nofollow.
- Hash – значение hash-функции страницы. Позволяет осуществлять проверку на дубли контента. Если 2 значения hash разных страниц не отличаются, значит, и контент на них одинаков.
- Response Time – время ответа сервера.
- Last Modified – время последнего внесенного изменения.
- Redirect URL – адрес страницы, на которую перенаправляет с исходной (сканируемой страницы).
При выделении строки подробная информация о странице отображается в нижнем блоке:
Рис.3 – Рабочее окно Internal
- Url info – краткая информация о странице.
- Inlinks – входящие внутренние ссылки на страницу.
- Outlinks – исходящие ссылки.
- Image Info – сведения о картинках.
- Выбрать вкладку External.
- Выбрать вкладку Inlinks.
Рис.4 – Рабочее окно External
Как показывает практика, не всегда на сайтах выполняется данное условие. Например:
Рис.5 – Статистика Response Codes
Чаще всего это связано это с тем, что страница была удалена с сайта, а ссылки на нее остались в других материалах.
Рассмотрим подробнее как работать с полученной информацией:
1. Поиск страниц с 404 кодом ответом сервера.
Рис.6 – Проверка 4хх ошибок сайта
Фильтруем данные "Client error (4xx)" и получаем список страниц, которые возвращают 404 код ответа сервера. Нам важно получить информацию, с каких страниц стоят ссылки на эти страницы, чтобы в дальнейшем исправить ошибки. Для этого выбираем страницу и в нижнем поле видим детали данных:
Рис.7 – Подробные данные о "битых" ссылках
- В поле From указаны страницы с которых ведет некорректная ссылка.
- В поле To отображается список "битых" ссылок. Их нам и надо исправить.
- В поле Anchor Text отображается анкор ссылки.
2. Поиск редиректов внутри сайта.
Внутри сайта следует избегать наличия излишних редиректов. Это негативно влияет на передачу веса по страницам, а также замедляет скорость загрузки. Получается ситуация, что при открытии страницы тратится время на её загрузку, затем осуществляется редирект, который, в свою очередь, тоже занимает некоторое время, а затем загружается уже целевая страница, на которую был настроен редирект.
Для просмотра данных по страницам с редиректами фильтруем полученные результаты:
Рис.8 – Проверка страниц с 3хх редиректом
Получаем список страниц, которые отдают редирект; тип редиректа; время, затрачиваемое на редирект; и URL, на который перенаправляет.
По аналогии с обработкой результатов 404 ошибок, смотрим детальную информацию в нижнем блоке (страница, на которой проставлены ссылки с редиректом, сам адрес ссылки и анкор ссылки):
Рис.8 – Проверка страниц с 3хх редиректом
Все найденные ошибки рекомендуется исправить.
3. Страницы, заблокированные в robots.txt.
Данный отчет также следует проверить, чтобы избежать ситуации наличия важных страниц сайта, ошибочно закрытых в файле robots.txt.
Рис.9 – Подробная информация 3хх ошибок
В нашем примере видим наличие закрытых в robots.txt JS-скриптов, а также информацию, в какой именно строке файла размещена запрещающая директива. При наличии важных страниц сайта рекомендуется скорректировать файл robots.txt, тем самым открыть страницы для поисковых роботов.
Рис.10 – Заблокированные в robots.txt страницы
Информация, которую можно получить на вкладке URI:
- Non ASCII Characters – список URI, который содержит символы, не включенные в схему кодирования ASCII символов. Важно не допускать таких ошибок, так как возникают проблемы с простановкой ссылок на такие страницы. Пример страниц Википедии: Урл - https://ru.wikipedia.org/wiki/Юникод. При копировании и вставке данного адреса получаем ссылку https://ru.wikipedia.org/wiki/%D0%AE%D0%BD%D0%B8%D0%BA%D0%BE%D0%B4. Как видим «Юникод» перекодировался в ASCII и выглядит совсем иначе.
- Underscores – использование нижнего подчеркивания вместо использования дефиса в качестве разделителя между словами. Рекомендуется использовать дефис вместо нижнего подчеркивания. Поисковые роботы воспринимают дефис как разделитель. Каждое слово в URL с дефисом учитываются по отдельности, в то время как адрес с нижним подчеркиванием учитывается целиком. Если в структуре сайта есть страницы с нижним подчеркиванием, это некритично (менять структуру сайта не следует).
- Duplicate – важнейший фильтр, который на основе hash страниц, показывает дубли страниц на сайте. Следует избегать дублирования страниц на сайте.
- Parameters – список URL, которые содержат параметры (типа ‘?’ или ‘&’ ). Как правило, это относится к страницам пагинации, форм заказа, фильтрации на сайте. Наличие урлов с параметрами в индексе нежелательно, т.к. это не представляет полезности для поисковых систем и может стать дублем вашей продвигаемой страницы.
- Over 115 characters – URl, которые имеют длину больше 115 символов. Важно не спамить ключевыми словами в URL.
Рис.12 – Статистика Title сайта
4. Ищем пустые и дублирующиеся Title на сайте.
Фильтр Multiple отображает страницы, где title размещен более одного раза. Это довольно редкая ошибка, но нужно проверять и данный пункт.
Фильтр Duplicate отображает страницы с дублирующимся title.
Рис.13 – Дублирующиеся Title
Title может дублироваться на страницах пагинации, страницах с фильтрами и сортировкой. Данные страницы рекомендуется закрывать от индексации в файле robots.txt путем добавления директив:
Disallow: /*&,
а для страниц пейджинга рубрик можно подготовить шаблоны с автозаполнением мета-тегов формата - название рубрики + номер страницы.
5. Оптимизация Title.
Рис.14 – Статистика о длине Title
Ошибки Over 65 characters и Over 482 pixels показывают, что текущий тайтл не будет весь отображен в результатах выдачи.
Наглядно это можно увидеть в нижнем блоке на вкладке SERP Snippet при выборе определенной страницы:
Рис.15 – Вкладка SERP Snippet
Для примера приведен длинный заголовок и часть фразы "отображается полностью" в выдаче не отобразиться.
Справа от заголовка представлена статистика. Длина Title составляет 72 символа (пробелы учитываются). Отображается только 49 символов. Красным цветом подсвечивается 23 символа, которые не отображаются.
Below 30 Characrers и Below 200 pixels показывают, что title короткий и его можно увеличить, чтобы он подробнее раскрывал суть страницы.
Рис.16 – Визуальное отображение Title
Длина заголовка составляет 18 символов с пробелами. На примере выше, мы видим, что заголовок может составлять 45-49 символов. Если возможно предоставить дополнительную релевантную информацию о странице - добавляйте.
Google обычно отображает 50-60 символов или столько символов, сколько поместится в 512 пикселей. Если все ваши заголовки будут 55 символов, то вы можете ожидать, что около 95% страниц будут полностью отображаться.
Но, поисковые системы могут выбрать для отображения и другой текст со страницы.
Оптимизацией Title занимается SEO-специалист в рамках продвижения проекта.
Мета-тег Description используется для формирования cниппета в результатах поиска. Грамотное заполнение описания может значительно увеличить долю кликов по сайту.
Анализ Description аналогичен мета-тегу title:
Рис.17 – Статистика мета-тега Description сайта
Оптимизацией Description занимается SEO-специалист в рамках продвижения проекта.
Рис.18 – Статистика тегов H1/H2 сайта
- Missing – отображает страницы, на которых отсутствует тег h1/h2. Рекомендуется, чтобы для всех страниц был заполнен тег h1. Это помогает пользователям сориентироваться на сайте, понять, что представлено на посещаемой странице.
- Duplicate – отображает дубли h1/h2 внутри сайта. Рекомендуется создавать уникальный h1 для каждой страницы.
- Over 70 characters – h1/h2 с длиной больше, чем 70 символов. Не рекомендуется делать длинные заголовки. Как показывает практика, нежелательно делать ширину строки на странице более 85 символов. Это обусловлено удобством к восприятию информации на странице. Как правило, размер шрифта заголовка всегда больше, чем основной контент, поэтому оптимальным размером заголовка будет ширина в 70 символов.
- Multiple – отображает страницы с дублирующими тегами h1/h2.
Рис.19 – Статистика изображений сайта
- Over 100kb – отображает картинки весом более 100kb.
- Missing Alt Text – рисунки с отсутствующими описаниями в ALT.
- Alt Text Over 100 Characters – рисунки с описанием ALT более 100 символов.
Размещение на сайте больших по весу картинок напрямую влияет на скорость загрузки страницы. Чем больше весит картинка, тем медленнее загружается страница.
Рекомендуется не размещать изображения на сайте больше 100 кб.
После проведения аудита рекомендуется проверить URL в файле sitemap.xml, чтобы избежать включения в него страниц, с 404 ошибками, редиректами, дублями.
Для проведения данной проверки следует выгрузить sitemap.xml с сайта. Как правило, карта сайта располагается по адресу [название сайта]/sitemap.xml
В программе меняем режим Mode -> List.
Рис.20 – Анализ списка URL
Теперь нам доступна загрузка URL-ов как списком, так и файлом:
Рис.21 – Загрузка списка URL
Добавляем все адреса из карты сайта и проводим проверку. Аудит будет проведен аналогичный тому, что был рассмотрен в статье.
Особое внимание следует уделить разделу Response Codes. Важно, чтобы в карте сайта все страницы возвращали код ответа сервера 200 ОК.
Заключение
В данной статье были рассмотрены основные моменты, которые следует проверять при проведении технического аудита сайта, а также рассмотрен функционал программы Screaming Frog SEO Spider, который успешно помогает с этой задачей.
Такие проверки рекомендуется осуществлять периодически для исключения и исправления ошибок в работе сайта.
Оригинал статьи взят с сайта ADMG
Другие статьи: