Screaming Frog Хелпер - Новости программы, статьи      
Технический аудит сайта

Парсим контент конкурента программой Screaming Frog

 360
04.10.2022 | Время чтения: 2 минут
Facebook
Автор: Politay.pro

Выходить на любой рынок без анализа ниши — глупо. Но сегодня мы поговорим не об этом.

Парсим контент конкурента программой Screaming Frog

В этом посте я расскажу как с помощью программы Screaming Frog SEO Spider можно парсить контент конкурента. Например:

  • описание, характеристики и цену продукта;
  • изображения;
  • наличие и количество отзывов;
  • количество просмотров статьи;
  • наличие seo текстов;
  • и т.д.

Инструкция по применению

Выбираем сайт с которого хотим спарсить данные. Я возьму на пример сайт habr.com. И сегодня мы попробуем найти материал, у которого больше всего комментариев.

Переходим на любую страницу материала, скроллим к блоку отзывов. Правой кнопкой мыши кликам по количеству комментариев и выбираем «Просмотреть код»:

Далее выбираем код, который отвечает за вывод количества и снова кликаем правой кнопкой мыши на выбранном элементе. Копируем XPath:

Открываем Screaming Frog, копируем адрес сайта в поле:

Не спешите кликать на кнопку «Start». Переходим в меню Configuration — Custom — Extraction:

Выбираем настройки как на скрине (1) и вставляем скопированный код XPath в поле (2):

После этого необходимо добавить правило парсинга только по постам, что бы не тянуть мусорные страницы. Переходим снова в меню Configuration — Include:

И добавляем правило парсинга только постов (.* — любые символы):

После всего это жмем ОК и начинаем парсинг нажатием на кнопку Start.

Хабр сайт очень большой, ждать пока жаба спарсит все страницы мы не будем, поэтому покажем результат на том, на что у меня хватило терпения ждать).

Скроллим правое меню до блока «Custom», выбираем Extaction:

Вот мы и нашли пост, у которого наибольшее количество комментариев:

Что еще

А еще мы можем доставать необходимую нам информацию по шаблону, например мыло или номер телефона. Разберем ситуацию с мылом.

Спарсим с помощью RDS ТОП 100 выдачи:

В спайдере выбираем LIST:

Настраиваем выборку:

И добавляем следующий код — [a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+

Загружаем в спайдер спарсеные сайты:

И получаем базу мыла:

Как парсить цены с сайта конкурента

Выбираем жертву, у меня это будет сайт цитруса. Ну и конечно же парсить одни цены это глупо, поэтому вместе с ценой будем брать и название товара.

Что бы не парить лишнее выбираем раздел, у меня это «Смартфоны» и задаем следующие правила ограничивающие лягушку:

Копируем xPath элемента цены:

Вставляем в Custom Extraction:

Добавляем аналогично и название товара, запукаем парсинг. Я, как и всегда, весь сайт не парсил. Мне это не нужно:)

Экспортируем и смотрим что вышло:

Вывод

Используйте полученные данные только на благие цели. Играйте честно и уважайте чужой труд.

Оригинал статьи взят с сайта Politay.pro

Оцените статью
5/5
1



<< Назад