Screaming Frog Хелпер - Новости программы, статьи      
Технический аудит сайта

Парсинг контента при помощи Screaming Frog SEO Spider (лягушка)

 2215
06.02.2023 | Время чтения: 5 минут
Facebook
Автор: Web Revenue

Парсинг контента при помощи Screaming Frog SEO Spider

Screaming Frog SEO Spider (лягушка) — это SEO краулер при помощи которого обычно производят аудиты сайтов, так же им можно парсить контент с других сайтов.

Скачиваем Screaming Frog SEO Spider, устанавливаем его и запускаем. После чего активируем программу (как это сделать есть в материалах рассылки).

Парсим контент программой Screaming Frog SEO Spider

Я сейчас создаю 2 сайта пока на копипасте. В общем мне сейчас нужно спарсить шаблоны сайтов (где есть партнерские ссылки — заработок на партнерках) и залить контент на сайт под управлением MODX. И в рамках курса по MODX + Fenom делаю витрину офферов — партнерский катаорг под микрозаймы, в который нужно спарсить офферов. Рассмотрим как это сделать на реальных примерах.

Парсинг карточек с шаблонами

Буду парсить карточки с сайта https://wrapbootstrap.com/

Запускаем лягушку и настраиваем поля для парсинга к примеру вот пример карточки https://wrapbootstrap.com/theme/onekit-bootstrap-5-landing-page-WB0X617B2

пример карточки

Т.е. есть картинка, описание, стоимость и прочие характеристики, спарсим их + лягушка автоматом спарсит title, description и h1.

В общем идем в Configuration > Custom > Extractions

Configuration > Custom > Extractions

И добавляем XPath элементы, щелкнув по кнопке ADD

Добавляем XPath элементы

Теперь нам нужно получить XPath нужных элементов на самой странице карточки, идем на нее и по нужному элементу щелкаем правой кнопкой мыши (пользуюсь браузером гугл хром) и выбираем Посмотреть код элемента.

Смотрим код элемента

Откроется код данного элемента, нам нужна обвертка всего этого описания (если навести на нее мышкой, то выделится весь текст описания), щелкаем по ней правой кнопкой мыши и копируем XPath элемента

Копируем XPath элемента

И вставляем его в скримин фрог, так же обзываем его для удобства, так как там HTML и заливать мы будем это описание вместе с html, то оставляем тип Extract Inner HTML

Добавляем XPath в скримин фрог

Давайте покажу еще пару полей — остальное делается по принципу и подобию

Копируем XPath элемента - цена

Цена в данном случае просто число, поэтому тип выбираем Extract Text

Добавляем XPath цены в скримин фрог

С этим думаю понятно, а вот для того чтобы спарсить URL картинки — без обвертки img src (многие CMS могут загружать себе эти картинки по ссылкам), нам нужно точно также скопировать XPath изображения

Копируем XPath изображения

вставляем в лягушки и добавляем в конце /@src (для ссылок /@href)

Добавляем XPath изображения в лягушке

Добавляем все и сохраняем, нажав OK.

Тестовый парсинг одной страницы

Чтобы попробовать как работает парсинг на 1 странице (под которую делали настройку), переключаем стандартный режим Spider на List (Mode — List)

Переключаемся в режим List

После чего копируем из адресной строки браузера адрес страницы

Копируем URL адрес страницы

и вставляем в лягушку

Upload - Paste

потом ок,

ok

после этого начнется парсинг (если не начался, то старт) и вы получите результаты, пробегаемся по ним и смотрим, либо сразу в эксель экспортируем и смотрим

Смотрим что спарсила лягушка

Если все нормально можно парсить весь сайт или его категории.

Если сайт огромный (с тясячами страниц), а вам нужно из них всего пару сотен, то на его парсинг уйдет много времени (да и у других типов страниц не будет нужных полей) можно спарсить только определенные разделы например взяв их и sitemap.xml, в моем случае сайтмап у сайта я не нащел, поэтому буду его парсить целиком, переключившись в режим Spider (Mode — Spider см. выше).

Парсинг офферов

Раз я частично копирую в курсе дизайн с https://xn--80aacjqiv0a.xn--p1ai/ спаршу с него и карточки (хотя далеко не лучший сайт для парсинга — в плане что спарсится не все что нужно).

Открываем любую карточку там видим отдельные поля которые можно спарсить, в моем случае их всего 8 (отметил их на скриншоте).

8 полей которые можно спарсить

Кнопки и ссылки отмечать не стал, так как там конкретно их партнерские ссылки (они нам не нужны). У первых 6 парсить буду только значения (которые выделены). Для этого щелкаем по очереди по выделениям правой кнопкой мыши и выделяем посмотреть код.

Просмотр кода

Откроется консоль браузера и в ней нужно скопировать XPath этого элемента, делается это просто: щелкаем в консоле по коду этого элемента правой кнопкой мыши, в спалывающем меню выбираем Copy — Copy XPath.

Копируем XPath

И выписываем их в блокнот.

Выписываем поля XPath

И все остальные поля таким же образом, в конечном итоге должно получиться следующее:

Процентная ставка //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[1]/b Повторный займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[3]/b Рассмотрение //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[5]/b Первый займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[2]/b Срок займа //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[4]/b Заявок в этом месяце //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[6]/b Изображение //*[@id="dle-content"]/div/div[2]/div[1]/div[2]/img Контент //*[@id="tarif"]/div
Copy

Теперь запускаем лягушку и идем в: Configuration > Custom > Extractions и добавляем туда все выписанные XPath

Конфигурация

для поля изображения в конце добавил /@src, чтобы получить только адрес картинки. Далее можно протестировать парсинг одно страницы (как это сделано есть выше), ну а потом уже запустить для всего сайта или каких то определенных страниц.

Работа с excel

Скримин фрог вместе с требуемыми параметрами парсит так же общие параметры (Status Code, Indexability и другие), которые 90% в дальнейшем при загрузке на сайт не понадобиться, поэтому можно смело от них избавляться.

Я оставляю следующее: Title 1, Meta Description 1, H1-1 и поля которые указали в Extractions. Да т.к. в моем случае пути изображений спарсились так: /progect/1601230075_creditplus.png, я делаю для них полные пути (чтобы можно было открыть в браузере): https://xn--80aacjqiv0a.xn--p1ai/progect/1601025056_creditter.png. В конечном итоге получаем примерно такую таблицу:

Пример получившейся таблицы

Оригинал статьи взят с сайта Web Revenue

Оцените статью
4/5
3



<< Назад