Парсинг контента при помощи Screaming Frog SEO Spider (лягушка)
Screaming Frog SEO Spider (лягушка) — это SEO краулер при помощи которого обычно производят аудиты сайтов, так же им можно парсить контент с других сайтов.
Скачиваем Screaming Frog SEO Spider, устанавливаем его и запускаем. После чего активируем программу (как это сделать есть в материалах рассылки).
Парсим контент программой Screaming Frog SEO Spider
Я сейчас создаю 2 сайта пока на копипасте. В общем мне сейчас нужно спарсить шаблоны сайтов (где есть партнерские ссылки — заработок на партнерках) и залить контент на сайт под управлением MODX. И в рамках курса по MODX + Fenom делаю витрину офферов — партнерский катаорг под микрозаймы, в который нужно спарсить офферов. Рассмотрим как это сделать на реальных примерах.
Парсинг карточек с шаблонами
Буду парсить карточки с сайта https://wrapbootstrap.com/
Запускаем лягушку и настраиваем поля для парсинга к примеру вот пример карточки https://wrapbootstrap.com/theme/onekit-bootstrap-5-landing-page-WB0X617B2
Т.е. есть картинка, описание, стоимость и прочие характеристики, спарсим их + лягушка автоматом спарсит title, description и h1.
В общем идем в Configuration > Custom > Extractions
И добавляем XPath элементы, щелкнув по кнопке ADD
Теперь нам нужно получить XPath нужных элементов на самой странице карточки, идем на нее и по нужному элементу щелкаем правой кнопкой мыши (пользуюсь браузером гугл хром) и выбираем Посмотреть код элемента.
Откроется код данного элемента, нам нужна обвертка всего этого описания (если навести на нее мышкой, то выделится весь текст описания), щелкаем по ней правой кнопкой мыши и копируем XPath элемента
И вставляем его в скримин фрог, так же обзываем его для удобства, так как там HTML и заливать мы будем это описание вместе с html, то оставляем тип Extract Inner HTML
Давайте покажу еще пару полей — остальное делается по принципу и подобию
Цена в данном случае просто число, поэтому тип выбираем Extract Text
С этим думаю понятно, а вот для того чтобы спарсить URL картинки — без обвертки img src (многие CMS могут загружать себе эти картинки по ссылкам), нам нужно точно также скопировать XPath изображения
вставляем в лягушки и добавляем в конце /@src (для ссылок /@href)
Добавляем все и сохраняем, нажав OK.
Тестовый парсинг одной страницы
Чтобы попробовать как работает парсинг на 1 странице (под которую делали настройку), переключаем стандартный режим Spider на List (Mode — List)
После чего копируем из адресной строки браузера адрес страницы
и вставляем в лягушку
потом ок,
после этого начнется парсинг (если не начался, то старт) и вы получите результаты, пробегаемся по ним и смотрим, либо сразу в эксель экспортируем и смотрим
Если все нормально можно парсить весь сайт или его категории.
Если сайт огромный (с тясячами страниц), а вам нужно из них всего пару сотен, то на его парсинг уйдет много времени (да и у других типов страниц не будет нужных полей) можно спарсить только определенные разделы например взяв их и sitemap.xml, в моем случае сайтмап у сайта я не нащел, поэтому буду его парсить целиком, переключившись в режим Spider (Mode — Spider см. выше).
Парсинг офферов
Раз я частично копирую в курсе дизайн с https://xn--80aacjqiv0a.xn--p1ai/ спаршу с него и карточки (хотя далеко не лучший сайт для парсинга — в плане что спарсится не все что нужно).
Открываем любую карточку там видим отдельные поля которые можно спарсить, в моем случае их всего 8 (отметил их на скриншоте).
Кнопки и ссылки отмечать не стал, так как там конкретно их партнерские ссылки (они нам не нужны). У первых 6 парсить буду только значения (которые выделены). Для этого щелкаем по очереди по выделениям правой кнопкой мыши и выделяем посмотреть код.
Откроется консоль браузера и в ней нужно скопировать XPath этого элемента, делается это просто: щелкаем в консоле по коду этого элемента правой кнопкой мыши, в спалывающем меню выбираем Copy — Copy XPath.
И выписываем их в блокнот.
И все остальные поля таким же образом, в конечном итоге должно получиться следующее:
Процентная ставка //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[1]/b Повторный займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[3]/b Рассмотрение //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[5]/b Первый займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[2]/b Срок займа //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[4]/b Заявок в этом месяце //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[6]/b Изображение //*[@id="dle-content"]/div/div[2]/div[1]/div[2]/img Контент //*[@id="tarif"]/div
Copy
Теперь запускаем лягушку и идем в: Configuration > Custom > Extractions и добавляем туда все выписанные XPath
для поля изображения в конце добавил /@src, чтобы получить только адрес картинки. Далее можно протестировать парсинг одно страницы (как это сделано есть выше), ну а потом уже запустить для всего сайта или каких то определенных страниц.
Работа с excel
Скримин фрог вместе с требуемыми параметрами парсит так же общие параметры (Status Code, Indexability и другие), которые 90% в дальнейшем при загрузке на сайт не понадобиться, поэтому можно смело от них избавляться.
Я оставляю следующее: Title 1, Meta Description 1, H1-1 и поля которые указали в Extractions. Да т.к. в моем случае пути изображений спарсились так: /progect/1601230075_creditplus.png, я делаю для них полные пути (чтобы можно было открыть в браузере): https://xn--80aacjqiv0a.xn--p1ai/progect/1601025056_creditter.png. В конечном итоге получаем примерно такую таблицу:
Оригинал статьи взят с сайта Web Revenue
Другие статьи: