Полезный совет для сканирования сайтов, которые блокируют запросы краулеров
Улучшите сканируемость сайтов, которые блокируют поисковых роботов и краулеры, таких как Screaming Frog, SiteAnalyzer и т.п. Примеры некоторых решений, которые вы можете сделать, чтобы улучшить сканирование сайтов, использующих Cloudflare, Akamai и т.д.
Итак...
1. Зайдите на сайт, который вы хотите просканировать, через браузер.
2. В начале сканирования откройте DevTools (F12), перейдите на вкладку APPLICATION, затем в разделе STORAGE слева нажмите Cookies – найдите основную сессионную cookie.
3. Скопируйте значение cookie (вы также можете скопировать содержимое cookie, отправить его в ChatGPT / Gemini и попросить его сгенерировать значение cookie для вас).
4. Зайдите в Screaming Frog > Configuration > Crawl Config > HTTP Header.
5. Внизу нажмите Добавить, затем в поле новой записи введите имя COOKIE и в правом текстовом поле вставьте ранее скопированное значение куки.
6. Теперь мы инициировали сессию из нашего браузера – поэтому давайте использовать тот же агент пользователя, что и наш браузер (сохраняя вашу сессию активной) – в DEVTOOLS (F12) нажмите на NETWORK и обновите страницу, затем в левой секции под NAME нажмите на название сайта, затем вы увидите HEADERS, PREVIEW, RESPONSE и т.д. Нажмите HEADERS, прокрутите до самого низа и скопируйте значение User-Agent.
7. В Screaming Frog перейдите к User-Agent, измените user agent на CUSTOM, а затем вставьте в поле User-Agent из HTTP-запроса пункта 6.
8. Вернитесь в раздел HTTP Header и используйте эти значения:
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Cache-Control: no-cache
Pragma: no-cache
Accept-Language: en-US,en;q=0.5
Connection: keep-alive
Upgrade: 1
Примечание! У вас может не быть всех этих параметров – чтобы добавить их, нажмите + Добавить, а затем используйте выпадающий список.
9. В Screaming Frog перейдите в раздел SPEED, измените MAX THREADS на 1 и отметьте Limit URL/s на 0.1 (да, это медленно, но нам нужно эмулировать реальный просмотр пользователя – вы можете поиграться с этим параметром, но помните, что большое значение легко вызовет такие вещи, как капча Cloudflare и т.д.).
10. Перейдите в SPIDER > Crawl и настройте все так, как показано на скриншотах в этом посте – в основном, вам не нужны IMAGES, MEDIA и CSS для сканирования сайта. Это влияет на рендеринг в Screaming Frog и на такие вещи в IMAGE, как проверка ALT и т.п., но это очень низкий уровень важности, поэтому об этом не стоит беспокоиться.
11. Перейдите в SPIDER > Extraction – все это на ваше усмотрение, однако большинству SEO-специалистов не стоит беспокоиться об таких параметрах, как Page Size, Hash Value, Text to Code Ratio, Meta Keywords, поэтому снимите эти галочки.
12. Нажмите SPIDER > Rendering и измените рендеринг на Javascript. Также можно поменять предустановку WINDOW SIZE на DESKTOP.
13. SPIDER > Advanced – убедитесь, что Always Follow Redirects и Always Follow Canonicals отключены. Убедитесь, что выбрана опция RESPECT HSTS Policy.
14. Раздел Robots.txt – убедитесь, что выбрана опция Respect Robots.txt.
Это может повысить сканируемость сайтов, которые, как известно, трудно сканировать, но в конечном итоге это не является надежным решением.
За годы работы я протестировал множество настроек на множестве сайтов и могу с уверенностью сказать, что эти работают для меня лучше всего!
Другие статьи: