Полезный совет для сканирования сайтов, которые блокируют запросы краулеров

1930

29.01.2025 | Время чтения: 3 минут

Автор: Симагин Андрей

Полезный совет для сканирования сайтов, которые блокируют запросы краулеров

Улучшите сканируемость сайтов, которые блокируют поисковых роботов и краулеры, таких как Screaming Frog, SiteAnalyzer и т.п. Примеры некоторых решений, которые вы можете сделать, чтобы улучшить сканирование сайтов, использующих Cloudflare, Akamai и т.д.

Итак...

1. Зайдите на сайт, который вы хотите просканировать, через браузер.

2. В начале сканирования откройте DevTools (F12), перейдите на вкладку APPLICATION, затем в разделе STORAGE слева нажмите Cookies – найдите основную сессионную cookie.

3. Скопируйте значение cookie (вы также можете скопировать содержимое cookie, отправить его в ChatGPT / Gemini и попросить его сгенерировать значение cookie для вас).

4. Зайдите в Screaming Frog > Configuration > Crawl Config > HTTP Header.

5. Внизу нажмите Добавить, затем в поле новой записи введите имя COOKIE и в правом текстовом поле вставьте ранее скопированное значение куки.

6. Теперь мы инициировали сессию из нашего браузера – поэтому давайте использовать тот же агент пользователя, что и наш браузер (сохраняя вашу сессию активной) – в DEVTOOLS (F12) нажмите на NETWORK и обновите страницу, затем в левой секции под NAME нажмите на название сайта, затем вы увидите HEADERS, PREVIEW, RESPONSE и т.д. Нажмите HEADERS, прокрутите до самого низа и скопируйте значение User-Agent.

User-Agent, Scremaing Frog сканирование сайта

7. В Screaming Frog перейдите к User-Agent, измените user agent на CUSTOM, а затем вставьте в поле User-Agent из HTTP-запроса пункта 6.

8. Вернитесь в раздел HTTP Header и используйте эти значения:

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Cache-Control: no-cache
Pragma: no-cache
Accept-Language: en-US,en;q=0.5
Connection: keep-alive
Upgrade: 1

Вернитесь в раздел HTTP Header

Примечание! У вас может не быть всех этих параметров – чтобы добавить их, нажмите + Добавить, а затем используйте выпадающий список.

9. В Screaming Frog перейдите в раздел SPEED, измените MAX THREADS на 1 и отметьте Limit URL/s на 0.1 (да, это медленно, но нам нужно эмулировать реальный просмотр пользователя – вы можете поиграться с этим параметром, но помните, что большое значение легко вызовет такие вещи, как капча Cloudflare и т.д.).

MAX THREADS на 1 и отметьте Limit URL/s на 0.1

10. Перейдите в SPIDER > Crawl и настройте все так, как показано на скриншотах в этом посте – в основном, вам не нужны IMAGES, MEDIA и CSS для сканирования сайта. Это влияет на рендеринг в Screaming Frog и на такие вещи в IMAGE, как проверка ALT и т.п., но это очень низкий уровень важности, поэтому об этом не стоит беспокоиться.

Перейдите в SPIDER > Crawl

11. Перейдите в SPIDER > Extraction – все это на ваше усмотрение, однако большинству SEO-специалистов не стоит беспокоиться об таких параметрах, как Page Size, Hash Value, Text to Code Ratio, Meta Keywords, поэтому снимите эти галочки.

12. Нажмите SPIDER > Rendering и измените рендеринг на Javascript. Также можно поменять предустановку WINDOW SIZE на DESKTOP.

Нажмите SPIDER > Rendering и измените рендеринг на Javascript

13. SPIDER > Advanced – убедитесь, что Always Follow Redirects и Always Follow Canonicals отключены. Убедитесь, что выбрана опция RESPECT HSTS Policy.

14. Раздел Robots.txt – убедитесь, что выбрана опция Respect Robots.txt.

Это может повысить сканируемость сайтов, которые, как известно, трудно сканировать, но в конечном итоге это не является надежным решением.

За годы работы я протестировал множество настроек на множестве сайтов и могу с уверенностью сказать, что эти работают для меня лучше всего!

Оцените статью

5/5

Другие статьи:

<< Назад