Как обойти блокировку сканирования сайтов на Cloudflare в Screaming Frog?
Отличный совет, который можно использовать, даже если Cloudflare блокирует вас с обычными настройками сканирования, т.е. с самой медленной скоростью сканирования URL и настроенным User-Agent.

Как обойти запрет сканирования сайта:
1. Посетите ваш сайт с Cloudflare, например в браузере Chrome.
2. Откройте раздел Devtools (F12) и нажмите на вкладку Сеть.
3. Обновите страницу и дождитесь завершения всех запросов к серверу.
4. Посмотрите на первый запрос к странице (документ) и щелкните по нему правой кнопкой мыши, затем нажмите «Копировать > Копировать все как cURL (bash)».
5. Перейдите на https://curlconverter.com/ и вставьте скопированные данные cURL в поле.
6. Под тем местом, куда вы вставили текст, есть вкладка «HTTP», нажмите на нее.
7. Теперь откройте Screaming Frog, нажмите на «Configuration > Crawl Config» и нажмите на HTTP Header.
8. Установите значение User-Agent так, чтобы он был точно таким же, как из вывода конвертера cURL (находится внизу, скопируйте его и вставьте) – это в основном показывает Cloudflare, что запрос поступает от "того же" пользовательского агента, что и ваша активная сессия Chrome.
9. Установите значения полей Accept, Accept Encoding, Cache Control и Pragma (некоторые могут остаться неизменными).
10. Нажмите «Добавить» и в текстовом поле введите «Cookie», затем скопируйте Cookie из нижней части отображения cURL.
11. Установите Accept-Language и скопируйте его так же.
12. Перейдите в настройки скорости Screaming Frog и установите:
- Максимальное число потоков: 1
- Максимальное число URL/sec: 0.1
13. Перейдите в раздел User-Agent в Screaming Frog, а затем измените пользовательский агент на Custom, затем снова вставьте строку User-Agent из вашего преобразованного вывода CURL в поле пользовательского агента HTTP-запроса.

Теперь, прежде чем вы запустите сканирование, вы должны открыть сайт в Google Chrome и поддерживать сессию активной, прежде чем начать сканирование (походите по нескольким ссылкам на сайте, медленно в течение минуты или двух).
Затем начните сканирование :)
Это работает даже при агрессивной блокировке.
Enjoy!
Оригинал статьи взят с сайта Daniel Foley Carter
Другие статьи:

1215