Общие настройки браузера

В данной статье я опишу только общие настройки браузера.
Более подробно об настройках Cookie, User-Agent и Headers выйдут отдельные заметки.

В этой заметке пойдет речь только об

Вкладка с настройками называется Браузер.
Название было дано не случайно, вы должны понимать что все настройки выбранные в этой вкладке будут влиять на все запросы сделанные модулем. Неважно парсите вы или открываете просто пред просмотр.

Использовать прокси

  1. Не использовать прокси
  2. Проверенный список прокси - В данном случаи для парсинга сайта донора будут использоваться прокси сервера из списка Проверенный список прокси которые вы можете настроить на вкладке прокси.
  3. Полный список прокси [Не рекомендуется] - для парсинга будут браться прокси сервера из полного списка прокси. Не рекомендую поскольку без проверки прокси ожидать нормального результата от такого парсинга не стоит. Использование не проверенного списка прокси как говорится на свой страх и риск.

После выбора использование прокси все запросы на страницу сайта донора будут производится через прокси.
Кроме запроса на скачивание фото, как правило фото отдается без ограничений и скачивать фото товаров через прокси бессмысленно.

Если при запросе прокси выдаст ошибку модуль произведет пару попыток загрузить страницу используя другие прокси. Если все прокси будут выдавать ошибку модуль пометит ссылку как спаренную и пойдет дальше. Несмотря на то что данные так и не вышло получить.

Нажав один раз загрузить код сайта для настройки парсинга вы можете увидеть такой результат в логах, если используете не качественные прокси.

2019-10-04 04:56:38| Парсинг : Ошибка запроса | Код ошибки = 28 | Текст ошибки = connect() timed out! | Ссылка - https://svetavto.com.ua/led/?page=3
2019-10-04 04:56:43| Парсинг : Ошибка запроса | Код ошибки = 56 | Текст ошибки = Proxy CONNECT aborted due to timeout | Ссылка - **https://svetavto.com.ua/led/?page=3
2019-10-04 04:56:48| Парсинг : Ошибка запроса | Код ошибки = 28 | Текст ошибки = connect() timed out! | Ссылка - https://svetavto.com.ua/led/?page=3
2019-10-04 04:56:51| Парсинг : УСПЕШНЫЙ ЗАПРОС Код ответа [200] Ссылка | https://svetavto.com.ua/led/?page=3

Модуль не мог скачать страницу и перебирал прокси пока не получил удовлетворительный результат.
Мне кажется это сильно облегчит жизнь всем тем кто будет использовать бесплатные прокси сервера.

Так же обратите внимание что модуль берет прокси сервера не по очереди, а рандомно на каждый запрос.

Максимальное время выполнения запроса

Здесь вы можете указать время которое разрешено модулю на выполнение запроса к сайту. От 1сек до 25сек
То есть если модуль не успевает за это время выполнить запрос и получить результат он переходит к другой ссылке.
Полезно при использовании бесплатных прокси серверов которые работают так медленно что сайт может отключатся по тайм ауту из за ограничение на выполнение php скриптов.
В случаи когда отработает эта настройка вы в логе сможете увидеть

2019-10-04 04:58:40| Парсинг : Ошибка запроса | Код ошибки = 28 | Текст ошибки = Operation timed out after 5000 milliseconds with 9825 bytes received | Ссылка - https://svetavto.com.ua/xenon/?page=2

Ожидать соединения

Время за которое модуль должен успеть соединится с сайтом донором. От 1сек до 25сек
Данная настройка необходима для работы с прокси серверами, что бы отсевать медленные прокси сервера. Если отработает эта настройка вы увидите в логе

2019-10-04 04:57:32| Парсинг : Ошибка запроса | Код ошибки = 28 | Текст ошибки = connect() timed out! | Ссылка - https://svetavto.com.ua/led/?page=5

Парсить заголовки

Теперь доступна настройка благодаря которой в код сайта в верх будет добавляться еше заголовки присланные сервером которые вы можете так же парсить как и любой другой код с страницы.
Пример:

Переходить по редиректами

Данная настройка отвечает за разрешение модулю переходить по редиректам.
Допустим у сайта донора сменилась ссылка. А у вас в базе еше старая, но донор проставил редиректы с старых адресов на новые.
Если у вас будет разрешено переходить по редиректам то модуль при заходе по старой ссылке будет перенаправлен на новую и спарсит ее.
Раньше у модуля по умолчанию стояло да, рекомендую так и оставить поскольку автоматическое перекидывание с http на https тоже считается редиректам и если вы отключите то эти ссылки будут считается битыми.

Кешировать страницы в пред просмотре

Данная настройка отвечает за кеширование страниц исключительно в пред просмотре, и настройке парсинга.
По умолчанию значение да.

Кеширование страниц делается сроком на 3часа. Кеширования позволяет снизить количество запросов к сайту донору, и тем самым ускоряет работу модуля.