Парсинг с авторизацией (cookie)

В данной заметке я расскажу как парсить с авторизацией.

В модуле SimplePars доступны два варианта как указать авторизацию на сайте доноре.
Я начну с более простого и к более сложному но гибкому.
Пример покажу на сайте pikabu.ru поскольку здесь у меня есть аккаунт. Это так же работает на 95% сайтов.

PS. Эта функция существует в модуле уже много времени и пока не разу не была случая когда нужно использовать исключительно второй варианта. Так что смело можно использовать первый.

Метод первый (Он же проще и предпочтительнее.)

Как определить авторизованы вы на сайте или нет.
Открываем сайт в вашем браузере и видим надпись Авторизация Значит мы не авторизованы.

То же самое мы увидим в коде страницы при парсинге.

Соответственно можем убедится что сейчас модуль не авторизован.

Авторизуемся на сайте доноре в вашем браузере.
После авторизации видим что на сайте теперь показывается имя пользователя вместо слова войти.

Далее открываем инструменты разработчика в вашем браузере. Нажатием F12
У меня браузер Mozilla Firefox в Google Chrome все аналогично.
Открываем вкладку Сеть и жмем обновить страницу, в левом верхнем углу браузера.
Теперь в разделе сеть вы можете видеть запросы которые отправлял ваш браузер на сайт. Нажимаем на любой из них.

После чего в правой части вкладки сеть появится раздел заголовки, опускаемся до раздела Заголовки запроса.
И выбираем галочку, не обработанные заголовки. Копируем строку которая начинается на Cookie

Эту строку просто записываем в модуль SimplePars в вкладку Браузер поле Собственные заголовки И сохраняем. Вот так.

Все готово!
Теперь модуль при каждом обращении к сайту донору будет отдавать куки с авторизацией.

Давайте проверим. Заново открываем в настройках парсинга эту страницу и попробуем найти в коде имя авторизованного пользователя.
В моем случаи это Rassol2 ну а вашем будет имя вашего аккаунта.

В коде появилось ник моего аккаунта, значит модуль смог авторизоваться и теперь парсеру доступны все данные сайта которые были скрыты для не авторизованных пользователей.

Метод второй.

Повторяем действия по авторизации из первого метода.

  1. После авторизации вам необходимо нажать f2 и браузере откроет меню разработчика.
  2. Перейти на вкладку сеть, и обновить страницу.
  3. После в боковом меню выбрать раздел заголовки и заголовки запроса.
  4. Поставить галочку необработанные заголовки
  5. Скопировать строку начинавшуюся на Cookie:

Считайте у вас готовые куки для парсинга как авторизованный пользователь.
Осталось только вставить эту строку в поле Куки браузера и поделить что бы каждая кука была с новой строки.

После того как вы авторизовались на сайте, вы можете видеть свой логин.

А после того как вы запишите куки в браузер парсера модуль тоже будет работать как авторизованный пользователь и в коде сайта вы обнаружите тоже те данные что доступны только авторизованным пользователям.

Второй метод это полноценная работа с куками браузера, и нужно для более сложных вещей чем авторизация, ее потенциал будет раскрыт в будущих версиях модуля.

Вот так просто в модуле SImplePars вы можете парсить с авторизацией.