URL/Сбор ссылок
Данная вкладка предназначена для сбора ссылок на сайте. В процессе обработки сайта модуль собирает ссылки, удовлетворяющие заданным фильтрам.
Для того что бы начать сбор ссылок вам необходимо указать стартовую ссылку.
Ссылку с которой модуль начнет парсить страницу в поиске других ссылок. После того как модуль спарсит стартовую страницу взмет все ссылки с нее он отправит их на проверку фильтров.
Ссылки, которые пройдут через фильтры очереди попадают в список очереди. Ссылки, которые пройдут через фильтры ссылок, попадают в список ссылок на товары. Затем модуль берет следующую ссылку из очереди сканирования и процесс повторяется до тех пор пока в очереди сканирования не закончатся ссылки. Все ссылки что модуль просканировал помечаются как просмотренные. Дубли ссылок в модуль не записывает в очередь сканирования и выдачу.
В процессе сканирования постоянно пополняется список очереди сканирования и перебирая все ссылки мы с легкостью можем собрать необходимые вам ссылки, будь то товары или категории, или любые другие интересующие вас типы страниц.
Внимание!В список очереди и в список выдачи не могут попасть дубли url-адресов. Так что дубли url не попадут в списки.
Элементы страницы сбора ссылок
Проект - В этом поле вы можете изменить название проекта.
Пауза парсинга - При сборе ссылок ваш сайт будет обращаться на сайт донор скачивать страницу парсить ее затем брать следующую ссылку и повторять процесс. Если делать много запросов сайт донор забанит вас за аномальную активность.
При парсинге модуль может и по 3 страницы в секунду просматривать, согласитесь человек так не может. Эта настройка предназначена для создания паузы между запросами.
После того как скачалась первая страница и собрались все ссылки с нее, модуль сделает паузу перед следующим запросом.
Время указывается в секундах.
Так же можно указать диапазон времени, допустим вы хотите что бы модуль делал рандомную паузу между запросами, и что бы длительность пауы определялась случайно в диапазоне от 3сек до 10сек.
Для этого вам нужно записать в данное поле 3-10
Стартовая ссылка - Ссылка с которой модуль начинает сбор ссылок сайта. Данная ссылка нужна только для первого запроса, в дальше модуль будет работать с ссылками из списка очереди сканирования. Стартовая ссылка обязательно должна быть с указанием протокола. http:// или https://
Не должно быть в ссылках очереди - В данном поле вы можете указать какие элементы не должны содержатся в ссылке которую вы хотите видеть в поле очередь сканирования. Допустим вы не хотите что бы в очереди сканирования попадали ссылки с категории галоген, вы знаете что эта категория имеет такую ссылку https://svetavto.com.ua/galogen/ то вам достаточно указать /galogen/ и ссылки с этой категории не попадут в очередь сканирования. Они будут отсеяны модулем. Так же вы можете добавлять не один параметр фильтра, а сколько вам будет угодно. Каждый новый параметр фильтра ссылки должен быть записан с новой строки.
Шаблон ссылок очереди - в данном поле вы указывает какие элементы должны быть в ссылке что бы модуль добавил ее в очередь сканирования. Допустим вы хотите что бы в очереди сканирования были только ссылки с категории Лед и вы знаете что эта категория начинается с https://svetavto.com.ua/led/ вы указываете в шаблоне ссылок очереди /led/ и в поле очередь сканирования будут попадать только те ссылки которые содержат в себе элемент /led/. В данное поле вы тоже можете вставлять сколько угодно параметров фильтрации. Каждый новый параметр фильтра должен начинаться с новой строки. Так же у вас есть галочка Или/И По умолчанию работает правило ИЛИ это значит что если вы укажите в поле два и более правила то модуль добавил ссылку в очередь сканирования если хотя бы один из параметров будет найден в ссылке. Если вы нажмете галочку и сохраните будет работать правило И это значит что модуль добавит ссылку в очередь сканирования только в том случаи если в ссылке будут найдены все параметры указанные в поле Шаблон ссылок очереди.
Внимание! Сбор и фильтрация ссылок для поля выдачи ссылок работает аналогично как и для очереди сканирования.
Очередь сканирования ссылок - В данном поле вы можете просматривать какие ссылки были добавлены в очередь сканирован и обнаружив ненужные ссылки удалить их, и внести новые правила в фильтрацию ссылок.
Ссылки на товар - В этом после вы будете видеть все ссылки что вы хотели собрать. Конечный список необходимых ссылок.
Кнопка [Повторить фильтрацию] - Допустим вы просканировали 5 тысяч ссылок и собрали около 10 тысяч ссылок, на это потратили несколько часов. После этого обнаружили что в выдачи ссылок или очереди сканирования есть ненужные вам ссылки. Из за которых у вас может появится ненужные строки в прайс листе, да и банально нету смысла тратить на них время. Вы указываете дополнительные фильтры жмете сохранить и можете нажать кнопку повторной фильтрации. Данная функция взмет все ссылки что есть в базе данных и повторно прогонит по всем правилам фильтрации и повторно отсеет ссылки.
Собрав ссылки вы можете перейти к настройке параметров парсинга.