Параметры парсинга

Интерфейс

На данной вкладке вы можете создавать сколько угодно границ парсинга, которые в последствии будете применять при парсинге в интернет магазин или CSV прайс лист.

Название - имя границы парсинга.

Текст начала парсинга - текст найдя которой модуль начнет выделять текст пока не встретит Текст конца парсинга

Текст конца парсинга - текст указывающей на окончание выделения в границе парсинга.

Парсить с границами - данная настройка позволяет получать значение границы парсинга вместе с границами. По умолчанию выкл.

Пропустить вхождения - позволяет выбрать какое по счету вхождение взять. Допустим на странице под одни и теже границы парсинга попадет 10 а то и более вхождений. По умолчанию модуль берет первое что встречается на странице.

Где пропускать - позволяет определить с какой стороны отсчитывать вхождение. От начала страницы или с конца.

Тип границы парсинга - определяет какой тип границы парсинга вы сейчас настраиваете. Есть 2 типа.

  1. Обычная граница париснга
  2. Повторяющаяся граница парсинга

Повторяющаяся граница парсинга

В отличие от обычной границ парсинга которая собирает одну части кода, повторяющиеся границы позволяют собрать несколько данных со страниц. Например, повторяющимися границами можно собрать все дополнительные картинки товара, категорий товара, атрибуты или прочую информацию, которая в коде находится в одинаковых тегах или участи кода.

Например мы соберемся собрать все дополнительные фотото товара из кода:

       <div class=images>
            <div class=" image-additional img-thumbnail-transparent photobox">
              <a class="thumbnail " href="image/cache/data/led/12/133649844_w640_h640_img_088-800x800-w-30-0-0.jpg" ...>
                <img src="image/cache/data/led/12/133649844_w640_h640_img_088-90x90.jpg" .../>
              </a>
            </div>
            <div class=" image-additional img-thumbnail-transparent photobox">
              <a class="thumbnail " href="image/cache/data/led/12/133649847_w640_h640_img_109-800x800-w-30-0-0.jpg" ...">
                <img src="image/cache/data/led/12/133649847_w640_h640_img_109-90x90.jpg" .../>
              </a>
            </div>
          </div>

Для того чтобы получить 33649844_w640_h640_img_088-800x800-w-30-0-0.jpg и 133649847_w640_h640_img_109-800x 800-w-30-0-0.jpg указываем начало повторяющихся границ парсинга, как <a class="thumbnail " href=" а конец, как ". Тогда мы получим

133649844_w640_h640_img_088-800x800-w-30-0-0.jpg
133649847_w640_h640_img_109-800x800-w-30-0-0.jpg

Повторяющейся границы внутри обычной границы парсинга

Допустим нам нужно собирать повторяющимися границами допонительные фото товара которые находятся между <a class="thumbnail " href=" и ". Если вы зададите начало повторяющейся границы, как <a class="thumbnail " href=" и конец, как ", то в результат обработки попадут все картинки с страницы (так как все они содержатся между <a class="thumbnail " href=" и ").

Чтобы ограничить поиск указанных повторяющихся границ только в определенной части кода, например, в внутри другой границы, обычной. То создаем простую границу парсинга и указываем вней <div class=images>, а ее конец, как — </div> И сохраняем. Затем при создании новой границы выбираем Повторяющий границы парсинга В поле Область для повторяющей границы парсинга выбираем зарание заготовленную обычную границу парсинга. В моем случаи это Граница доп фото. В поле текст начала и конца парсинга указываем <a class="thumbnail " href=" и соотвецтвенно " После чего нажимаем пред просмотр и можем видеть как модуль распарсил все фото. Поле разделитель необходимо что бы указать модулю каким символом отделять первое вхождение при парсинге от второго.

Так же у повторяющейся границы парсинга есть доп настройки. Область повторения - о ней мы поговорили выше.
Разделитель - текст который модуль вставит между каждым найденным элементом.
Порядок вывода - эта настройка позволяет выводить все вхождения в обратном порядке от конца к началу.

Нюансы

  1. Блок выделенный красным цветом содержит только первые 100 ссылок. Сделано так что бы не выводить на этой странице все 5000т ссылок.
  2. Блок выделенный синим цветом может не показывать перевью сайта. Это связано с тем что не все сайты позволяют открывать себя в iframe окне. Это некоим образом не сказывается на работе парсера. А касается только окна пред просмотра, и не более того.