Парсинг без кода. Тестовый урок
Парсим без кода с помощью парсера WebScraper.
Скачать и установить расширение http://webscraper.io
Текст в видео:
Парсер Web Scraper — это расширение для браузера.
Перейдём к примеру парсинга. Задача — собрать цены на товары. Сайт — Леруа Мерлен.
Категория — товары для дачи. Открываем парсер в панели разработчика. Нажимаем F12 и переходим во вкладку WebScraper.
Создаём новую карту сайта – сайтмап. Cайтмап – это инструкция парсеру, какие данные собирать.
Start URL – ссылка, с которой начинается парсинг.
Данные, которые нас интересуют, находятся в карточках товаров.
Для этого укажем парсеру, какие элементы на странице нужно собрать.
Чтобы что-то выбрать, используем selector. Selector – это такой отборщик, который со всей страницы выбирает только указанные элементы.
Селектором может быть что угодно: ссылка, текст, целый блок.
В параметрах селектора выбираем его тип, чтобы указать парсеру, что мы
ищем.
Чтобы вытащить название и цену, нам нужно указать блок с карточкой товара.
Выбираем тип – Element и мышкой наводим на нужный блок.
Блок подсвечивается красным.
Чтобы собрать все подобные элементы — отмечаем чекбокс Multiple. Если этот чекбокс оставить пустым — будет собрано только первое значение.
Выбираем элемент, проваливаемся в него и указываем следующие селекторы.
Тип text – название товара.
Тип text – цена.
Посмотрите на Selector Graph – карту парсера.
Это схема наших селекторов.
Нажимаем Scrap, чтобы запустить парсер.
Парсер перейдёт по указанной ссылке, подождёт пока страница загрузится и соберёт данные.
Обратите внимание на эти два параметра.
Request interval — интервал между запросами, то есть через сколько секунд переходить по новой ссылке.
Page load delay — ожидание загрузки, то есть сколько секунд подождать, пока страница
загрузится.
Оставляем настройки по умолчанию – 2 секунды.
Если сделать меньше, парсер могут заблокировать.
Запустим парсер.
Парсер откроет страницу, соберёт с неё данные и сохранит в своей базе.
Мы можем предварительно посмотреть результат:
Browse – Refresh Data (Просмотр – обновить данные).
Отлично, мы собрали данные о ценах, но только с первой страницы.
Чтобы собрать данные с остальных страниц, будем работать с пагинацией.
Самый простой способ работы с пагинацией, когда известно количество страниц.
Как видите в адресе страницы меняется только последняя цифра, означающая её номер. Дадим указание парсеру — допишем диапазон страниц в квадратных скобках.
Парсер автоматически подставит нужное значение в адрес ссылки и пройдёт по всем
страницам.