Парсинг без кода. Тестовый урок

Парсим без кода с помощью парсера WebScraper.

Скачать и установить расширение http://webscraper.io

Текст в видео:

Парсер Web Scraper — это расширение для браузера.

Перейдём к примеру парсинга. Задача — собрать цены на товары. Сайт — Леруа Мерлен.

Категория — товары для дачи. Открываем парсер в панели разработчика. Нажимаем F12 и переходим во вкладку WebScraper.

Создаём новую карту сайта – сайтмап. Cайтмап – это инструкция парсеру, какие данные собирать.

Start URL – ссылка, с которой начинается парсинг.

Данные, которые нас интересуют, находятся в карточках товаров.

Для этого укажем парсеру, какие элементы на странице нужно собрать.

Чтобы что-то выбрать, используем selector. Selector – это такой отборщик, который со всей страницы выбирает только указанные элементы.

Селектором может быть что угодно: ссылка, текст, целый блок.

В параметрах селектора выбираем его тип, чтобы указать парсеру, что мы
ищем.

Чтобы вытащить название и цену, нам нужно указать блок с карточкой товара.

Выбираем тип – Element и мышкой наводим на нужный блок.

Блок подсвечивается красным.

Чтобы собрать все подобные элементы — отмечаем чекбокс Multiple. Если этот чекбокс оставить пустым — будет собрано только первое значение.

Выбираем элемент, проваливаемся в него и указываем следующие селекторы.

Тип text – название товара.

Тип text – цена.

Посмотрите на Selector Graph – карту парсера.

Это схема наших селекторов.

Нажимаем Scrap, чтобы запустить парсер.

Парсер перейдёт по указанной ссылке, подождёт пока страница загрузится и соберёт данные.

Обратите внимание на эти два параметра.

Request interval — интервал между запросами, то есть через сколько секунд переходить по новой ссылке.

Page load delay — ожидание загрузки, то есть сколько секунд подождать, пока страница
загрузится.

Оставляем настройки по умолчанию – 2 секунды.

Если сделать меньше, парсер могут заблокировать.

Запустим парсер.

Парсер откроет страницу, соберёт с неё данные и сохранит в своей базе.

Мы можем предварительно посмотреть результат:

Browse – Refresh Data (Просмотр – обновить данные).

Отлично, мы собрали данные о ценах, но только с первой страницы.

Чтобы собрать данные с остальных страниц, будем работать с пагинацией.

Самый простой способ работы с пагинацией, когда известно количество страниц.

Как видите в адресе страницы меняется только последняя цифра, означающая её номер. Дадим указание парсеру — допишем диапазон страниц в квадратных скобках.

Парсер автоматически подставит нужное значение в адрес ссылки и пройдёт по всем
страницам.

Парсинг сайта с ajax запросами. Скринкаст 6

31.05.202125.03.2022

Парсинг поставщика люстр и светильников. Особенность сайта в том, что контент выдаётся по ajax запросу. Определим, по какому запросу выдаётся пагинация и ссылки на товары. Соберём и сохраним в CSV. Внимание! Скринкаст без звука, но с текстовыми комментариями. Скорость х3.

Парсинг

SQLite – шаблон базы данных для парсинга поставщика

24.11.202224.11.2022

Если у поставщика количество товаров измеряется тысячами, то быстрее сохранять информацию сразу в базу данных. Мы используем следующий шаблон для создания базы данных в SQLite.

Парсинг

Парсинг производителя смесителей LEMARK

01.05.202129.12.2022

Спарсим все товары с фото и характеристиками.

Python | База знаний

Python — парсим Excel прайс от поставщика

19.01.202213.10.2022

Задача — ежедневно обновлять цены и наличие товаров с прайса поставщика в excel. Решение — написать скрипт на Python, который будет скачивать прайс автоматически.

Python | Парсинг

Парсим сайт поставщика с авторизацией

28.04.202113.10.2022

Парсим товары поставщика очков и оправ. Для парсинга цен требуется авторизация. Скрипт парсинга на Python.

Парсинг

Два способа парсинга товаров. Скринкаст № 5

11.05.202125.03.2022

Ускорим парсинг товаров в несколько раз с помощью карты сайта.

Парсинг без кода. Тестовый урок

Парсинг сайта с ajax запросами. Скринкаст 6

SQLite – шаблон базы данных для парсинга поставщика

Парсинг производителя смесителей LEMARK

Python — парсим Excel прайс от поставщика

Парсим сайт поставщика с авторизацией

Два способа парсинга товаров. Скринкаст № 5

Добавить комментарий Отменить ответ

Один комментарий

Похожие записи

Добавить комментарий Отменить ответ

Один комментарий