Как бесплатно спарсить каталог товаров или любой другой контент с помощью import.io – Инструкция с примером

Здравствуйте! Сегодня мы будем парсить данные (товары, услуги, ссылки и т.п.) с помощью самого быстрого и удобного парсера import.io

  1. Для начала зарегистрируемся на сервисе import.io
  2. Далее входим в свой аккаунт.
  3. Далее действуем по плану ниже:

1. Создание экстрактора деталей

Начните с нажатия кнопки Создать экстрактор ( New Extractor , а затем вставьте URL-адрес бизнес-страницы в окне “New Extractor“, например: https://www.yelp.com/biz/great-bear-coffee-los-gatos , и, наконец, нажмите кнопку Перейти (Extractor), чтобы загрузить страницу.

import.io

После загрузки страницы, Import.io сначала будет предпринята попытка идентифицировать любые списки или микроданные на странице. В нашем случае создаётся таблица данных, характерных для “кофе Great Bear”, таких как Название, Рейтинг и ценовой диапазон. Если Вас не устраивает этот набор данных можно сделать свой, очистив предыдущий. Для этого нажимаем кнопку “Start over with empty table”, выбиреам “Yes, clear and start over”

Создаём новый столбец кнопкой “Add column” вводим название столбца, и выбираем мышью нужный блок с данными (он (блок) выделяется розовым цветом, и если он доступен или не был ещё выбран, то рядом с указателем мыши появляется зелёный плюсик). Поскольку это экстрактор сведений, вы можете ограничить выбранные данные, которые будут возвращены в одной строке для каждой извлеченной страницы, а не в списке данных (Это более удобно при последующем разборе данных). Для этого откройте расширенный параметр, затем выберите “Single row” и убедитесь, что флажок установлен.

Далее нажимаем кнопку сохранения нашего экстрактора товара – “Extract data from website” и сохраняем его.

Ок! Один экстрактор товара (деталей) мы создали!

2. Редактирование экстрактора деталей

Для редактирования колонок с данными нажимаем кнопку “Edit” в своём экстракторе. Когда вошли в режим редактирования – Редактировать в своём экстракторе Вы можете любые колонки, нажав на самой колонке значок раскрывающегося списка (маленький треугольничек). Вам выйдет список доступных функций для редактирования и действий с данной колонкой. Действуйте на Ваше усмотрение!

Ещё немного расскажу об обучении редактора при редактировании. Для этого нам нужно добавить ещё один адрес другой подобной страницы для созданного нами экстрактора товара в режиме редактирования. Ищем подобную страницу с этого же сайта: например, пусть это будет “https://www.yelp.com/biz/los-gatos-coffee-roasting-company-los-gatos”. Затем нажимаем кнопку “Edit”.

Когда вошли в режим редактирования ищем и нажимаем кнопку “Train With Additional URLs” и добавляем адрес другой подобной страницы, в нашем случае этот – “https://www.yelp.com/biz/los-gatos-coffee-roasting-company-los-gatos”. Нажимаем “Go”? ждём сообщения об успешном обучении, и дальше нажимаем кнопку сохранить и закрыть – “Save And Close”. Сразу скажу, обычно кнопки которые нужно нажимать – по умолчанию выделены красным цветом (Чтоб меньше думать и не запутаться). Далее нажимаем кнопку сохранения нашего экстрактора товара – “Extract data from website” и сохраняем его.

Вы конечно можете добавлять и больше страниц для обучения, но главное – стараться чтоб по конструкции блоков они были более-менее идентичны!

3. Создание экстрактора списков

Теперь переходим к созданию экстрактора списков. Он нам необходим, чтоб парсер обходил все такие статьи (товары), и из каждой доставал информацию о товаре (конструкцию данных которого мы создали в первом экстракторе).

Для этого сначала найдём страницу этого сайта с таким списком статей (товаров). У нас это будет “https://www.yelp.com/search?find_desc=Coffee&find_loc=Los+Gatos,+CA & start=0 “. После мы создаём новый экстрактор, нажав кнопку “+ New Extractor” в верхней части левой панели меню import.io.

Экстрактор списка, созданный нами, может нам сразу выдать список ссылок на товары (статьи) с картинками, описанием и пр. – тогда, если нам этого достаточно, то мы можем сразу сохранить экстрактор. А может и не выдать.

Если выдал, и нам не нужно столько много информации (т.е. тоже что и “Не выдал…”), то создаём свой список ссылок – нажимаем кнопку “Start over with empty table”, выбиреам “Yes, clear and start over”.

Создаём колонку и выбираем сначала первую ссылку (Нам предложат выбрать все данные (картинки, описание и т.п.) или только то, что мы выбрали – т.е. только ссылку). Нажимаем “No” и создаём свой список, состоящий только из ссылок (или ещё чего-то нам нужного если требуется) на товары (статьи). Потом выбираем мышью вторую ссылку (т.е. следующую). И он нам сразу создаст список всех таких ссылок на товары (статьи) на странице.

4. Использование генератора URL-адресов

Затем мы можем создать список таких страниц с ссылками на статьи (товары) на странице этого экстрактора списков нажав “Settings”, а потом “Generate URLs”. Вставляем наш адрес первой страницы с сылками “https://www.yelp.com/search?find_desc=Coffee&find_loc=Los+Gatos,+CA&start=0” и вместо нуля пишем {PARAMETER-1} (можно указать больше параметров PARAMETER-2, PARAMETER-3, и т.д.).

Затем выделяем мышью (часть) текста “{PARAMETER-1}” и вводим параметры: 40 статей (товаров) с шагом для каждой страницы – 10 товаров (статей) на странице. Вы можете и не генерировать эти адреса, если Вам достаточно и одной страницы с сылками на статьи (товары) и пропустить этот шаг.

5. Сцепление Экстракторов

Теперь нам нужно сцепить два этих экстрактора чтобы они работали вместе и слаженно.

Для этого переходим в наш первый экстрактор товара (деталей) и заходим на вкладку “Settings”. Выбираем среднее значение из выпадающего списка. Далее ниже включаем кнопку предварительной загрузки родительского экстрактора (экстрактор списков). И ниже выбираем наш родительский экстрактор списков. Когда выбрали – выбираем ниже из загруженных строк строку со списком ссылок на товары (статьи) с ключевым словом “(Url)”. Нажимаем внизу красную кнопку и сохраняем.

Потом запускаем сам процесс парсинга красной кнопкой вверху (немного справа от центра) – “Run Chain”. И ДА НАЧНЁТСЯ ПРОЦЕСС ЗАГРУЗКИ СТАТЕЙ (ТОВАРОВ) С ДАННЫМИ, КОТОРЫЕ НАМ НЕОБХОДИМЫ!!!.

6. Загрузка Ваших Данных

Далее скачиваем наши данные, нажав значок стрелочки с диском в строке обработки, предварительно выбрав формат загрузки (CSV, Excel, JSON, или Image and Files (работает только в экстракторе товара (деталей))). Хотя можете даже сначала просмотреть загруженные данные, нажав на “глазик” или “список” там же сбоку.

Удачного ПАРСА!!!)))

Оцените этот пост!
[Всего: 2 Средняя: 5]

Добавить комментарий