Как бесплатно собрать данные: расширение от iDatica

Как бесплатно собрать данные: расширение от iDatica

Привет! Мы создали расширение для бесплатного сбора данных с сайтов. Сейчас расскажу, зачем и для кого.

Мы – компания «iDatica». Занимаемся коммерческим сбором данных и мониторингом цен. Данные собираем, что называется, в «промышленных масштабах» – миллионы значений, парсинг приложений и динамическое содержимое, прокси, постобработка, обход капчи, мониторинг качества, бэкапы… Вот это вот все. Для таких задач нет универсального инструмента, а нестандартные требования = кастомная разработка.

Но к нам обращаются и некрупные заказчики, основная задача которых – разовый парсинг какого-либо каталога или даже определенной категории на сайте. На такие работы тратится время, а стоимость не всегда оправдывает затраты, потому мы и сделали расширение, чтобы такие задачи можно было решать самостоятельно и бесплатно.

Может появиться вопрос: «Зачем же делать парсер, если расширения с похожим функционалом уже есть?». Потому что не удалось найти расширение, которое бы решало описанные задачи и было более-менее универсальным.

Часть рассмотренных нами расширений работает в режиме «без кода», т.е. само ищет повторяющиеся блоки данных на странице. Как только попадается сложный сайт – данные «едут» или расширение уходит в цикл поиска значений, из которого не возвращается. Часть расширений предоставляет минимальный функционал, а за большую функциональность или сбор данных нужно платить (об этом вы можете узнать уже после регистрации). Некоторые из них слишком сложны или интерфейс представлен только на китайском языке (бесспорно, для кого-то это будет плюсом).

Функциональные возможности расширения для парсинга

В нашем расширении нет ракетных технологий – приложение с простым интерфейсом, ручными настройками и возможностью сохранять/загружать шаблоны.

Для поиска данных используется XPath-запрос или CSS-селектор. С одной стороны, нужно уметь прописывать путь к элементу, с другой – вы получаете возможность «ручного управления» (можно самостоятельно выбрать, какие данные следует получать). Пусть вас не пугают XPath и CSS – если вы с ними не знакомы, у нас есть статья, которая на примерах научит базово использовать эти инструменты.

Парсер iDatica

Список возможностей расширения:

  • парсинг каталогов с пагинацией (автоматизируется нажатием на кнопку «Далее»);
  • парсинг своего набора ссылок;
  • возможность ограничить сбор данных в нужной части страницы (этот же функционал задает повторяющиеся блоки карточек товара при парсинге интернет-магазинов);
  • возможность задать задержку между переходом на следующую страницу (избегаем блокировки, но увеличиваем время парсинга);
  • автоматический поиск XPath- и CSS-селекторов до нужного элемента;
  • предпросмотр – визуально находит на странице элемент;
  • предпросмотр – какие данные на странице собирает написанный запрос и их общее количество;
  • загрузка и сохранение шаблонов (на нашем сайте можно скачать несколько готовых);
  • экспорт данных в CSV и JSON;
  • лог всего происходящего.

Будем рады пожеланиям и критике.

*****************************************

источник

Related Posts
AllEscortAllEscort