Pull to refresh
17
0
Александр Поляков @silenzushka

Сооснователь и CEO @ Fetchee

Send message
Когда нужно парсить данные только нескольких магазинов, то Вы правы, можно делать самому. Ну и не будем лукавить, Вы понимаете суть задачи, а кто-то из разработчиков может не понимать, не хотеть разбираться или просто жалеть времени (не почасовая оплата у него).

Кстати, у Вас паттенр вручную задан, а Product API сам находит паттерн, поэтому и работает с любым магазином без настройки. Это главное отличие. На рынке полно парсеров, которые нужно настраивать — разумеется это скучно.
Если быть точным, то у нас сейчас 8 слоёв, которые анализируются на наличие и качество eCommerce данных. Строим планы на 9-й — визуальный, основанный на машинном зрении.
Микроразметка — только один множества используемых сигналов.
Эх, если бы мы умели сейчас делать рекомендации! Вот интересно, а что для Вас качественная рекомендация?
  • Похожий по названию товар;
  • Товар, который смотрели вместе данным товаром;
  • Похожий по фото товар;
  • Схожий по параметрам (категория, цвет, цена, какие-то meta-теги);
  • Товар, который покупают вместе в данным товаром.
Сейчас только одно. Под несколькими Вы имеете ввиду разные размеры картинки или все доступные в магазине ракурсы?
В следующей заметке расскажу больше про команду (спасибо, что спросили ;-). И по технике будет чем поделиться, уже тестируем определение бренда производителя.
В Fetchee мы решаем задачу слежения за ценами каждый день, причём делаем это в любых интернет-магазинах. Возможно, автору и читателям будет полезен наш новый сервис для разработчиков, который позволяет парсить данные о товаре по URL. Недавно мы опубликовали на Хабре подробную замету про наш Product API с примерами.
Возможно, автор дополнит статью ссылкой на Product API от Fetchee, который позволяет автоматически парсить товары из любого интернет-магазина. Вот детальная статья на Хабре — https://habrahabr.ru/company/fetchee/blog/314960/
Записал ;-) Выше в комментариях уже просили научить API обрабатывать страницы с со списком товаров. Начали уже тренировать систему.
Спасибо за наводку. Обновили правила парсера, теперь корректно работает с сайтом.
Спасибо за идею! В теории можно так использовать API, но где сейчас движок магазина, который не поддерживает мобильные шаблоны? У нас в приоритете сбор данных о товаре, а не краулинг. Т.е. в принципе, уже сейчас можно использовать Product API совместно с Вашим краулером.
Совершенно верно, мы используем технологию для слежения за ценами. Но кто-то может встроить Product API в свой сервис закладок, например. Или любое другое приложение, где пользователи хотят видеть базовую информацию о товаре. Например, модуль предпросмотра ссылок на интернет магазины для форумов или блогов.

Если коллеги-разработчики скажут, что нужна функция по URL списка товаров пройтись и обработать все ссылки на вещи, да ещё принять в учёт пагинацию — сделаем. Главное, чтоб были кейсы, которые упростят жизнь и окажутся востребованными.
Хорошее замечание, спасибо. Будем учиться учитывать этот случай.
У Стима блокировка по возрасту. Можно обойти, но проще с ними по API интегрироваться, если кому-то понадобится следить за ценами на игры.

Можете описать ситуацию, когда понадобится получить данные и следить за ценой на бесплатный товар?
Я надеюсь, что к моменту запуска полноценного API эта функция не понадобится, ведь это наша забота проверять качество парсинга. Но такой вызов будет, в пользовательском приложении функция жалобы на товар есть.
Возможно, я не правильно выразился где-то по тексту. Парсер учится, а указывать на его ошибки — задача человека. Сейчас реализован метод кнута, когда мы не даём систему права на вторую ошибку, принудительно заставляя обрабатывать данные правильно. В идеале, конечно, реализовать полноценную систему машинного обучения, когда от человека будет требоваться только проверка результатов и команды: Верно / Не верно, иди ещё подумай.
Воспринял и обучился. Вот этот URL уже правильный http://dietjust.ru/products/14061117. API закешировало ошибочный ответ. Новые запросы отрабатывают правильно.

P.S. Я ценю Ваше любопытство.
Спасибо за информацию. Сайт не простой, но система ошибается, а потом учится.
У нас есть автомат по распознаванию паттернов. Он может давать сбои, поэтому ему нужно периодически подкидывать новы сайты. Чем их больше, тем он надёжней срабатывает. Процесс обучения простой: получили автоматический результат, проверили на корректность, если есть ошибка, добавили правило, прогнали тесты не рушит ли правило предыдущие верные срабатывания.

API на самом деле автоматически работает со всеми магазинами, которыми пользуется 95% покупателей в интернете. Но верстальщики самые находчивые люди, иногда пользователи добавляют такие сайты, где в коде идёт борьба бессмысленности с глупостью. В этом случае мы вытираем скупую слезу и делаем ручную настройку. Интересно, что товары из этого магазина интересуют, как правило, только одного пользователя.

Видимо, для полной автоматизации, нужно будет реализовать систему машинного зрения и определения тематических блоков.

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity