Проблема в нормализации выборки и выбрасывании дублей. 100500 вариантов названий и формулировок. куча подразновидностей свечи/капли/спреи/инсуфляторы и т.п. Хрен достанешь открытые данные. Почти нереально, короче. Нет аналога ISBN как для книг.
Я посмотрел цены на несколько книг, например «Гарри Поттер», «Мураками» (то что в голову пришло) — book-stock.ru как-то не является явным лидером. Возможно, требование наличия одного ISBN сразу во всех магазинах слишком жёсткое для практически значимого результата.
Я вообще не ожидал что кто-то выбьется в лидеры, т.к. на практике одна книга дешевле в одном магазине, другая в другом. Но на практике мы имеем дело с каким-то малым числом книг, не значительным для статистики, а графики они именно про «в среднем по больнице». Т.е. если мы хотим купить 10 тыс книг и только в одном магазине, то наверно имеет смысл выбрать book-stock или my-shop, но если мы хотим купить 2-10 книг, то стоит смотреть цены именно на эти книги.
Сравниваем цены в книжных интернет магазинах c помощью python, pandas и matplotlib