Продуктовые датасеты
- Fashion-MNIST: Идеально подходит для продуктовой категоризации. MNIST содержит почти 60 000 обучающих изображений и 10 000 тестовых изображений продуктов фэшн-индустрии в 10 классах.
- Innerwear Data from Victoria’s Secret and Others: Данные с 600 000+ товаров нижнего белья, извлеченного из популярных торговых объектов. Включает в себя описание продукта, цену, категорию, рейтинг и многое другое.
- Electronic Products and Pricing Data: Содержит список из более чем 7000 электронных продуктов.
- Men’s Shoe Prices: Список содержащий 10 000 мужских ботинок и цен.
- Women’s Shoe Prices: Список содержащий 10 000 женских туфель и цены.
- eCommerce Item Data: Подходит для рекомендательных систем. Этот набор данных содержит артикулы и связанные с ними описания продуктов из каталога продукции бренда наружной одежды.
- Fashion Products on Amazon.com: Это pre-crawled набор данных, созданный путем извлечения данных из Amazon. Он состоит примерно из 22 000 фэшн-товаров на Amazon.
- E-commerce Tagging for Clothing: Содержит изображения с сайтов ecommerce с ограничивающими рамками, нарисованными вокруг рубашек, пиджаков, солнцезащитных очков и т. д. Он содержит 907 наименований, из которых 504 наименования были помечены вручную.
Датасеты розничных транзакций
- Online Retail Dataset (UCI Machine Learning Repository): Содержит все транзакции за восьмимесячный период (01/12/2010-09/12/2011) для британской онлайн-розничной компании.
- Brazilian E-Commerce Public Dataset: содержит более 100 000 анонимизированных заказов из Бразилии, сделанных на Olist (100 тыс. заказов) с 2016 по 2018 год производится на нескольких торговых площадках. Кроме того, он включает в себя множество измерений от статуса заказа, цены, оплаты и эффективности перевозки до реальных письменных отзывов клиентов.
- Online Auctions Dataset: Датасет из розничной торговли, содержащий данные аукциона eBay по наручным часам Cartier, игровым консолям Xbox, КПК Palm Pilot M515 и бусам Swarovski.
- Retailrocket Recommender System Dataset: Эти данные были собраны с реального ecommerce веб-сайта в течение 4,5 месяцев. Кроме того, он содержит информацию о поведении посетителей, включая такие события, как клики, добавление в корзину и транзакции.
Релевантность поиска в ecommerce
- ECommerce Search Relevance: Содержит URL-адреса изображений, рейтинг на странице, описание каждого продукта, поисковый запрос, который привел к каждому результату, и многое другое из пяти основных англоязычных сайтов электронной коммерции.
- Best Buy Search Queries NER Dataset: Содержит вручную помеченные поисковые запросы на bestbuy.com в поисковых запросах есть фразы, помеченные различными важными сущностями, такими как бренд, название модели, название категории и т. д.
Отзывы покупателей
- Women’s E-Commerce Clothing Reviews: Еще один отличный ресурс для данных электронной коммерции, этот набор данных Kaggle содержит 23 000 реальных отзывов клиентов и рейтингов. Однако, поскольку это реальные коммерческие данные, вся информация была анонимизирована. Из-за этого ссылки на компанию в тексте обзора и теле были заменены на «ритейлер».
- Amazon Commerce Reviews Set: Этот розничный набор данных используется для идентификации авторства в online Writeprint, который является новой областью исследований в области распознавания образов. Кроме того, чтобы проверить надежность алгоритмов классификации, мы определили 50 наиболее активных пользователей, которые часто публиковали отзывы.
- Multidomain Sentiment Analysis Dataset: Более старый набор данных, содержащий данные о обзорах товаров по типу продукта и рейтингу. Кроме того, отзывы содержат Звездные оценки (от 1 до 5 звезд), которые при необходимости могут быть преобразованы в бинарные метки.
- Amazon and Best Buy Electronics: Список из более чем 7000 онлайн-отзывов на 50 электронных продуктов. В дополнение к самому обзору набор данных включает дату, источник, рейтинг, название, метаданные рецензента и многое другое.
- Grammar and Online Product Reviews: Содержит список из более чем 70 000 обзоров, которые могут быть использованы для нескольких вариантов использования машинного обучения. Например, вы можете оценить, как качество описания влияет на положительные и отрицательные отзывы о продукте в интернете.
Ecommerce
- Annual Retail Trade Survey (ARTS): Содержит национальные оценки общих годовых продаж, операционных расходов и запасов, хранящихся за пределами Соединенных Штатов.
- Economic Census: Экономическая перепись дает детальный портрет деловой активности в отраслях и сообществах раз в пять лет, начиная с национального и заканчивая местным уровнем.
- E-Stats: This dataset by the US government reports the value of goods and services sold online whether over open networks such as the Internet. Датасет отчетов правительства США о стоимости товаров и услуг, продаваемых в онлайн через открытые сети (как Интернет).
- EU External Trade Datasets: Датасет внешней торговли ЕС, содержит информацию о размере импорта, экспорта и торгового профицита, классифицированных по товарам, а также по странам происхождения или назначения.
- ECommerce Sales by Merchandise Category 1999-2015: Содержит реальные данные переписи, которые показывают общий объем продаж электронной коммерции по товарным позициям и совокупный годовой темп роста с 1999-2015 годов.
Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя онлайн-курсы SkillFactory:
- Курс по Machine Learning (12 недель)
- Курс «Профессия Data Scientist» (24 месяца)
- Курс «Профессия Data Analyst» (18 месяцев)
- Курс «Python для веб-разработки» (9 месяцев)