Как стать автором
Обновить

Комментарии 6

Самая большая сложность возникает не когда куча примерно одинаковых товаров, а в той области, где их мало. Например выбрать подобные из 1000 телевизоров обычно не проблема как автоматом, так и вручную. А вот автоматом подобрать замену из 15 подвесов телевизоров — это может оказаться относительно легко вручную (если вбивальщики поставили расстояния между центрами креплений) и практически нереализуемо автоматически.

Мы как-то делали блок «с этим товаром покупают». С популярными товарами нет проблем, просто бери и сортируй, что же с ними покупали. А вот что делать со свежаком, который не продавали ни разу, это был некоторый квест, чтобы оказалось адекватно.

Да, все так. К сожалению, автоматом мы не сможем определить, что расстояние между креплениями — это критически важно, а бренд — нет. Но если свойств в категории немного, то расстояние все равно будет учитываться с большим относительным весом. У меня на этот счет есть такая идея: позволить человеку отмечать важные свойства для таких категорий. И для них мы не будем считать вес автоматически, а возьмем заведомо большое число.


Пока мы этого не делали, потому что рассматривали этот функционал как возможность получить полезный результат вообще без ручной работы, и оценить его востребованность клиентами. В дальнейшем будем экспериментировать, я думаю.

Откуда данные берутся?
Поставщики разные, нормально базы характеристик очень не многие делают.
Тут подробно о том, как сопоставляем товары из разных источников: habr.com/ru/post/456604
Тут подробно о том, как заполняем характеристики: habr.com/ru/post/499684
Если кратко, то распарсили пару сотен сайтов и 25 миллионов товаров на данный момент (+3 миллиона в месяц в среднем), а дальше автоматически сопоставляем товары и заполняем характеристики.
Правильнее считать не расстояния, а близость. Близость здесь — это величина связей между объектами. То есть надо строить граф. Нюанс в том, что близких объектов обычно много меньше, чем дальних. И матрица близости (связности) сильно разрежена.
Ну по сути так оно и есть. И мы даже храним не расстояние, а близость, но это несущественно. И матрица сильно разрежена, это правда.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.