В основном — да. Но кроме отзывов, есть ещё формальные технические характеристики, на основе которых можно тоже что-то хорошее делать. Собственно, в предпоследнем разделе мы пытались именно их ранжировать по важности с точки зрения конверсии.
Конечная цель М.Видео была в том, чтобы автоматически формировать карточки товаров на сайте. В карточки надо выносить какие-то характеристики, важные для покупателя. Как понять, какие из них важны, нам никто не объяснял, просто дали те данные, какие есть. И мы уже начали придумывать свои определения, что такое «значимый атрибут».
Насколько я знаю, GAN'ы пока плохо с текстом работают. В этом посте (правда, год назад) Ян Гудфеллоу популярно объясняет, почему. Может быть, с тех пор что-то сдвинулось, но вряд ли сильно
Чтобы приводить слова к базовой форме, можно заюзать pymorphy2
Вместо отсеивания стоп-слов можно просто отранжировать слова и фразы по tf-idf, считая "документом" пачку вакансий по одному и тому же запросу. Тогда мусор типа "будет плюсом" уйдёт в низ рейтинга.
Идея на будущее: оценить, какие навыки ценятся выше всего (коррелируют с высокой зарплатой).
Вопрос на самом деле очень хороший :)
Бывают ситуации, когда так делать можно — можно погуглить «importance sampling» и «active learning». Но в тех задачах, с которыми я сталкивался, обычно не было универсальной, очевидной, да и вообще качественной меры сходства между заявками.
Имеет смысл вероятностный подход: более «подходящие» заявки имеют более высокий шанс попасть в лотерею (скажем, 3%), менее интересные — скажем, 0.1%. Но ненулевой шанс стоит давать почти всем, потому что потом можно будет перевзвесить наблюдения и получить репрезентативную (стратифицированную) выборку, на которой можно оценить что угодно.
Конечная цель М.Видео была в том, чтобы автоматически формировать карточки товаров на сайте. В карточки надо выносить какие-то характеристики, важные для покупателя. Как понять, какие из них важны, нам никто не объяснял, просто дали те данные, какие есть. И мы уже начали придумывать свои определения, что такое «значимый атрибут».
Чтобы приводить слова к базовой форме, можно заюзать
pymorphy2Вместо отсеивания стоп-слов можно просто отранжировать слова и фразы по tf-idf, считая "документом" пачку вакансий по одному и тому же запросу. Тогда мусор типа "будет плюсом" уйдёт в низ рейтинга.
Идея на будущее: оценить, какие навыки ценятся выше всего (коррелируют с высокой зарплатой).
Бывают ситуации, когда так делать можно — можно погуглить «importance sampling» и «active learning». Но в тех задачах, с которыми я сталкивался, обычно не было универсальной, очевидной, да и вообще качественной меры сходства между заявками.
Имеет смысл вероятностный подход: более «подходящие» заявки имеют более высокий шанс попасть в лотерею (скажем, 3%), менее интересные — скажем, 0.1%. Но ненулевой шанс стоит давать почти всем, потому что потом можно будет перевзвесить наблюдения и получить репрезентативную (стратифицированную) выборку, на которой можно оценить что угодно.