Обновить
147
Давид Дале@cointegrated

Разработчик / Аналитик / Data Scientist / NLPшник

278
Подписчики
Отправить сообщение
Если не считать простоев, когда всё падало (в основном из за несоответствия структуры html ожидаемой), около 8 часов. На ноутбуке :)
Я скорее неторопливый практик :) Про идеально привлекательный текст будет следующая статья.
В основном — да. Но кроме отзывов, есть ещё формальные технические характеристики, на основе которых можно тоже что-то хорошее делать. Собственно, в предпоследнем разделе мы пытались именно их ранжировать по важности с точки зрения конверсии.
Кодинг за еду он и был :)

Конечная цель М.Видео была в том, чтобы автоматически формировать карточки товаров на сайте. В карточки надо выносить какие-то характеристики, важные для покупателя. Как понять, какие из них важны, нам никто не объяснял, просто дали те данные, какие есть. И мы уже начали придумывать свои определения, что такое «значимый атрибут».
А для русского языка какое-нибудь удобное решение можете порекомендовать?
Насколько я знаю, GAN'ы пока плохо с текстом работают. В этом посте (правда, год назад) Ян Гудфеллоу популярно объясняет, почему. Может быть, с тех пор что-то сдвинулось, но вряд ли сильно

Чтобы приводить слова к базовой форме, можно заюзать pymorphy2


Вместо отсеивания стоп-слов можно просто отранжировать слова и фразы по tf-idf, считая "документом" пачку вакансий по одному и тому же запросу. Тогда мусор типа "будет плюсом" уйдёт в низ рейтинга.


Идея на будущее: оценить, какие навыки ценятся выше всего (коррелируют с высокой зарплатой).

Вопрос на самом деле очень хороший :)
Бывают ситуации, когда так делать можно — можно погуглить «importance sampling» и «active learning». Но в тех задачах, с которыми я сталкивался, обычно не было универсальной, очевидной, да и вообще качественной меры сходства между заявками.
Имеет смысл вероятностный подход: более «подходящие» заявки имеют более высокий шанс попасть в лотерею (скажем, 3%), менее интересные — скажем, 0.1%. Но ненулевой шанс стоит давать почти всем, потому что потом можно будет перевзвесить наблюдения и получить репрезентативную (стратифицированную) выборку, на которой можно оценить что угодно.

Информация

В рейтинге
Не участвует
Откуда
Paris, Paris, Франция
Дата рождения
Зарегистрирован
Активность