Обновить
9
0
Дмитрий Коптелов@meacca

Data Science

Отправить сообщение

Привет!

Спасибо за статью

Насколько я понял, в контексте Яндекс музыки в истории пользователя просто все прослушанные треки (прослушанные в плане, что они были активны какое-то время) и фидбек на них. Здесь понятен и позитивный (напр. лайк, прослушал до конца) и негативный (напр. дислайк, скипнул меньше чем через минуту) фидбек.

А как быть в кейсе Маркета? Можешь подсказать как у вас это работает? У меня в голове такая ситуация: там в/д с рекомендациями можно считать увиденную выдачу из 20 товаров, где пользователь, допустим кликнул только по одному товару. Получается в историю пользователя добавляется 20 товаров, 1 с позитивным (был клик при показе) 19 с негативным фидбеком (не было клика при показе)? Но встают следующие вопросы: 1. Как можно определить упорядоченность взаимодействия на этих 20 товарах в истории. 2. Не ведёт ли это к неконсистентности истории: например, если выбрал из рекомендаций, то добавим 20 элементов в последовательность, а если нашел сам, то только один с положительным фидбеком?

Имеется ввиду эмбеддинг для тектового описания?
Тут смотря в чем редкость подобного описания будет. word2vec эмбеддинг учим для каждого токена, так что для любого описания, даже если оно очень редко встречается, будет релевантный эмбеддинг если он состоит из популярных токенов. В статье не упоминал, но "порог популярности" для токена был 5000 на корпусе в 100 млн описаний, так что условная "картотека" должна была попасть

Если же описание совсем состоит из очень редко встречающихся токенов, тогда при предобработке оно будет состоять из полностью токенов вида unpop_tok, усреднение которых можно считать что-то вроде "заполнение пропуска" в фичах описания.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность