Слишком много внимания пользовательским предпочтениям, если они так прекрасно сжимаются для своего описания.
Сейчас мы храним для каждого пользователя порядка 50 эмбеддингов. Длина эмбеддинга обычно около 100 чисел. После квантования мы стали хранить 5 КБ на пользователя вместо 20 КБ (тут именно эмбеддинги, не считаю историю пользователя, подписки, блокировки, и т д). Это всё ещё довольно много информации. Влияние пользовательских эмбеддингов на ключевые показатели Дзена весьма существенно.
По всей видимости яндекс-программы формирующие карточки (эмбеддинги) для контента имеют посредственные алгоритмы.
Вот примеры алгоритмов, которые мы используем в качестве основы построения контентных эмбеддингов. arxiv.org/abs/1810.04805 arxiv.org/abs/1301.3781 arxiv.org/abs/1802.05365
Таких алгоритмов на данный момент используем порядка 10. Экспериментировали с множеством различных алгоритмов. Выбрали те, что показывали лучший результат с точки зрения пользовательского опыта.
лучше вместо сверхсложного ранжирования использовать практику печатных журналов прошлого века
В Дзене есть тематики. Например, про программирование zen.yandex.ru/t/программирование. Пользователи, которые чётко знают, что им интересно, могут читать статьи по тематикам или подписываться / блокировать сразу такие тематики целиком. Однако, есть и пользователи, которые просто хотят открыть Дзен, как условный телевизор, и рассчитывать на то, что он сам правильно определил их интересы. То есть, сейчас пользователь может сам выбрать, насколько активно он хочет взаимодействовать с Дзеном.
Именно, редакторы, пусть даже из я.толоки, (а не «читатели-рекомендаторы») определяют качество материала и пригодность его для размещения в рубриках.
Тут я полностью с вами согласен. Практика показывает, что машины сами по себе плохо справляются с такой работой. Поэтому помимо алгоритмов и помошников из Я.Толоки в Дзене определением качества материала занимаются несколько групп асессоров и модераторов.
Я пользуюсь таким способом:
В открытой консоли прямо в окне с кодом вызываю контекстное меню (ПКМ) -> Show in Files.
В других ОС может быть Show in что-то другое.
Откроется папка с файлами, соответствующими консолям для данного соединения.
Там их можно удалить.
Кстати говоря, там же можно дать консолям более говорящие имена — у меня, например, всегда висит консоль со скриптом полного удаления схемы Oracle с названием drop_schema.sql
Сейчас мы храним для каждого пользователя порядка 50 эмбеддингов. Длина эмбеддинга обычно около 100 чисел. После квантования мы стали хранить 5 КБ на пользователя вместо 20 КБ (тут именно эмбеддинги, не считаю историю пользователя, подписки, блокировки, и т д). Это всё ещё довольно много информации. Влияние пользовательских эмбеддингов на ключевые показатели Дзена весьма существенно.
Вот примеры алгоритмов, которые мы используем в качестве основы построения контентных эмбеддингов.
arxiv.org/abs/1810.04805
arxiv.org/abs/1301.3781
arxiv.org/abs/1802.05365
Таких алгоритмов на данный момент используем порядка 10. Экспериментировали с множеством различных алгоритмов. Выбрали те, что показывали лучший результат с точки зрения пользовательского опыта.
В Дзене есть тематики. Например, про программирование zen.yandex.ru/t/программирование. Пользователи, которые чётко знают, что им интересно, могут читать статьи по тематикам или подписываться / блокировать сразу такие тематики целиком. Однако, есть и пользователи, которые просто хотят открыть Дзен, как условный телевизор, и рассчитывать на то, что он сам правильно определил их интересы. То есть, сейчас пользователь может сам выбрать, насколько активно он хочет взаимодействовать с Дзеном.
Тут я полностью с вами согласен. Практика показывает, что машины сами по себе плохо справляются с такой работой. Поэтому помимо алгоритмов и помошников из Я.Толоки в Дзене определением качества материала занимаются несколько групп асессоров и модераторов.
В открытой консоли прямо в окне с кодом вызываю контекстное меню (ПКМ) -> Show in Files.
В других ОС может быть Show in что-то другое.
Откроется папка с файлами, соответствующими консолям для данного соединения.
Там их можно удалить.
Кстати говоря, там же можно дать консолям более говорящие имена — у меня, например, всегда висит консоль со скриптом полного удаления схемы Oracle с названием drop_schema.sql