Комментарии / Профиль vleksin / Хабр

Наша online модель умеет строить рекомендации с первых кликов пользователя на сайте. Пока остаются непокрытыми пользователи, которые первый раз открыли главную страницу и мы о них совсем ничего не знаем, но мы работаем над тем, чтобы и им что-то начать показывать. К тому же, доля таких пользователей не так уж велика.

Посмотреть

Рекомендации на Avito

vleksin 26 сен 2017 в 13:30

Цена — это один из параметров модели и товары по схожей цене при прочих равных имеют приоритет. Специально мы не ищем более дешевые предложения, но стоит над этим подумать, спасибо.

Посмотреть

Рекомендации на Avito

vleksin 26 сен 2017 в 13:28

Да, сейчас сроки фиксированные по категориям, но мы работаем над тем, чтобы более «умно» определять, когда пользователю данный товар уже не нужен.

Посмотреть

Пример Feature Engineering в машинном обучении

vleksin 11 фев 2015 в 13:40

Наверно все же стоило упомянуть, что эта статья — пересказ туториала с форума www.kaggle.com/c/forest-cover-type-prediction/forums/t/10693/features-engineering-benchmark/56606#post56606

Посмотреть

Поиск жилья без посредников в 21-м веке

vleksin 24 сен 2014 в 14:24

Подскажите, какой именно фильтр вы использовали для поиска контрасных областей? Чем именно чистили шум?

Посмотреть

Поиск жилья без посредников в 21-м веке

vleksin 24 сен 2014 в 13:06

«Пришлось покумекать и родить простой алгоритм, определяющий, есть ли на фото какой-либо текст»
Можно ли немного подробнее описать этот простой алгоритм?

Посмотреть

vleksin 6 апр 2013 в 18:13

WTA=winner takes all, то есть метрика, заточенная на одну, самую релевантную рекомендацию

Посмотреть

vleksin 26 мар 2013 в 21:37

Да, спасибо, это отличная идея применить коллаборативную фильтрацию на тегах. Обязательно ее попробуем.

Посмотреть

vleksin 15 мар 2013 в 17:52

Спасибо за такой развернутый комментарий. Да, действительно у модели мешка слов есть ряд недостатков. Главное же его преимущество — существенное упрощение предварительной обработки и дальнейшего анализа. Мы используем эту модель для обучения LDA, т.к. в тематических вероятностных моделях игнорирование порядка слов не является столь критичным. А выявление двойников — это побочная задача, которою хотелось решить наименьшей кровью… Вообще, мы уже начинали прорабатывать тему выделения ключевых словосочетаний из текста, вместо отдельных слов. Была попытка использовались API различных готовых систем, которые выделют ключевые фразы из текста. Я думаю, в ближайшее время мы продолжим работу в этом направлении, еще раз спасибо за ценный комментарий.

Посмотреть

vleksin 15 мар 2013 в 16:46

Причина в том, что алгоритм поиска шинглов более сложный в реализации, чем представленные в статье. Если результаты внедрения более простых алгоритмов нас не устроят, будем двигаться дальше и рассмотривать более сложные алгоритмы определения плагиата (об этом в статье упомяналось)

Посмотреть

vleksin 15 мар 2013 в 16:14

Загрузка из rss потоков уже давно в продакшене. А зечем их привязывать, просто запрашивается rss-xml по известному адресу и парсится. Вот, например, адрес rss-xml для Ленты.ру: lenta.ru/rss/news

Посмотреть

vleksin 28 фев 2013 в 16:56

В силу специфики нашей задачи, для оценки качества мы использовали другие метрики NDCG, AUC, MAP, WTA и т.д. Поэтому по RMSE, увы, не могу…

Посмотреть

vleksin 28 фев 2013 в 10:10

Скажем так — это небольшая подзадача этой обширной области знаний. NLP — это как компьютерный анализ естественного языка, так и синтез, то есть генерация текста. У нас же только анализ и то в достаточно узкой постановке задачи — выявить тематические топики веб-страниц и составить рекомендации для сёрфа.

Посмотреть

vleksin 27 фев 2013 в 17:18

Да, здесь я с вами согласен. А о том, как можно комбинировать алгоритмы, я думаю, мы еще расскажем…

Посмотреть

vleksin 10 фев 2013 в 16:57

Несколько расширил статью…

Посмотреть

vleksin 10 фев 2013 в 01:06

Ну на самом деле примерно так и делается, только критерий немного похитрее, чем заданный N. Если это бустинг, то в него зашиваются несколько алгоритмов — и для холодного старта и CF, а он уже сам определяет с каким весом какой алгоритм взять.

Посмотреть