Как стать автором
Обновить
30
0

Пользователь

Отправить сообщение
Спасибо за коммент, передам тем людям, которые занимаются этим вопросам.
Релевантностью поиска занимается другой отдел и они в курсе подобного рода проблем. Сейчас ведется активная работа по улучшению качества поиска.
В ближайшем будущем появится возможность отключать определенные типы пушей и email'ов, в том числе рекомендации.
что вы имеете ввиду?
Наша online модель умеет строить рекомендации с первых кликов пользователя на сайте. Пока остаются непокрытыми пользователи, которые первый раз открыли главную страницу и мы о них совсем ничего не знаем, но мы работаем над тем, чтобы и им что-то начать показывать. К тому же, доля таких пользователей не так уж велика.
Цена — это один из параметров модели и товары по схожей цене при прочих равных имеют приоритет. Специально мы не ищем более дешевые предложения, но стоит над этим подумать, спасибо.
Да, сейчас сроки фиксированные по категориям, но мы работаем над тем, чтобы более «умно» определять, когда пользователю данный товар уже не нужен.
Наверно все же стоило упомянуть, что эта статья — пересказ туториала с форума www.kaggle.com/c/forest-cover-type-prediction/forums/t/10693/features-engineering-benchmark/56606#post56606
Подскажите, какой именно фильтр вы использовали для поиска контрасных областей? Чем именно чистили шум?
«Пришлось покумекать и родить простой алгоритм, определяющий, есть ли на фото какой-либо текст»
Можно ли немного подробнее описать этот простой алгоритм?
WTA=winner takes all, то есть метрика, заточенная на одну, самую релевантную рекомендацию
Да, спасибо, это отличная идея применить коллаборативную фильтрацию на тегах. Обязательно ее попробуем.
Спасибо за такой развернутый комментарий. Да, действительно у модели мешка слов есть ряд недостатков. Главное же его преимущество — существенное упрощение предварительной обработки и дальнейшего анализа. Мы используем эту модель для обучения LDA, т.к. в тематических вероятностных моделях игнорирование порядка слов не является столь критичным. А выявление двойников — это побочная задача, которою хотелось решить наименьшей кровью… Вообще, мы уже начинали прорабатывать тему выделения ключевых словосочетаний из текста, вместо отдельных слов. Была попытка использовались API различных готовых систем, которые выделют ключевые фразы из текста. Я думаю, в ближайшее время мы продолжим работу в этом направлении, еще раз спасибо за ценный комментарий.
Причина в том, что алгоритм поиска шинглов более сложный в реализации, чем представленные в статье. Если результаты внедрения более простых алгоритмов нас не устроят, будем двигаться дальше и рассмотривать более сложные алгоритмы определения плагиата (об этом в статье упомяналось)
Загрузка из rss потоков уже давно в продакшене. А зечем их привязывать, просто запрашивается rss-xml по известному адресу и парсится. Вот, например, адрес rss-xml для Ленты.ру: lenta.ru/rss/news
В силу специфики нашей задачи, для оценки качества мы использовали другие метрики NDCG, AUC, MAP, WTA и т.д. Поэтому по RMSE, увы, не могу…
Скажем так — это небольшая подзадача этой обширной области знаний. NLP — это как компьютерный анализ естественного языка, так и синтез, то есть генерация текста. У нас же только анализ и то в достаточно узкой постановке задачи — выявить тематические топики веб-страниц и составить рекомендации для сёрфа.
Да, здесь я с вами согласен. А о том, как можно комбинировать алгоритмы, я думаю, мы еще расскажем…
Несколько расширил статью…
Ну на самом деле примерно так и делается, только критерий немного похитрее, чем заданный N. Если это бустинг, то в него зашиваются несколько алгоритмов — и для холодного старта и CF, а он уже сам определяет с каким весом какой алгоритм взять.
1

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность