Я не буквоед, но из-за этих ошибок пришлось абзац три раза перечитать чтобы понять:)
2й абзац - "...любой, кто изобретает алгоритмА.."
- "...количеством доступнОМ для анализа информации.."
- "...достигнут некоторый прогреАсс.."
- "...скорее, вопросом преставления.." (наверное все-таки преДставления:)
- не буду перечислять еще что-то потому что вы сами должны были это сделать перед тем как постить.
А что в этом плохого, собственно говоря? Наверняка сценаристы в Голливуде уже давно имеют набор штампов, которые нравятся публике. На самом деле, интересное начнется тогда, когда фильмы станут интерактивными.
Alex Iskold прежде всего знаменит своими статьями о семантике, у него и компания на этом специализируется. Очень хорошие у него статьи, популярные такие, то есть легкие, потому с удовольствием читаю.
Если не брать в расчет фильмы и новости, где было бы хорошо применить вышеописанные фильтры?
Их можно применять там же, где сейчас уже применяют рекомендации, например, в музыке. В Imhonet ещё есть разделы, посвящённые книгам, сцене, комп. играм.
Можно ещё к кафе/ресторанам.
Фильтры и рекомендации можно применять вообще ко всем вещам, которые можно сравнивать и выбирать.
> Ошибочные результаты расстраиваются, а неверные ошибки нет.
Не совсем понял про фильтры, что имеется ввиду? Например, на Озоне имеется кнопка, по нажатию на которую мы говорим, что нам не понравилась рекомендация.
А что значит одна большая кнопка для фильтрации?
К сожалению, в статье практически не раскрыта тема успешных алгоритмов конкурса Netflix, так чтобы мы смогли применить их на практике.
ОЗОН как раз предлагает "то, что тебе должно понравиться". При этом позволяет настроить рекомендации вручную. Таким образом пытаются уменьшить риск того, что в статье названо "ошибочный результат".
Тема про "неверные ошибки" это, как японял, не выбор "хороших" сущностей, а удаление "плохих". В общем-то спам фильтры работают по такому принципу. Считаем, что нам страшнее плохое назвать хорошим чем не назвать хорошее хорошим. В статитсике это ошибки 1го и 2го рода (никогда не мог запомнить что из них что).
Мне, как раз, очень понравилась эта идея. Новая для меня мысль в плане рекомендательных систем.
А, спасибо, теперь понял. Интересная идея. Только вот она мне кажется затратной с точки зрения рассчетов. Если для писем понятны параметры для оценки (текст, отправитель и т.д.), то какие параметры у рекомендательной системы? Искать максимально непохожих на данного пользователя пользователя и вычеркивать его предпочтения?
Идея частично в статье была: из множества киноновинок отсечь заведомо мне неинтересные. Понять, что мне НЕ интересны низкобюджетные ужастики, тупые молодежные комедии и все фильмы с Вином Дизелем (все для примера) задача сопостовимая с определением интересных фильмов. Тут вся выборка сущностей достаточно маленькая. Мне бы лично такой сервис был бы интересн...
С другой стороны, я, работая с рекомендательными системами пришел к выводу, что это больше для лонг-тейла, чем для новинок. Т.е. интересно выудить достаточно старую сущность (здесь скорее о книгах), которя ускользнула от взгляда. По таким объектам информации уже много пространство для работы есть. На новинках статистику еще рано пременять.
>> Но тогда и пользователя нужно отправлять не на оценку прочитанных книг, а того, что ему не нравится?
Ну почему же?! Юзер идет на список новинок, видит большой список. Нажимет кнопку "убрать неинтересные" и список существенно сокращается. Почему это лучше, чем вывести список понравившихся (см. статью) психология потребителя.
Повторюсь, что это хорошо на сравнительно небольшом списке объектов. Даже больше: если до удаление "мусора" список необозримо большой, а после вполне доступен для беглого просмотра, то наша модель заработала!
> Юзер идет на список новинок, видит большой список. Нажимет кнопку "убрать неинтересные" и список существенно сокращается.
Это понятно, это уже следствие алгоритма. А сам алгоритм? Из чего он будет получать информацию о том, что есть потенциальный "спам"?
Нужны неоторые события, характеризующие негативное отношение к товару. Например, плохая оценка товара, плохой отзыв, малое время просмотра (это уже сложно и экзотично). А дальше все аналогично поиску положительных рекомендаций (тут масса вариантов). "Товар не нравиться похожим на меня людям => не понравиться мне"
Рекомендательные системы: перепросмотр