Сергей, спасибо за интересную статью!
Мне только непонятно, откуда на M-шаге брать \alpha_0 и \beta_0? Какие значения хорошо работают? Просто \alpha_0= 1/|c| и \beta_0=1/(|V|*|C|)? И правильно же я понимаю, что параметр \beta относится одновременно к слову и категории, то есть всего бет в системе |V|*|C|?
А вы никогда не используете в своих проектах сторонние библиотеки? Все-все-все сами пишете? Имхо, современный мир разработки во многом про то, как правильно собрать и «приготовить» компоненты.
Ну а так, как вы говорите, можно говорить про любой софт: «Ну там же windows/linux/other используется, они просто допилили...». Да простят меня мобильные разработчики, но мне кажется, что Кит — это не про то, как «подпилить» android, а про то, как сделать удобные приложения и хорошо (это ключевое слово) собрать их вместе, и интегрировав в систему. Да, гугл это неплохо делает. Но мне нравится, что появляется хорошая альтернатива, ибо монополия обычно ничем хорошим не заканичивается…
Анализировались аналогичные решения от Apple, Google, Pandora Radio, Last.fm. Во всех случаях поиск ведётся по метаданным, что как минимум неспортивно, а как максимум, субьективно и подвержено мнениям живых оценщиков.
В отличие от них, HOLO пока является беспристрастным рецензентом и рекомендателем, системой «без учителя».
Во-первых, из приведенных только Pandora является чисто expert-based RS. А вот Last.fm насколько мне известно, коллаборативная (ну на самом деле гибридная, скорее всего).
Во-вторых, content-based рекомендательные системы могут давать неплохое разнообразие и приятно удивить пользователя (diversity и serendipity), но они очень и очень сильно подвержены, скажем так, «упячкам». То есть периодически вы будете рекомендовать что-то очень и очень странное. Почитайте ocelma.net/MusicRecommendationBook/index.html, там много интересного, в том числе и такого рода исследования.
В-третьих, вам как информация к размышлению: генерация плейлистов очень и очень сильно отличается от просто генерации списка похожих. То есть удовлетворение пользователя зависит во многом от того, в каком порядке ему одни и те же треки играть. В этом направлении есть много исследований и даже софта (для создания плейлистов радиостанций).
А вообще, это классный проект, вы большой молодец, что смогли в одиночку создать такую систему. Плюс идея интересная — ведь вы анализируете коллекцию пользователя! Удачи вам, я верю, что ваш продукт найдет свою нишу.
Рекомендательные системы затягивают, очень интересная область. Сам не могу оторваться =) Правда, я больше в коллаборативной фильтрации работаю, в content-based ничего не смыслю. Надо наверстывать…
Не поднимется. Дальше смешного демотиватора не пойдет. Просто все поругаются и пересядут куда-нибудь еще. Ну правда, ведь сейчас из ВКонтакте удаляют музыку, но дальше криков «Верните все в зад!» дело не идет. Покричат-покричат, да и забудется
Чем хорош refcard – его можно напечатать и повесить перед глазами, он маленький.
А ваше полотно хоть и по-русски, но все же полотно. Да и не факт, что русский текст это хорошо, ведь все равно всю справочную информацию по функциям или пакетам вы будете получать на английском.
А так, да, клево. R и правда очень-очень мощный язык.
Сообщил бы разрабочикам http://company.yandex.ru/security/ – денег бы дали. И возможно, работу предложили бы.
Но тебе видимо, больше хочется потешить самолюбие. Ну что же, потешься. Сам без багов пишешь?
Читать было неприятно.
P.S. ссылка сразу же находится по очевидным запросам вроде [яндекс баг]
Как конкретно можно сделать детское образование в России лучше (и первый практический шаг)
Как мы проверяем безопасность мобильных приложений, и почему это непросто. Безопасность в Яндексе
Вероятностные модели: от наивного Байеса к LDA, часть 1
Вероятностные модели: от наивного Байеса к LDA, часть 1
Мне только непонятно, откуда на M-шаге брать \alpha_0 и \beta_0? Какие значения хорошо работают? Просто \alpha_0= 1/|c| и \beta_0=1/(|V|*|C|)? И правильно же я понимаю, что параметр \beta относится одновременно к слову и категории, то есть всего бет в системе |V|*|C|?
How-to: как выбрать язык программирования для создания торгового робота
Чему нужно учить в магистратуре по Computer Science?
Яндекс.Кит: новая прошивка для смартфонов
Яндекс.Кит: новая прошивка для смартфонов
Ну а так, как вы говорите, можно говорить про любой софт: «Ну там же windows/linux/other используется, они просто допилили...». Да простят меня мобильные разработчики, но мне кажется, что Кит — это не про то, как «подпилить» android, а про то, как сделать удобные приложения и хорошо (это ключевое слово) собрать их вместе, и интегрировав в систему. Да, гугл это неплохо делает. Но мне нравится, что появляется хорошая альтернатива, ибо монополия обычно ничем хорошим не заканичивается…
Настройка IDEA для чистокодеров
Настройка IDEA для чистокодеров
How-to: роботы и API брокерской торговой системы
Это печально.
HOLO — Система анализа музыки — Версия 2
Во-первых, из приведенных только Pandora является чисто expert-based RS. А вот Last.fm насколько мне известно, коллаборативная (ну на самом деле гибридная, скорее всего).
Во-вторых, content-based рекомендательные системы могут давать неплохое разнообразие и приятно удивить пользователя (diversity и serendipity), но они очень и очень сильно подвержены, скажем так, «упячкам». То есть периодически вы будете рекомендовать что-то очень и очень странное. Почитайте ocelma.net/MusicRecommendationBook/index.html, там много интересного, в том числе и такого рода исследования.
В-третьих, вам как информация к размышлению: генерация плейлистов очень и очень сильно отличается от просто генерации списка похожих. То есть удовлетворение пользователя зависит во многом от того, в каком порядке ему одни и те же треки играть. В этом направлении есть много исследований и даже софта (для создания плейлистов радиостанций).
А вообще, это классный проект, вы большой молодец, что смогли в одиночку создать такую систему. Плюс идея интересная — ведь вы анализируете коллекцию пользователя! Удачи вам, я верю, что ваш продукт найдет свою нишу.
Рекомендательные системы затягивают, очень интересная область. Сам не могу оторваться =) Правда, я больше в коллаборативной фильтрации работаю, в content-based ничего не смыслю. Надо наверстывать…
Review Board + Mercurial — опыт внедрения и автоматизации процесса code review
Ой, правда что ли?
Законопроект о произвольной блокировке сайтов принят
Законопроект о произвольной блокировке сайтов принят
Советы Google по кодированию на языке Python. Часть вторая: советы по форматированию исходного кода
!#/usr/bin/python
не везде работает. Лучше все же#!/usr/bin/env python
, имхоШпаргалка по языку R
А ваше полотно хоть и по-русски, но все же полотно. Да и не факт, что русский текст это хорошо, ведь все равно всю справочную информацию по функциям или пакетам вы будете получать на английском.
А так, да, клево. R и правда очень-очень мощный язык.
Думайте при разработке
Думайте при разработке
Но тебе видимо, больше хочется потешить самолюбие. Ну что же, потешься. Сам без багов пишешь?
Читать было неприятно.
P.S. ссылка сразу же находится по очевидным запросам вроде [яндекс баг]
Параллелим R
Под linux можно так: