Pull to refresh

Рекомендательные системы: SVD, часть I

Reading time 3 min
Views 59K
Surfingbird corporate blog
Продолжаем разговор о рекомендательных системах. В прошлый раз мы сделали первую попытку определить схожесть между пользователями и схожесть между продуктами. Сегодня мы подойдём к той же задаче с другой стороны – попытаемся обучить факторы, характеризующие пользователей и продукты. Если Васе из предыдущего поста нравятся фильмы о тракторах и не нравятся фильмы о поросятах, а Петру – наоборот, было бы просто замечательно научиться понимать, какие фильмы «о поросятах», и рекомендовать их Петру, а какие фильмы – «о тракторах», и рекомендовать их Васе.

image
Читать дальше →
Total votes 17: ↑15 and ↓2 +13
Comments 5

Как уменьшить количество измерений и извлечь из этого пользу

Reading time 10 min
Views 45K
Programming *Data Mining *Big Data *R *Machine learning *
Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать дальше →
Total votes 31: ↑28 and ↓3 +25
Comments 11

Заметки с MBC Symposium: попытки разобраться, почему работает deep learning

Reading time 7 min
Views 15K
Machine learning *

Продолжаю рассказывать об интересных докладах на MBC Symposium (MBC, кстати, расшифровывается как Mind Brain Computation).


image


Surya Ganguli — человек из теоретического neuroscience, то есть, занимается тем, чтобы понять, как работает мозг, на основе измерений импульсов нейронов на различных уровнях.


И вот тут независимо от neuroscience в мире случается deep learning, и у нас получается некую искусственную систему чему-то научить.
В отличие от мозга, в котором у нас ограниченное разрешение, сложность с повторяемостью, итд итп, про deep network-то мы знаем абсолютно все, про все веса, про все состояния. Возникает вопрос — если мы собираемся разобраться, как работает мозг, может попробуем для начала понять как и почему работает вот такая маленькая система?


Без надежд, что мозг работает также, скорее с прицелом разработать какие-то методы, которые могут быть применимы потом.

Читать дальше →
Total votes 29: ↑29 and ↓0 +29
Comments 6

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

Reading time 19 min
Views 113K
Open Data Science corporate blog Search engines *Python *Data Mining *Machine learning *

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.


image

Читать дальше →
Total votes 38: ↑37 and ↓1 +36
Comments 23

Рекомендательная система на коленке как средство против экзистенциального кризиса

Reading time 6 min
Views 12K
Perl *Programming *Data Mining *Data visualization *Machine learning *
Может быть отсылка к экзистенциальному кризису звучит слишком громко, но лично для меня проблема поиска и выбора (или выбора и поиска, это имеет значение) как в мире интернета так и в мире простых вещей по мучениям иногда приближается к нему. Выбор фильма на вечер, книги неизвестного автора, сосисок в магазине, нового утюга — дикое количество вариантов. Особенно когда не очень знаешь чего хочешь. Да и когда знаешь, но не можешь попробовать — тоже не праздник — мир разнообразен и все сразу не перепробуешь.

image

Рекомендательные системы сильно помогают в выборе, но не везде и не всегда так как хотелось бы. Часто не учитывается семантика содержания. Кроме того, во весь рост встает проблема "длинного хвоста", когда рекомендации сосредоточены только на самых популярных позициях, а интересные, но не очень популярные в массе вещи ими не охвачены.

Cвой эксперимент в этом направлении я решил начать с поиска интересных текстов взяв для этого довольно небольшое, но пишущее сообщество авторов, которые еще остались на блоговой платформе Живой Журнал. О том как сделать собственную рекомендательную систему а в результате получить еще и помощник в выборе вина на вечер — под катом.
Читать дальше →
Total votes 17: ↑16 and ↓1 +15
Comments 7

Как рекомендовать музыку, которую почти никто не слушал. Доклад Яндекса

Reading time 11 min
Views 30K
Яндекс corporate blog Algorithms *Machine learning *
Почти у всех рекомендательных систем есть трудности с новым или редким контентом — поскольку с ним взаимодействовала лишь незначительная часть пользователей. В своём докладе на встрече «Яндекс изнутри» Даниил Бурлаков поделился набором трюков, которые используются в рекомендациях Музыки, и подробно разобрал популярную модель Singular Value Decomposition (SVD).


Плюс у нас есть такие исполнители, которые называются композиторами и обычно проставляются правообладателями просто веером. Только у одного Моцарта было «записано» более миллиона композиций.

— Всем привет! Меня зовут Даниил Бурлаков, я руковожу командой рекомендаций в Медиасервисах. Сегодня хочу рассказать про некоторые проблемы, которые мы решаем, когда занимаемся рекомендациями в Музыке.

Total votes 56: ↑54 and ↓2 +52
Comments 197

О применении параметрических методов спектрального оценивания в радиолокации — метод MUSIC. Дополнение к статье

Reading time 4 min
Views 3.2K
Data Mining *Algorithms *Mathematics *
Попалась мне неплохая статья, про метод спектрального оценивания, который отлично подходит для короткого сигнала из суммы слабозашумленных гармоник. (-копия) Возможно, мои комментарии помогут читателю вникнуть в суть метода. Что немного огорчило, так это не до конца реализованные возможности метода. Метод применен для радиолокации — для быстрого определения направления на приходящие сигналы (угла θ) с последующей целью автоматической, надо понимать, адаптации системы. Но — численного определения этого угла автор не производит (причем по контексту это странно), хотя это определение вполне возможно. Имеем только красивые графики, по которым, получается, системе надо еще «ползать» и «ползать», определяя количество и расположение максимумов, что не совсем хорошо.

image
Иллюстрация автора упомянутой статьи
Читать дальше →
Total votes 9: ↑9 and ↓0 +9
Comments 4

Безопасный доступ к полям регистров на С++ без ущерба эффективности (на примере CortexM)

Reading time 24 min
Views 14K
Programming *C++ *Programming microcontrollers *
image
Рис. взят с сайта www.extremetech.com/wp-content/uploads/2016/07/MegaProcessor-Feature.jpg

Всем доброго здравия!

В прошлой статье я рассмотрел вопрос о проблеме доступа к регистрам микроконтроллера с ядром CortexM на языке С++ и показал простые варианты решения части проблем.

Сегодня я хочу показать идею как можно сделать безопасным доступ к регистру и его полям без ущерба эффективности, используя сгенерированные на основе SVD файлов С++ классы.

Всех кого заинтересовал, добро пожаловать под кат. Кода будет много.
Читать дальше →
Total votes 26: ↑24 and ↓2 +22
Comments 40

Введение в рекомендательные системы

Reading time 4 min
Views 17K
Data Mining *Algorithms *Machine learning *E-commerce management *Artificial Intelligence
В статье рассматриваются подходы по построению персонализированных товарных и контентных рекомендаций, и возможные кейсы использования.

Персонализированные товарные и контентные рекомендации используются для повышения конверсии, среднего чека и улучшения опыта пользователей.


Читать дальше →
Total votes 6: ↑4 and ↓2 +2
Comments 4

10 лайфхаков разработки рекомендательных систем

Reading time 3 min
Views 6.5K
Data Mining *Algorithms *Machine learning *E-commerce management *Artificial Intelligence
В предыдущей статье мы обсудили основы устройства рекомендательных систем и кейсы использования. Узнали, что основной принцип заключается в рекомендации товаров, понравившихся людям с похожим вкусом, и применении алгоритма коллаборативной фильтрации.

В данной статье, будут рассмотрены лайфхаки рекомендательных систем на основе реальных бизнес кейсов. Будет показано, какие метрики лучше использовать, и какую степень близости выбрать для предсказания.


Читать дальше →
Total votes 11: ↑9 and ↓2 +7
Comments 6

9 подходов для выявления аномалий

Reading time 3 min
Views 12K
Algorithms *Mathematics *Machine learning *Reading room Artificial Intelligence
В предыдущей статье мы говорили о прогнозировании временных рядов. Логичным продолжением будет статья о выявлении аномалий.

Применение


Выявление аномалий используется в таких областях как:

1) Предсказание поломок оборудования


Так, в 2010 году Иранские центрифуги были атакованы вирусом Stuxnet, который задал неоптимальный режим работы оборудования и вывел из строя часть оборудования за счет ускоренного износа.

Если бы на оборудовании использовались алгоритмы поиска аномалий, ситуации выхода из строя можно было избежать.


Читать дальше →
Total votes 17: ↑8 and ↓9 -1
Comments 0