Pull to refresh
  • by relevance
  • by date
  • by rating

Вероятностные модели: байесовские сети

Surfingbird corporate blog Data Mining *
Tutorial
В этом блоге мы уже много о чём поговорили: были краткие описания основных рекомендательных алгоритмов (постановка задачи, user-based и item-based, SVD: 1, 2, 3, 4), о нескольких моделях для работы с контентом (наивный Байес, LDA, обзор методов анализа текстов), был цикл статей о холодном старте (постановка задачи, текстмайнинг, теги), была мини-серия о многоруких бандитах (часть 1, часть 2).

Чтобы двигаться дальше и поместить эти и многие другие методы в общий контекст, нам нужно выработать некую общую базу, научиться языку, на котором разговаривают современные методы обработки данных, – языку графических вероятностных моделей. Сегодня – первая часть этого рассказа, самая простая, с картинками и пояснениями.


Читать дальше →
Total votes 49: ↑47 and ↓2 +45
Views 81K
Comments 35

Вероятностные модели: примеры и картинки

Surfingbird corporate blog Data Mining *
Tutorial
Сегодня – вторая серия цикла, начатого в прошлый раз; тогда мы поговорили о направленных графических вероятностных моделях, нарисовали главные картинки этой науки и обсудили, каким зависимостям и независимостям они соответствуют. Сегодня – ряд иллюстраций к материалу прошлого раза; мы обсудим несколько важных и интересных моделей, нарисуем соответствующие им картинки и увидим, каким факторизациям совместного распределения всех переменных они соответствуют.


Читать дальше →
Total votes 49: ↑48 and ↓1 +47
Views 56K
Comments 10

Вероятностные модели: искусство расставлять скобки

Surfingbird corporate blog Data Mining *
Tutorial
После большого перерыва продолжаем цикл о графических вероятностных моделях (часть 1, часть 2). Сегодня мы наконец-то от постановок задач перейдём к алгоритмам; поговорим мы о самом простом, но часто полезном алгоритме вывода на фактор-графах – алгоритме передачи сообщений. Или, как его ещё можно назвать, алгоритме правильной расстановки скобок.


by sergey-lesiuk
Читать дальше →
Total votes 51: ↑48 and ↓3 +45
Views 25K
Comments 2

Вероятностные модели: борьба с циклами и вариационные приближения

Surfingbird corporate blog Data Mining *
В четвёртой серии цикла о графических вероятностных моделях (часть 1, часть 2, часть 3) мы продолжим разговор о том, как справляться со сложными фактор-графами. В прошлый раз мы изучили алгоритм передачи сообщений, который, правда, работает только в тех случаях, когда фактор-граф представляет собой дерево, и в каждом узле можно без проблем пересчитать распределения грубой силой. Что делать в по-настоящему интересных случаях, когда в графе есть большие содержательные циклы, мы начнём обсуждать сегодня – поговорим о паре относительно простых методов и обсудим очень мощный, но непростой в использовании инструмент – вариационные приближения.


Читать дальше →
Total votes 44: ↑40 and ↓4 +36
Views 14K
Comments 2

Байес

Mathematics *
В левой руке Морфеуса лежит 7 синих и 3 красных таблетки, а в правой 5 синих и 8 красных. Вы закрываете глаза и берете таблетку — она оказывается красной, однако вы не знаете из какой руки ее взяли. Какова вероятность, что вы взяли ее из правой руки?


image

17 апреля 1761 — день смерти Томаса Байеса.
Под катом результаты того, что есть в рунете, помимо стандартных вещей типа Теорема Байеса, Байесовская сеть, Наивный байесовский классификатор , Байесовская фильтрация спама
Читать дальше →
Total votes 102: ↑94 and ↓8 +86
Views 94K
Comments 38

Вероятностные модели: сэмплирование

Surfingbird corporate blog Algorithms *
Tutorial
И снова здравствуйте! Сегодня я продолжаю серию статей в блоге Surfingbird, посвящённую разным методам рекомендаций, а также иногда и просто разного рода вероятностным моделям. Давным-давно, кажется, в прошлую пятницу летом прошлого года, я написал небольшой цикл о графических вероятностных моделях: первая часть вводила основы графических вероятностных моделей, во второй части было несколько примеров, часть 3 рассказывала об алгоритме передачи сообщений, а в четвёртой части мы кратко поговорили о вариационных приближениях. Цикл заканчивался обещанием поговорить о сэмплировании — ну что ж, не прошло и года. Вообще говоря, в этом мини-цикле я поведу речь более предметно о модели LDA и о том, как она помогает нам делать рекомендации текстового контента. Но сегодня начну с того, что выполню давнее обещание и расскажу о сэмплировании в вероятностных моделях — одном из основных методов приближённого вывода.

Читать дальше →
Total votes 45: ↑45 and ↓0 +45
Views 30K
Comments 9

Вероятностные модели: от наивного Байеса к LDA, часть 1

Surfingbird corporate blog Data Mining *
Tutorial
Продолжаем разговор. Прошлая статья была переходной от предыдущего цикла о графических моделях вообще (часть 1, часть 2, часть 3, часть 4) к новому мини-циклу о тематическом моделировании: мы поговорили о сэмплировании как методе вывода в графических моделях. А теперь мы начинаем путь к модели латентного размещения Дирихле (latent Dirichlet allocation) и к тому, как все эти чудесные алгоритмы сэмплирования применяются на практике. Сегодня – часть первая, в которой мы поймём, куда есть смысл обобщать наивный байесовский классификатор, и заодно немного поговорим о кластеризации.


Читать дальше →
Total votes 41: ↑38 and ↓3 +35
Views 32K
Comments 10

Вероятностные модели: LDA, часть 2

Surfingbird corporate blog Mathematics *
Продолжаем разговор. В прошлый раз мы сделали первый шаг на переходе от наивного байесовского классификатора к LDA: убрали из наивного байеса необходимость в разметке тренировочного набора, сделав из него модель кластеризации, которую можно обучать ЕМ-алгоритмом. Сегодня у меня уже не осталось отговорок – придётся рассказывать про саму модель LDA и показывать, как она работает. Когда-то мы уже говорили об LDA в этом блоге, но тогда рассказ был совсем короткий и без весьма существенных подробностей. Надеюсь, что в этот раз удастся рассказать больше и понятнее.

Читать дальше →
Total votes 25: ↑24 and ↓1 +23
Views 19K
Comments 7

Нейробайесовский подход к задачам машинного обучения. Лекция Дмитрия Ветрова в Яндексе

Яндекс corporate blog Mathematics *Machine learning *
Этим постом мы завершаем серию лекций с Data Fest. Одним из центральных событий конференции стал доклад Дмитрия Ветрова — профессора факультета компьютерных наук НИУ ВШЭ. Дмитрий входит в число самых известных в России специалистов по машинному обучению и, начиная с прошлого года, работает в Яндексе ведущим исследователем. В докладе он рассказывает об основах байесовского подхода и объясняет, какие преимущества дает этот подход при использовании нейронных сетей.


Под катом — расшифровка и часть слайдов.
Total votes 53: ↑52 and ↓1 +51
Views 28K
Comments 3

БСД для финансистов: попробуем посложнее?

Machine learning *Finance in IT

 

О своем трепетном отношении к Байесовским сетям доверия (БСД) я уже написал в предыдущей статье. Там же детально разобрана очень простая модель анализа решений инвестора об исполнении опциона колл на акцию. На этот раз предлагаю углубиться в тему и построить БСД, которая уже может послужить основой более серьезной модели поддержки принятия решений о покупке/продаже акции нефтяной компании.

Заранее отмечу, что я не придумывал этот пример, и даже укажу источник [1]. Однако в источнике, как это часто бывает, упущено множество подробностей, что оставляет осадок неудовлетворенности, а у студентов – просто непонимание, которое приводит к тому, что они перешагивают этот материал, так и не разобравшись в нем до конца. А задача стόит того, хотя бы потому, что в ней умело использованы почти все основные «хитрости» БСД, и если разобрать её «до винтика», то можно уверенно двигаться дальше.

Читать далее
Total votes 2: ↑2 and ↓0 +2
Views 2.3K
Comments 0

БСД для финансистов – хорошо, но Диаграммы влияния – лучше

Machine learning *Finance in IT

Разбирая примеры с использованием Байесовских сетей доверия (БСД), мы показали, как с их помощью формируется или принимается некое решение инвестора. Однако в чистом виде БСД могут быть лишь основой для принятия решений. Инструментом же, созданным специально для этого являются Диаграммы влияния (Influence Diagrams). Так называют разновидность байесовских сетей, в которой, помимо уже знакомых нам узлов неопределенностей (случайных переменных) используют еще два вида узлов:

- узлы решений, которые должны быть приняты;

- узлы полезностей, представляющие возможные значения (ценность, полезность) результатов.

Диаграммы влияния, в отличие от обычных БСД, позволяют определять ожидаемую полезность всех альтернативных решений, а затем выбирать альтернативу с наибольшей ожидаемой полезностью. Программа Netica, которую мы использовали в предыдущих примерах, полностью приспособлена для постройки диаграмм влияния.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Views 1.8K
Comments 0

Байесовские сети для анализа синтетических финансовых инструментов

Machine learning *Finance in IT

В предыдущих статьях мы применили Байесовские сети доверия (БСД) для анализа решений инвестора по опциону колл на акции, затем по самой акции. Далее рассмотрели пример с более развитой версией БСД – диаграммой влияния, которая дополнена узлами решений и полезностей. Сегодня усложним задачу, и построим небольшую диаграмму влияния для анализа арбитражных возможностей при создании синтетической позиции по акции.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Views 2.3K
Comments 2

Байесовские сети и реальные опционы

Machine learning *Finance in IT

Менеджерам компаний часто приходится брать на себя принятие решений по проектам, которые уже начаты (продолжаются). Так происходит, потому что существенно меняется состояние экономики, на рынке заключаются крупные сделки, которые меняют позиции ключевых конкурентов, или появляются радикально новые технологии, и продолжение проекта становится бессмысленным. Право отложить исполнение проекта, или изменить стратегию его реализации в литературе по финансовому менеджменту называют управленческим опционом (Managerial Option). Также в экономической литературе закрепился термин реальный опцион (Real Option), он четко отделяет это понятие от обычного финансового опциона.

Поскольку принятие решений в таких случаях неизбежно связано с вероятностными оценками и множеством неопределенностей, диаграммы влияния, как и все Байесовские сети доверия (БСД) чрезвычайно полезны для моделирования ситуаций и прогнозирования ожидаемых результатов. Рассмотрим два простых примера с реальными опционами. Как обычно, решаем задачи с использованием Netica, а попутно опробуем функцию программного заполнения таблиц полезности.

Читать далее
Total votes 1: ↑1 and ↓0 +1
Views 2.4K
Comments 0