Pull to refresh

Фильтрация контента

Lumber room
Я тут задумался об эффективном механизме фильтрации интересующего контента: премодерирование, карма, etc…

И в голову пришла простая идея: почему бы не использовать байесовскую фильтрацию для топиков? Теоретически для этой цели она должна работать даже лучше, чем для фильтрации спама. Кроме того, если потеря email из-за ошибки фильтра может обойтись очень дорого, то пропуск хабратопика абсолютно не критичен.

Не знаю, может идея бредовая… я её толком обдумать ещё не успел. :)
Total votes 24: ↑21 and ↓3 +18
Views 854
Comments 65

Байесовский анализ в Python

Algorithms *Mathematics *
Tutorial
Этот пост является логическим продолжением моего первого поста о Байесовских методах, который можно найти тут.
Я бы хотел подробно рассказать о том, как проводить анализ на практике.
Читать дальше →
Total votes 23: ↑22 and ↓1 +21
Views 54K
Comments 18

Фильтрация смс спама с помощью наивного байесовского классификатора (код на R)

Data Mining *Algorithms *
Привет. В этом посте мы рассмотрим простую модель фильтрации спама с помощью наивного байесовского классификатора с размытием по Лапласу, напишем несколько строк кода на R, и, наконец, протестируем на англоязычной базе данных смс спама. Вообще, на хабре я нашел две статьи посвященные данной теме, но ни в одной не было наглядного примера, чтобы можно было скачать код и посмотреть результат. Также не было упоминания про размытие, что существенно увеличивает качество модели, без особых затрат усилий, в отличие, скажем, от сложной предобработки текста. Но вообще, запилить очередной пост про наивного байеса меня побудило то, что я пишу методичку для студентов с примерами кода на R, вот и решил поделиться инфой.

Читать дальше →
Total votes 24: ↑24 and ↓0 +24
Views 27K
Comments 12

Байес

Mathematics *
В левой руке Морфеуса лежит 7 синих и 3 красных таблетки, а в правой 5 синих и 8 красных. Вы закрываете глаза и берете таблетку — она оказывается красной, однако вы не знаете из какой руки ее взяли. Какова вероятность, что вы взяли ее из правой руки?


image

17 апреля 1761 — день смерти Томаса Байеса.
Под катом результаты того, что есть в рунете, помимо стандартных вещей типа Теорема Байеса, Байесовская сеть, Наивный байесовский классификатор , Байесовская фильтрация спама
Читать дальше →
Total votes 102: ↑94 and ↓8 +86
Views 96K
Comments 38

Обработка естественного языка в задаче мониторинга предвыборной агитации

Data Mining *Algorithms *
Sandbox
В данной статье мы рассмотрим процесс разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ с использованием обработки естественного языка и машинного обучения.
Также я остановлюсь на особенностях и нюансах, ведь задача стояла довольно специализированная: необходимо было выделять агитацию, и, если она может нарушать закон — оперативно уведомлять Избирком. Забегая вперед скажу, что с задачей я успешно справился.

В задаче разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ применяются наработки из нескольких смежных областей знаний:
  • автоматизированная обработка текстов (текстмайнинг),
  • обработка естественного языка,
  • машинное обучение.

Читать дальше →
Total votes 16: ↑9 and ↓7 +2
Views 8.9K
Comments 4

О формуле Байеса, прогнозах и доверительных интервалах

Algorithms *Mathematics *
На Хабре много статей по этой теме, но они не рассматривают практических задач. Я попытаюсь исправить это досадное недоразумение. Формула Байеса применяется для фильтрации спама, в рекомендательных сервисах и в рейтингах. Без нее значительное число алгоритмов нечеткого поиска было бы невозможно. Кроме того, это формула явилась причиной холивара среди математиков.

image

Читать дальше →
Total votes 86: ↑83 and ↓3 +80
Views 67K
Comments 19

Байес и задача про Морфеуса

Mathematics *
Sandbox
Больше года назад, 17 апреля 2014, на Хабре появилась эта статья (ко дню смерти Томаса Байеса). Там было много всего интересного, но, как обычно, большая часть обсуждений в комментариях свелась к задачке, которая была лишь эпиграфом. Тогда я проглядел статью по диагонали, а задачу и вовсе проигнорировал.

А зря…
Читать дальше →
Total votes 28: ↑22 and ↓6 +16
Views 21K
Comments 47

MCMC-сэмплинг для тех, кто учился, но ничего не понял

Wunder Fund corporate blog Programming *Algorithms *Machine learning *
Translation
Рассказывая о вероятностном программировании и Байесовской статистике, я обычно не уделяю особого внимания тому, как, на самом деле, выполняется вероятностный вывод, рассматривая его как некий «чёрный ящик». Вся прелесть вероятностного программирования заключается в том, что, на самом деле, для того, чтобы строить модели, не обязательно понимать, как именно делается вывод. Но это знание, безусловно, весьма полезно.


Как-то раз я рассказывал о новой Байесовской модели человеку, который не особенно разбирался в предмете, но очень хотел всё понять. Он-то и спросил меня о том, чего я обычно не касаюсь. «Томас, — сказал он, — а как, на самом деле, выполняется вероятностный вывод? Как получаются эти таинственные сэмплы из апостериорной вероятности?».
Читать дальше →
Total votes 19: ↑18 and ↓1 +17
Views 30K
Comments 22

О линейной регрессии: байесовский подход к курсу рубля

Data Mining *Algorithms *Mathematics *R *Machine learning *


Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы (не такие понятные).

Читать дальше →
Total votes 34: ↑33 and ↓1 +32
Views 22K
Comments 24

Открытый вебинар «Наивный байесовский классификатор»

OTUS corporate blog Data Mining *Big Data *Machine learning *
Всем привет!

В рамках нашего курса Data Scientist мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.

Заранее спасибо.

Total votes 13: ↑12 and ↓1 +11
Views 4K
Comments 0

Можно ли считать статистику при малом количестве данных?

Entertaining tasks Mathematics *Statistics in IT Popular science
Recovery mode
В целом ответ – да. Особенно, когда есть мозги и знание теоремы Байеса.

Напомню, что среднее и дисперсию можно считать только, если у вас имеется определенное количества событий. В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский. Почему я не могу просто взять и посчитать среднее, если у меня есть 5 измерений? По идее ничто не мешает, только среднее получается нестабильным. После еще одного измерения и пересчета оно может сильно измениться и полагаться на него можно начиная где-то с 30 измерений. Но и после 31го измерения оно тоже пошатнется, только уже не так заметно. Плюс добавляется проблема, что и среднее можно считать по разному и получать разные значения. То есть из большой выборки можно выбрать первые 30 и посчитать среднее, потом выбрать другие 30 и тд … и получить много средних, которые тоже можно усреднять. Истинное среднее бывает недостижимо на практике, так как всегда имеем конечное количество измерений. В таком случае среднее является статистической величиной со своим средним и дисперсией. То есть измеряя среднее на практике мы имеем в виду «предположительное среднее», которое может быть близко к идеальному теоретическом значению.

Попробуем разобраться в вопросе, на входе мы имеем некоторое количество фактов и хотим на выходе построить представление об источнике этих фактов. Будем строить мат модель и использовать теорию Байеса для связки модели и фактов.

Читать дальше →
Total votes 28: ↑27 and ↓1 +26
Views 12K
Comments 49

Как перейти к байесовским доверительным интервалам, не потеряв понимание классического частотного вывода

Statistics in IT
Sandbox
✏️ Technotext 2021

Много слов уже сказано о доверительных интервалах для оценки параметра в байесе и частотке. Существуют десятки объяснений, но ни одно из них не показывает "на пальцах", чем отличаются механизмы создания этих интервалов. Так вот давайте еще и я попробую объяснить вам так, чтобы вы больше никогда не конфузились при их упоминании.

Читать далее
Total votes 16: ↑16 and ↓0 +16
Views 4.9K
Comments 1

Байесовская модель для принятия очень прикладного решения в американском футболе

Mathematics *Statistics in IT
Recovery mode

В американском футболе атакующей команде дается 4 попытки, чтобы пройти 10 ярдов и тогда команда имеет право продолжить атаковать (владеть мячом). И очень часто, перед розыгрышем 4-ой попытки, тренерам приходится решать - попытаться добрать оставшееся до минимальных 10 ярдов с риском не дойти и отдать сопернику мяч в текущей точке поля, либо сразу пробить ногой по мячу, запнув мяч подальше, обезопасив так себя в защите. Чтобы облегчить принятие этого решения и повысить его эффективность в этой статье мы построим байесовскую модель.

Читать далее
Total votes 8: ↑7 and ↓1 +6
Views 2.5K
Comments 2

Почему современная наука основана на вере?

Reading room Popular science Physics

Научный метод, каким мы его знаем, формировался на протяжении тысяч лет в ходе преодоления череды философских кризисов. В этом посте я хочу рассказать про две величайшие проблемы в философии науки и вызовы, стоящие перед ней в настоящем.

Проблема неполной индукции

Знаменитый древнегреческий философ Аристотель в своем трактате «Аналитика» выделяет два вида возможных умозаключений - индуктивное и дедуктивное.

Дедуктивное умозаключение - это логический вывод о частных случаях исходя из общего правила. Индуктивное умозаключение - это логический вывод об общем правиле исходя из частных случаев.

Классическим примером дедукции, которую сам Аристотель называл силлогизм, является следующее рассуждение: все люди смертны (общее правило), Сократ - человек (частный случай), следовательно Сократ смертен (дедуктивный вывод).

Индукцию Аристотель делил на два вида: полную и неполную. Полная индукция - это вывод общего правила на основе свойств всех элементов множества, а неполная - это предположение об общем правиле на основе части элементов множества.

Читать далее
Total votes 122: ↑99 and ↓23 +76
Views 43K
Comments 620