Как стать автором
Обновить

Ближайшие курсы CS клуба: статистика, аукционы и игры

Блог компании Образовательные проекты JetBrains Математика *Статистика в IT

С начала пандемии почти все курсы Computer Science клуба проходят онлайн режиме. Для клуба такой формат подходит плохо, т.к. почти отсутствует неформальное общение между участниками. Но есть и плюсы. Теперь для посещения курсов клуба не обязательно жить в Санкт-Петербурге, Казани или Новосибирске. Все курсы доступны онлайн бесплатно для всех желающих.

Далее я расскажу вам про два курса этого семестра, в которых ещё можно успеть поучаствовать.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 608
Комментарии 0

Алгоритм моделирования многомерного массива данных, распределенных по нормальному закону

Программирование *C++ *Алгоритмы *
Из песочницы
При разработке или исследовании готовых алгоритмов часто требуется определить качество их работы. Использовать для этой цели данные из реальных источников не всегда возможно, так как их свойства зачастую неизвестны и потому нельзя спрогнозировать результат выполнения исследуемых алгоритмов. В таком случае применяется моделирование данных по одному из хорошо известных законов распределения. Применяя исследуемый алгоритм к модельным данным, можно заранее предположить, каким окажется результат его выполнения. Если он окажется удовлетворительным, можно попробовать применить его и к реальным данным. Естественно, что это относится только к непараметрическим алгоритмам, то есть не зависящим от закона распределения данных.

Чаще всего используется моделирование данных, распределённых по нормальному закону. К сожалению, MS Excel и распространённые статистические пакетаы (SPSS, Statistica) позволяют моделировать только одномерные статистические распределения. Конечно, можно составить многомерное распределение из нескольких одномерных, но только в том случае, если переменные независимы. Если же нужно исследовать данные с зависящими друг от друга переменными, придётся писать программу.
Читать дальше →
Всего голосов 26: ↑22 и ↓4 +18
Просмотры 12K
Комментарии 11

Тестирование в Mail.Ru Group

Блог компании VK Тестирование IT-систем *
Эта статья написана по мотивам одноименного доклада на Highload++'2012. Предназначена она для руководителей, которые смогут, взглянув на наше тестирование, сравнить его с тестированием в своем проекте, для программистов и системных администраторов, которым представится возможность посмотреть на тестирование как на очень интересную работу, и, конечно, для тестировщиков.

В статье я расскажу, о том, каким на самом деле может быть тестирование, как мы сделали тестирование продуктивной и интересной работой, какие задачи мы решаем, и почему работать у нас хорошо.
Читать дальше →
Всего голосов 112: ↑76 и ↓36 +40
Просмотры 40K
Комментарии 32

Методы экспертных оценок

Математика *
Зачастую необходимо выбрать среди множества альтернатив, при этом каждая обладает различными преимуществами. И как же выбрать лучшую, имея мнение десятков, а то и сотен экспертов?

Читать дальше →
Всего голосов 48: ↑36 и ↓12 +24
Просмотры 222K
Комментарии 19

Статистическая проверка случайности двоичных последовательностей методами NIST

Блог компании Код Безопасности Криптография *


Любой, кто, так или иначе, сталкивался с криптографией, знает, что без генераторов случайных чисел в этом деле не обойтись. Одно из возможных применений таких генераторов, например, – генерация ключей. Но не каждый при этом задумывается, а насколько «хорош» тот или иной генератор. А если и задумывался, то сталкивался с тем фактом, что в мире не существует какого-либо единственного «официального» набора критериев, который бы оценивал, насколько данные случайные числа применимы именно для данной области криптографии. Если последовательность случайных чисел предсказуема, то даже самый стойкий алгоритм шифрования, в котором данная последовательность будет использоваться, оказывается, уязвим — например, резко уменьшается пространство возможных ключей, которые необходимо «перебрать» злоумышленнику для получения некоторой информации, с помощью которой он сможет «взломать» всю систему. К счастью, разные организации все же пытаются навести здесь порядок, в частности, американский институт по стандартам NIST разработал набор тестов для оценки случайности последовательности чисел. О них и пойдет речь в данной статье. Но сначала — немного теории (постараюсь изложить не нудно).

Читать дальше →
Всего голосов 33: ↑31 и ↓2 +29
Просмотры 51K
Комментарии 21

Закон Бенфорда и распределения под него попадающие

Big Data *Математика *

В теории вероятностей и статистике правило первой цифры, или закон Бенфорда, показывает любопытное проявления частот первой цифры данных из реальной жизни. Для школьников и домохозяек этот закон можно вольно сформулировать так: есть наборы данных, у которых первая цифра будет единицей примерно в 6 раз чаще, чем девятка и это соотношение не изменится при масштабировании исходного набора. Более строго можно сформулировать так: набор чисел удовлетворяет закону Бенфорда, если первая цифра d появляется с вероятностью


Здесь N – основание системы счисления, должно быть больше 2, далее будем рассматривать 10.
Для строгих математиков это правило формулируется так: существуют такие случайные величины, для которых распределение вероятностей дробной части логарифма по любому основанию большему 1 сходится к равномерному на отрезке [0; 1] распределению. Далее я постараюсь писать как можно популярнее и подробнее, укажу примеры, ограничения, применение и случайные величины, для которых закон применим.
Подробности
Всего голосов 63: ↑58 и ↓5 +53
Просмотры 47K
Комментарии 34

Задача о конфетах

Занимательные задачки Алгоритмы *Математика *
На днях столкнулся с интересной задачкой, которая показалась мне достойной аудитории данного ресурса. Условие ее следующее:

«Найти максимально допустимое отклонение массы конфеты при ее производстве, чтобы нетто коробки, состоящей из 12 штук их, не выходило за пределы 310±7 грамм в 90% случаев. Закон распределения считать нормальным.»

Стоит сказать, что условие не было выдернуто из интернета или подсмотрено на каком-нибудь ресурсе занимательных задач, а пришло от одного очень хорошего друга, который по должности своей инженер по организации и управлению производством на одной небезызвестной кондитерской фабрике. То есть задача имеет вполне реальное происхождение, а ее решение — практическую пользу.

Я предложил читателям решить задачу самостоятельно и должен сказать, что они справились с этим лучше меня. В своем же решении я я сделал не верное допущение.
Решение
Всего голосов 31: ↑17 и ↓14 +3
Просмотры 22K
Комментарии 128

Задача о конфетах (улучшаем результат)

Математика *
Из песочницы
28 сентября viktorpanasiuk опубликовал задачу, решение которой призвано снизить издержки производства небезизвестной кондитерской фабрики, сделав её товар более конкурентноспособным на рынке и более доступным покупателю.

Необходимо было найти максимально допустимое отклонение массы конфеты при ее производстве, чтобы нетто коробки, состоящей из 12 штук их, не выходило за пределы 310±7 грамм в 90% случаев. Закон распределения считать нормальным.

Был получен ответ, что если среднеквадратичное отклонение массы конфеты при производстве не превышает =1,2248, то данная величина не ограничена сверху.

Под катом вас ожидает улучшение полученного результата по модулю некоторых, как мне кажется — разумных, предположений. Дальнейшее изложено недостаточно строго, но всё же требует знаний математического анализа и теории вероятности в объёме технического вуза.
Мне это интересно
Всего голосов 20: ↑20 и ↓0 +20
Просмотры 14K
Комментарии 0

Статистика для математика

Data Mining *Математика *Машинное обучение *

В современных условиях интерес к анализу данных постоянно и интенсивно растет в совершенно различных областях, таких как биология, лингвистика, экономика, и, разумеется, IT. Основу этого анализа составляют статистические методы, и разбираться в них необходимо каждому уважающему себя специалисту в data mining.

К сожалению, действительно хорошая литература, такая что умела бы предоставить одновременно математически строгие доказательства и понятные интуитивные объяснения, встречается не очень часто. И данные лекции, на мой взгляд, необычайно хороши для математиков, разбирающихся в теории вероятностей именно по этой причине. По ним преподают магистрам в немецком университете имени Кристиана-Альбрехта на программах «Математика» и «Финансовая математика». И для тех, кому интересно, как этот предмет преподается за рубежом, я эти лекции перевел. На перевод у меня ушло несколько месяцев, я разбавил лекции иллюстрациями, упражнениями и сносками на некоторые теоремы. Замечу, что я не профессиональный переводчик, а просто альтруист и любитель в этой сфере, так что приму любую критику, если она конструктивна.

Вкратце, лекции вот о чем:
Читать дальше →
Всего голосов 38: ↑37 и ↓1 +36
Просмотры 22K
Комментарии 7

Как перестать гадать и начать считать

Веб-аналитика *Интернет-маркетинг *Повышение конверсии *Аналитика мобильных приложений *
Привет всем, меня зовут Чудинов Денис и сегодня мы будем искать математику в веб-аналитике.
Трафик, из всех физических явлений, является достаточно сложным с точки зрения природы процесса, так как, насколько мне известно, еще никто не сформулировал математические законы, описывающие трафик. Тем не менее, попробуем применить элементарные методы теории вероятности и математической статистики для формализации и оценки правдоподобия наших суждений.
Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 15K
Комментарии 10

RandLib. Библиотека вероятностных распределений на C++17

Open source *C++ *Математика *
Tutorial

Библиотека RandLib позволяет работать с более чем 50 известными распределениями, непрерывными, дискретными, двумерными, циклическими и даже одним сингулярным. Если нужно какое-нибудь распределение, то вводим его имя и добавляем суффикс Rand. Заинтересовались?
Читать дальше →
Всего голосов 27: ↑24 и ↓3 +21
Просмотры 13K
Комментарии 33

Cжатие и улучшение рукописных конспектов

Open source *Python *Алгоритмы *Обработка изображений *
Перевод
Я написал программу для очистки отсканированных конспектов с одновременным уменьшением размера файла.

Исходное изображение и результат:


Слева: исходный скан на 300 DPI, 7,2 МБ PNG / 790 КБ JPG. Справа: результат с тем же разрешением, 121 КБ PNG [1]

Примечание: описанный здесь процесс более-менее совпадает с работой приложения Office Lens. Есть другие аналогичные программы. Я не утверждаю, что придумал нечто радикальное новое — это просто моя реализация полезного инструмента.

Если торопитесь, просто посмотрите репозиторий GitHub или перейдите в раздел результатов, где можно поиграться с интерактивными 3D-диаграммами цветовых кластеров.
Читать дальше →
Всего голосов 124: ↑124 и ↓0 +124
Просмотры 35K
Комментарии 50

Знание физики помогает обыграть казино в рулетку

Научно-популярное Физика Носимая электроника DIY или Сделай сам Игры и игровые консоли


Когда дело касается азартных игр, то казино всегда в выигрыше. Особенно в рулетке, где шансы игрока на победу особенно низки. Но из каждого правила есть исключения, тем более когда в игру вступает человек с отличными знаниями физики.

В 1970-е годы профессор математики, специалист по теории хаоса, общей теории систем и эконофизике Джей Дойн Фармер (J. Doyne Farmer) сконструировал известный гаджет, который настолько повышал шансы выигрыша в рулетку, что учёному запретили вход во все казино Невады.

Теперь коллега Фармера объяснил подробно, как работает это устройство.
Читать дальше →
Всего голосов 36: ↑30 и ↓6 +24
Просмотры 64K
Комментарии 114

Рассчитываем вероятности для статьи «Нечестная игра, или как нас обманывают организаторы розыгрышей»

Блог компании Cloud4Y Занимательные задачки Алгоритмы *Математика *Логические игры
Статья с разбором игры известной торговой сети вызвала у нас в Cloud4Y живой интерес. Вот небольшие отрывки, чтобы ввести вас в курс дела:
Однажды, солнечным весенним утром, почитывая городской форум, я наткнулся на ссылку с простенькой игрой от известной торговой сети. Игра (акция), посвящённая чемпионату мира по футболу, представляла собой незамысловатое поле три на три, заполненное футбольными мячами. Кликая по мячу, мы открывали картинку с тем или иным товаром. При открытии трёх одинаковых картинок участнику гарантировалось бесплатное получение данного товара в одном из магазинов сети. Также под одним из мячей имелось изображение красной карточки, открытие которой означало конец игры.

Автор статьи принялся расследовать причины своего проигрыша и по результатам расчетов выяснил следующее:
Быстрый набросок формул на салфетке, и выяснилось, что вероятность выигрыша — 1/4. Для 5 полей пришлось повозиться, но расчётная вероятность получилась также 25%.
...
Запустив скрипт, я получил неожиданный результат — 25% выигрышей. Поиграв с количеством выигрышных элементов и общим количеством полей, я выяснил, что вероятность выигрыша в подобной игре не зависит от количества полей и равна единице, поделенной на количество выигрышных элементов, увеличенных на единицу.
Нас заинтересовала правильность такого расчета и, заменив салфетку на Excel, мы взялись за дело в поисках математической истины. Читателей, увлекающихся теорией вероятности, приглашаем под кат, дабы проверить правильность наших вычислений.
Читать дальше →
Всего голосов 37: ↑34 и ↓3 +31
Просмотры 17K
Комментарии 20

Модель полиномиальной регрессии

Математика *
Tutorial

Выражаясь простым языком, модель регрессии в математической статистике строится на основе известных данных, в роли которых выступают пары чисел. Количество таких пар заранее определено. Если представить себе, что первое число в паре – это значение координаты $x$, а второе – $y$, то множество таких пар чисел можно представить на плоскости в декартовой системе координат в виде множества точек. Данные пары чисел берутся не случайно. На практике, как правило, второе число зависит от первого. Построить регрессию – это значит подобрать такую линию (точнее, функцию), которая как можно точнее приближает к себе (аппроксимирует) множество вышесказанных точек.


Читать дальше →
Всего голосов 20: ↑15 и ↓5 +10
Просмотры 37K
Комментарии 9

Правдоподобия, P-значения и кризис воспроизводимости

Математика *Статистика в IT Научно-популярное
Перевод
Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Элиезера Юдковского.

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Комментарий переводчика: Юдковский, автор HPMOR, создатель Lesswrong и прочая и прочая, изложил свою позицию по поводу пользы байесовской статистики в естественных науках в форме диалога. Прямо классический такой диалог из античности или эпохи возрождения, с персонажами, излагающими идеи, обменом колкостями вперемешку с запутанными аргументами и неизбежно тупящим Симплицио. Диалог довольно длинный, минут на двадцать чтения, но по-моему, он того стоит.

Дисклеймеры
  • Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
  • Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Модератор: Добрый вечер. Сегодня в нашей студии: Учёный, практикующий специалист в области… химической психологии или чего-то типа того; его оппонент Байесовец, который намерен доказать, что кризис воспроизводимости в науке можно как-то преодолеть с помощью замены P-значений на что-то из Байесовской статистики…
Студент: Извините, как это пишется?
Модератор:… и, наконец, ничего не понимающий Студент справа от меня.
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 17K
Комментарии 41

Теория счастья. Статистика, как научный способ чего-либо не знать

Занимательные задачки Математика *Научно-популярное
Продолжаю знакомить читателей Хабра с главами из своей книжки «Теория счастья» с подзаголовком «Математические основы законов подлости». Это ещё не изданная научно-популярная книжка, очень неформально рассказывающая о том, как математика позволяет с новой степенью осознанности взглянуть на мир и жизнь людей. Она для тех кому интересна наука и для тех, кому интересна жизнь. А поскольку жизнь наша сложна и, по большому счёту, непредсказуема, упор в книжке делается, в основном, на теорию вероятностей и математическую статистику. Здесь не доказываются теоремы и не даются основы науки, это ни в коем случае не учебник, а то, что называется recreational science. Но именно такой почти игровой подход позволяет развить интуицию, скрасить яркими примерами лекции для студентов и, наконец, объяснить нематематикам и нашим детям, что же такого интересного мы нашли в своей сухой науке.


Речь в этой главе пойдёт о статистике, о погоде и даже о философии. Не пугайтесь, совсем чуть-чуть. Не более того, что можно использовать для tabletalk в приличном обществе.




Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Просмотры 19K
Комментарии 16

Исследуем утверждение центральной предельной теоремы с помощью экспоненциального распределения

Python *Математика *
Из песочницы

Вместо введения


В статье описывается исследование, проведенное с целью проверки утверждения центральной предельной теоремы о том, что сумма N независимых и одинаково распределенных случайных величин, отобранных практически из любого распределения, имеет распределение, близкое к нормальному. Однако, прежде чем мы перейдем к описанию исследования и более подробному раскрытию смысла центральной предельной теоремы, не лишним будет сообщить, зачем вообще проводилось исследование и кому может быть полезна статья.

В первую очередь, статья может быть полезна всем начинающим постигать основы машинного обучения, в особенности если уважаемый читатель еще и на первом курсе специализации «Машинное обучение и анализ данных». Именно подобного рода исследование требуется провести на заключительной неделе первого курса, указанной выше специализации, чтобы получить заветный сертификат.
Читать дальше →
Всего голосов 13: ↑9 и ↓4 +5
Просмотры 14K
Комментарии 2

Визуальная теория информации (часть 1)

Математика *Машинное обучение *Статистика в IT
Перевод


Перевод интересного лонгрида посвященного визуализации концепций из теории информации. В первой части мы посмотрим как отобразить графически вероятностные распределения, их взаимодействие и условные вероятности. Далее разберемся с кодами фиксированной и переменной длины, посмотрим как строится оптимальный код и почему он такой. В качестве дополнения визуально разбирается статистический парадокс Симпсона.

Теория информации дает нам точный язык для описания многих вещей. Сколько во мне неопределенности? Как много знание ответа на вопрос А говорит мне об ответе на вопрос Б? Насколько похож один набор убеждений на другой? У меня были неформальные версии этих идей, когда я был маленьким ребенком, но теория информации кристаллизует их в точные, сильные идеи. Эти идеи имеют огромное разнообразие применений, от сжатия данных до квантовой физики, машинного обучения и обширных областей между ними.

К сожалению, теория информации может казаться пугающей. Я не думаю, что есть какая-то причина для этого. Фактически, многие ключевые идеи могут быть объяснены визуально!

Читать дальше →
Всего голосов 24: ↑24 и ↓0 +24
Просмотры 17K
Комментарии 7

Визуальная теория информации (часть 2)

Математика *Машинное обучение *Статистика в IT
Перевод


Вторая часть перевода лонгрида посвященного визуализации концепций из теории информации. Во второй части рассматриваются энтропия, перекрестная энтропия, дивергенция Кульбака-Лейблера, взаимная информация и дробные биты. Все концепции снабжены прекрасными визуальными объяснениями.

Для полноты восприятия, перед чтением второй части, рекомендую ознакомиться с первой.

Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры 12K
Комментарии 0