Как стать автором
Обновить

Акинатор и математика

Искусственный интеллект
На Хабре уже несколько раз всплывала тема Акинатора, в том числе и с тегом не знаю как оно работает. Я на него наткнулся недавно и, разумеется, был восхищен. Затем, как вероятно и многим другим, мне в голову пришла мысль: «А как же это работает?» Ответа на этот вопрос я нигде не нашел, а потому задался целью написать аналогичную по функциональности программу, разобравшись по ходу дела что к чему.
Читать дальше →
Всего голосов 103: ↑95 и ↓8 +87
Просмотры 55K
Комментарии 78

Применение Теории вероятностей в IT

Чулан
Так сложилось, что я преподаю студентам IT-шных специальностей в Сибирском Федеральном Университете (СФУ) такой предмет, как «Теория вероятностей и математическая статистика». Из года в год я сталкиваюсь с таким явлением, что студенты не понимают, зачем и почему им учить эту дисциплину. Конечно, можно сказать, что математика тренирует мозг и развивает абстрактное мышление (которое весьма необходимо программистам). Но я считаю, что если подкрепить преподавание ТВ и МС яркими примерами (особенно применительно к IT), это даст необходимую мотивацию для изучения этого предмета.
Читать дальше →
Всего голосов 27: ↑20 и ↓7 +13
Просмотры 3.4K
Комментарии 25

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Data Mining *
Из песочницы
Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.

Читать дальше →
Всего голосов 37: ↑34 и ↓3 +31
Просмотры 6.4K
Комментарии 25

Сжатие информации без потерь. Часть первая

Алгоритмы *
Доброго времени суток.
Сегодня я хочу коснуться темы сжатия данных без потерь. Несмотря на то, что на хабре уже были статьи, посвященные некоторым алгоритмам, мне захотелось рассказать об этом чуть более подробно.
Я постараюсь давать как математическое описание, так и описание в обычном виде, для того, чтобы каждый мог найти для себя что-то интересное.

В этой статье я коснусь фундаментальных моментов сжатия и основных типов алгоритмов.
Читать дальше →
Всего голосов 40: ↑36 и ↓4 +32
Просмотры 70K
Комментарии 18

Сжатие информации без потерь. Часть вторая

Алгоритмы *
Первая часть.

Во второй части будут рассмотрены арифметическое кодирование и преобразование Барроуза-Уилера (последнее часто незаслуженно забывают во многих статьях). Я не буду рассматривать семейство алгоритмов LZ, так как про них на хабре уже были неплохие статьи.

Итак, начнем с арифметического кодирования — на мой взгляд, одного из самых изящных (с точки зрения идеи) методов сжатия.
Читать дальше →
Всего голосов 30: ↑28 и ↓2 +26
Просмотры 21K
Комментарии 7

Эффективность передачи данных и теория информации

История IT
Из песочницы
Кодирование информации в простейшей форме зародилось при общении людей в виде жестовых кодов, а позднее в виде речи, суть которой кодовые слова для передачи наших мыслей собеседнику, далее наступил новый этап развития такого кодирования – письменность, которая позволяла хранить и передавать информацию с наименьшими потерями от писателя к читателю. Иероглифы – есть конечный алфавит, обозначающий понятия, предметы или действия, элементы которого в каком-то виде заранее оговорены людьми для однозначного «декодирования» записанной информации. Фонетическое письмо использует буквенный алфавит для внутреннего кодирования слов речи и так же служит для однозначного воспроизведения записанной информации. Цифры позволяют использовать кодовое представление вычислений. Но данные типы кодирования служили скорее для непосредственного общения, но людям требовалось так же передавать информацию на расстояние и достаточно быстро, как следствие появились простейшие системы телекоммуникаций.
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 20K
Комментарии 9

Методические заметки об отборе информативных признаков (feature selection)

Блог компании Align Technology, R&D Data Mining *R *
Tutorial
Всем привет!

Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.

В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.

Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.

image
Источник.

Читать дальше →
Всего голосов 20: ↑19 и ↓1 +18
Просмотры 20K
Комментарии 6

«Кванты» здесь и сейчас (часть 3)

Научно-популярное Будущее здесь
В предыдущих статьях я кратко рассказал о предпосылках в развитии квантовой физики и информатике, которые привели к появлению квантовой информации и квантовым вычислениям как таковым. Сегодня же хотел рассмотреть подобным образом ещё одно направление, внесшее существенный вклад: теорию информации.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 11K
Комментарии 0

Схема разделения секрета Шамира

Информационная безопасность *Криптография *Алгоритмы *Математика *
Перевод
Рассмотрим сценарий, когда необходимо обеспечить безопасность банковского хранилища. Оно считается абсолютно неприступным без ключа, который вам выдают в первый же день работы. Ваша цель — надёжно сохранить ключ.

Предположим, вы решили всё время хранить ключ при себе, предоставляя доступ к хранилищу по мере необходимости. Но вы быстро поймёте, что такое решение на практике нормально не масштабируется, потому что всякий раз для открытия хранилища требуется ваше физическое присутствие. А как насчёт отпуска, которые вам обещали? Кроме того ещё более пугает вопрос: а что если вы потеряли единственный ключ?

С мыслью об отпуске вы решили сделать копию ключа и доверить её другому сотруднику. Однако вы понимаете, что это тоже не идеально. Удваивая количество ключей, вы также удвоили возможности кражи ключа.

Отчаявшись, вы уничтожаете дубликат и решаете разделить исходный ключ пополам. Теперь, вы думаете, два доверенных человека с фрагментами ключей должны физически присутствовать, чтобы собрать ключ и открыть хранилище. Это означает, что вору необходимо украсть два фрагмента, что вдвое труднее кражи одного ключа. Однако вскоре вы понимаете, что эта схема ненамного лучше, чем просто один ключ, потому что если кто-то потеряет половину ключа, полный ключ нельзя восстановить.
Читать дальше →
Всего голосов 72: ↑72 и ↓0 +72
Просмотры 41K
Комментарии 24

Информационная энтропия хаоса

Python *Математика *Разработка под Windows *Научно-популярное
Tutorial


Введение


На Habr достаточно много публикаций, в которых рассматривается понятие энтропии, вот только некоторые из них [1÷5]. Публикации были позитивно восприняты читателями и вызвали большой интерес. Достаточно привести определение энтропии, которое дал автор публикации [1]: «энтропия — это то, как много информации вам не известно о системе». Публикаций о явлении хаосе на Habr тоже достаточно [6÷9]. Однако связь энтропии и хаоса в обеих группах публикаций не рассматривалась.

Это объясняется тем, что различные области знаний выделяют разные виды меры хаоса:

  • информационная;
  • термодинамическая;
  • дифференциальная;
  • культурная.

Также описываются меры хаоса с учётом их специфики даже в одной из указанных областей довольно сложно.

Пробуя предельно упростить задачу, я решил рассмотреть связь информационной энтропии и хаоса на примере сходства областей прохождения от порядка к хаосу на диаграммах в виде точечных отображений и на графиках энтропийного коэффициента для этих областей.

Что из этого получилось Вы узнаете заглянув под кат.
Читать дальше →
Всего голосов 21: ↑17 и ↓4 +13
Просмотры 6.2K
Комментарии 1

Визуальная теория информации (часть 1)

Математика *Машинное обучение *Статистика в IT
Перевод


Перевод интересного лонгрида посвященного визуализации концепций из теории информации. В первой части мы посмотрим как отобразить графически вероятностные распределения, их взаимодействие и условные вероятности. Далее разберемся с кодами фиксированной и переменной длины, посмотрим как строится оптимальный код и почему он такой. В качестве дополнения визуально разбирается статистический парадокс Симпсона.

Теория информации дает нам точный язык для описания многих вещей. Сколько во мне неопределенности? Как много знание ответа на вопрос А говорит мне об ответе на вопрос Б? Насколько похож один набор убеждений на другой? У меня были неформальные версии этих идей, когда я был маленьким ребенком, но теория информации кристаллизует их в точные, сильные идеи. Эти идеи имеют огромное разнообразие применений, от сжатия данных до квантовой физики, машинного обучения и обширных областей между ними.

К сожалению, теория информации может казаться пугающей. Я не думаю, что есть какая-то причина для этого. Фактически, многие ключевые идеи могут быть объяснены визуально!

Читать дальше →
Всего голосов 24: ↑24 и ↓0 +24
Просмотры 17K
Комментарии 7

Визуальная теория информации (часть 2)

Математика *Машинное обучение *Статистика в IT
Перевод


Вторая часть перевода лонгрида посвященного визуализации концепций из теории информации. Во второй части рассматриваются энтропия, перекрестная энтропия, дивергенция Кульбака-Лейблера, взаимная информация и дробные биты. Все концепции снабжены прекрасными визуальными объяснениями.

Для полноты восприятия, перед чтением второй части, рекомендую ознакомиться с первой.

Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры 12K
Комментарии 0

Клод Шеннон: мастер на все руки, шутник и отец теории информации

Блог компании CloudMTS История IT Биографии гиков
Перевод
Кто же такой Клод Шеннон? Каждая комната в Entropy House, поместье неподалеку от Бостона, где Шеннон вместе с женой Бетти прожили более 30 лет, может ответить на этот вопрос по-разному. Одна комната, опрятная и аккуратная, украшена рядами наград, демонстрирующих многочисленные достижения хозяина дома. В их числе Национальная научная медаль, полученная им в 1966 году, Премия Киото — японский эквивалент Нобелевской — и Медаль Почёта IEEE.


Читать дальше →
Всего голосов 30: ↑30 и ↓0 +30
Просмотры 12K
Комментарии 1

Death Note, анонимность и энтропия

Информационная безопасность *Математика *
Перевод


В начале “Death Note” местный гениальный детектив по сути занят деанонимизацией: он знает только то, что убийца существует где-то на планете. Никаких улик тот не оставляет, но довольно быстро оказывается пойман. Вообще-то хабр не площадка для обсуждения аниме, но такая же охота на того-не-знаю-кого порой случается и в реальном мире — достаточно вспомнить Сатоши Накамото, Dread Pirate Roberts или Q. Так что под катом перевод статьи (анонимного, кстати говоря, автора) о том, насколько происходящее в этом сериале связано с реальной анонимностью и что у его героя пошло не так.

Читать дальше →
Всего голосов 181: ↑181 и ↓0 +181
Просмотры 64K
Комментарии 97

Криптосистема McEliece на базе LDPC кодов

Криптография *
Из песочницы

В страхе перед квантовым компьютером, способном взломать современные методы шифрования, криптографы всего мира продолжают поиски криптографических систем, устойчивых к атаке квантового компьютера. Одна из таких криптосистем была изобретена ещё в 1978 году и базируется на теории алгебраического кодирования. В данной статье приведён обзор кодовой криптографии на основе кодов с малой плотностью проверок на чётность (или просто LDPC кодов). Всех заинтересовавшихся прошу под кат.

Читать дальше →
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 2.8K
Комментарии 6

Логика: предикатная, формальная и сентенциальная. Кванторы и возникновение информатики

Программирование *Алгоритмы *Математика *История IT Научно-популярное
Tutorial

После развития логики работами Буля, Гёделя, Моргана, Лейбница и Фреге, на основе этой дисциплины создаётся новая — информатика. Программирование опирается на базовые законы и операции расширенной логики Аристотеля — предикатной логики, описательная способность которой намного выше. В статье последовательно будет рассмотрено развитие системы логики, её аксиомы, а также связи с информационными технологиями...

Изучить подробнее...
Всего голосов 19: ↑12 и ↓7 +5
Просмотры 23K
Комментарии 21

Вариация двухщелевого эксперимента

Научно-популярное Физика Квантовые технологии

Доброго времени суток, уважаемые читатели. Почти каждый школьник знаком с опытом, где свет описывается либо как частица или волна в зависимости от наблюдения. Начав изучать основы квантовой физики с замечательным преподавателем, уроки которого доступны на YouTube для всех желающих. Думаю над квантовым объяснением эффекта интерференции, мне пришло в голову некое рассуждение. Оно довольно простое и понятное, вполне вероятно, что я далеко не первый, кто пришел к нему или вовсе заблуждаюсь.

Читать далее
Всего голосов 14: ↑7 и ↓7 0
Просмотры 11K
Комментарии 61

Как измерить количество информации?

Блог компании Образовательные проекты JetBrains Алгоритмы *Математика *Научно-популярное

Мы ежедневно работаем с информацией из разных источников и поэтому имеем интуитивные представления о том, что означает, когда один источник является более информативным, чем другой. Однако далеко не всегда понятно, как это правильно определить формально. Не всегда большое количество текста означает большое количество информации. Например, среди СМИ распространена практика, когда короткое сообщение из ленты информационного агентства переписывают в большую новость, но при этом не добавляют никакой «новой информации». Или другой пример: рассмотрим текстовый файл с романом «Война и мир» в кодировке UTF-8. Его размер — 3.2 Мб. Сколько информации содержится в этом файле? Изменится ли это количество, если файл перекодировать в другую кодировку? А если заархивировать? Сколько информации вы получите, если прочитаете этот файл? А если прочитаете его второй раз?

По мотивам открытой лекции для Computer Science центра рассказываю о том, как можно математически подойти к определению понятия "количество информации".

Читать далее
Всего голосов 36: ↑36 и ↓0 +36
Просмотры 10K
Комментарии 20