Pull to refresh

Акинатор и математика

Artificial Intelligence
На Хабре уже несколько раз всплывала тема Акинатора, в том числе и с тегом не знаю как оно работает. Я на него наткнулся недавно и, разумеется, был восхищен. Затем, как вероятно и многим другим, мне в голову пришла мысль: «А как же это работает?» Ответа на этот вопрос я нигде не нашел, а потому задался целью написать аналогичную по функциональности программу, разобравшись по ходу дела что к чему.
Читать дальше →
Total votes 103: ↑95 and ↓8 +87
Views 55K
Comments 78

Применение Теории вероятностей в IT

Lumber room
Так сложилось, что я преподаю студентам IT-шных специальностей в Сибирском Федеральном Университете (СФУ) такой предмет, как «Теория вероятностей и математическая статистика». Из года в год я сталкиваюсь с таким явлением, что студенты не понимают, зачем и почему им учить эту дисциплину. Конечно, можно сказать, что математика тренирует мозг и развивает абстрактное мышление (которое весьма необходимо программистам). Но я считаю, что если подкрепить преподавание ТВ и МС яркими примерами (особенно применительно к IT), это даст необходимую мотивацию для изучения этого предмета.
Читать дальше →
Total votes 27: ↑20 and ↓7 +13
Views 3.3K
Comments 25

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Data Mining *
Sandbox
Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.

Читать дальше →
Total votes 37: ↑34 and ↓3 +31
Views 6.4K
Comments 25

Сжатие информации без потерь. Часть первая

Algorithms *
Доброго времени суток.
Сегодня я хочу коснуться темы сжатия данных без потерь. Несмотря на то, что на хабре уже были статьи, посвященные некоторым алгоритмам, мне захотелось рассказать об этом чуть более подробно.
Я постараюсь давать как математическое описание, так и описание в обычном виде, для того, чтобы каждый мог найти для себя что-то интересное.

В этой статье я коснусь фундаментальных моментов сжатия и основных типов алгоритмов.
Читать дальше →
Total votes 40: ↑36 and ↓4 +32
Views 70K
Comments 18

Сжатие информации без потерь. Часть вторая

Algorithms *
Первая часть.

Во второй части будут рассмотрены арифметическое кодирование и преобразование Барроуза-Уилера (последнее часто незаслуженно забывают во многих статьях). Я не буду рассматривать семейство алгоритмов LZ, так как про них на хабре уже были неплохие статьи.

Итак, начнем с арифметического кодирования — на мой взгляд, одного из самых изящных (с точки зрения идеи) методов сжатия.
Читать дальше →
Total votes 30: ↑28 and ↓2 +26
Views 21K
Comments 7

Эффективность передачи данных и теория информации

History of IT
Sandbox
Кодирование информации в простейшей форме зародилось при общении людей в виде жестовых кодов, а позднее в виде речи, суть которой кодовые слова для передачи наших мыслей собеседнику, далее наступил новый этап развития такого кодирования – письменность, которая позволяла хранить и передавать информацию с наименьшими потерями от писателя к читателю. Иероглифы – есть конечный алфавит, обозначающий понятия, предметы или действия, элементы которого в каком-то виде заранее оговорены людьми для однозначного «декодирования» записанной информации. Фонетическое письмо использует буквенный алфавит для внутреннего кодирования слов речи и так же служит для однозначного воспроизведения записанной информации. Цифры позволяют использовать кодовое представление вычислений. Но данные типы кодирования служили скорее для непосредственного общения, но людям требовалось так же передавать информацию на расстояние и достаточно быстро, как следствие появились простейшие системы телекоммуникаций.
Читать дальше →
Total votes 16: ↑15 and ↓1 +14
Views 20K
Comments 9

Методические заметки об отборе информативных признаков (feature selection)

Align Technology, R&D corporate blog Data Mining *R *
Tutorial
Всем привет!

Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.

В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.

Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.

image
Источник.

Читать дальше →
Total votes 20: ↑19 and ↓1 +18
Views 20K
Comments 6

«Кванты» здесь и сейчас (часть 3)

Popular science The future is here
В предыдущих статьях я кратко рассказал о предпосылках в развитии квантовой физики и информатике, которые привели к появлению квантовой информации и квантовым вычислениям как таковым. Сегодня же хотел рассмотреть подобным образом ещё одно направление, внесшее существенный вклад: теорию информации.
Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Views 11K
Comments 0

Схема разделения секрета Шамира

Information Security *Cryptography *Algorithms *Mathematics *
Translation
Рассмотрим сценарий, когда необходимо обеспечить безопасность банковского хранилища. Оно считается абсолютно неприступным без ключа, который вам выдают в первый же день работы. Ваша цель — надёжно сохранить ключ.

Предположим, вы решили всё время хранить ключ при себе, предоставляя доступ к хранилищу по мере необходимости. Но вы быстро поймёте, что такое решение на практике нормально не масштабируется, потому что всякий раз для открытия хранилища требуется ваше физическое присутствие. А как насчёт отпуска, которые вам обещали? Кроме того ещё более пугает вопрос: а что если вы потеряли единственный ключ?

С мыслью об отпуске вы решили сделать копию ключа и доверить её другому сотруднику. Однако вы понимаете, что это тоже не идеально. Удваивая количество ключей, вы также удвоили возможности кражи ключа.

Отчаявшись, вы уничтожаете дубликат и решаете разделить исходный ключ пополам. Теперь, вы думаете, два доверенных человека с фрагментами ключей должны физически присутствовать, чтобы собрать ключ и открыть хранилище. Это означает, что вору необходимо украсть два фрагмента, что вдвое труднее кражи одного ключа. Однако вскоре вы понимаете, что эта схема ненамного лучше, чем просто один ключ, потому что если кто-то потеряет половину ключа, полный ключ нельзя восстановить.
Читать дальше →
Total votes 72: ↑72 and ↓0 +72
Views 40K
Comments 24

Информационная энтропия хаоса

Python *Mathematics *Development for Windows *Popular science
Tutorial


Введение


На Habr достаточно много публикаций, в которых рассматривается понятие энтропии, вот только некоторые из них [1÷5]. Публикации были позитивно восприняты читателями и вызвали большой интерес. Достаточно привести определение энтропии, которое дал автор публикации [1]: «энтропия — это то, как много информации вам не известно о системе». Публикаций о явлении хаосе на Habr тоже достаточно [6÷9]. Однако связь энтропии и хаоса в обеих группах публикаций не рассматривалась.

Это объясняется тем, что различные области знаний выделяют разные виды меры хаоса:

  • информационная;
  • термодинамическая;
  • дифференциальная;
  • культурная.

Также описываются меры хаоса с учётом их специфики даже в одной из указанных областей довольно сложно.

Пробуя предельно упростить задачу, я решил рассмотреть связь информационной энтропии и хаоса на примере сходства областей прохождения от порядка к хаосу на диаграммах в виде точечных отображений и на графиках энтропийного коэффициента для этих областей.

Что из этого получилось Вы узнаете заглянув под кат.
Читать дальше →
Total votes 21: ↑17 and ↓4 +13
Views 6.1K
Comments 1

Визуальная теория информации (часть 1)

Mathematics *Machine learning *Statistics in IT
Translation


Перевод интересного лонгрида посвященного визуализации концепций из теории информации. В первой части мы посмотрим как отобразить графически вероятностные распределения, их взаимодействие и условные вероятности. Далее разберемся с кодами фиксированной и переменной длины, посмотрим как строится оптимальный код и почему он такой. В качестве дополнения визуально разбирается статистический парадокс Симпсона.

Теория информации дает нам точный язык для описания многих вещей. Сколько во мне неопределенности? Как много знание ответа на вопрос А говорит мне об ответе на вопрос Б? Насколько похож один набор убеждений на другой? У меня были неформальные версии этих идей, когда я был маленьким ребенком, но теория информации кристаллизует их в точные, сильные идеи. Эти идеи имеют огромное разнообразие применений, от сжатия данных до квантовой физики, машинного обучения и обширных областей между ними.

К сожалению, теория информации может казаться пугающей. Я не думаю, что есть какая-то причина для этого. Фактически, многие ключевые идеи могут быть объяснены визуально!

Читать дальше →
Total votes 24: ↑24 and ↓0 +24
Views 17K
Comments 7

Визуальная теория информации (часть 2)

Mathematics *Machine learning *Statistics in IT
Translation


Вторая часть перевода лонгрида посвященного визуализации концепций из теории информации. Во второй части рассматриваются энтропия, перекрестная энтропия, дивергенция Кульбака-Лейблера, взаимная информация и дробные биты. Все концепции снабжены прекрасными визуальными объяснениями.

Для полноты восприятия, перед чтением второй части, рекомендую ознакомиться с первой.

Читать дальше →
Total votes 19: ↑18 and ↓1 +17
Views 12K
Comments 0

Клод Шеннон: мастер на все руки, шутник и отец теории информации

CloudMTS corporate blog History of IT Biography of geeks
Translation
Кто же такой Клод Шеннон? Каждая комната в Entropy House, поместье неподалеку от Бостона, где Шеннон вместе с женой Бетти прожили более 30 лет, может ответить на этот вопрос по-разному. Одна комната, опрятная и аккуратная, украшена рядами наград, демонстрирующих многочисленные достижения хозяина дома. В их числе Национальная научная медаль, полученная им в 1966 году, Премия Киото — японский эквивалент Нобелевской — и Медаль Почёта IEEE.


Читать дальше →
Total votes 30: ↑30 and ↓0 +30
Views 12K
Comments 1

Death Note, анонимность и энтропия

Information Security *Mathematics *
Translation


В начале “Death Note” местный гениальный детектив по сути занят деанонимизацией: он знает только то, что убийца существует где-то на планете. Никаких улик тот не оставляет, но довольно быстро оказывается пойман. Вообще-то хабр не площадка для обсуждения аниме, но такая же охота на того-не-знаю-кого порой случается и в реальном мире — достаточно вспомнить Сатоши Накамото, Dread Pirate Roberts или Q. Так что под катом перевод статьи (анонимного, кстати говоря, автора) о том, насколько происходящее в этом сериале связано с реальной анонимностью и что у его героя пошло не так.

Читать дальше →
Total votes 181: ↑181 and ↓0 +181
Views 63K
Comments 97

Криптосистема McEliece на базе LDPC кодов

Cryptography *
Sandbox

В страхе перед квантовым компьютером, способном взломать современные методы шифрования, криптографы всего мира продолжают поиски криптографических систем, устойчивых к атаке квантового компьютера. Одна из таких криптосистем была изобретена ещё в 1978 году и базируется на теории алгебраического кодирования. В данной статье приведён обзор кодовой криптографии на основе кодов с малой плотностью проверок на чётность (или просто LDPC кодов). Всех заинтересовавшихся прошу под кат.

Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 2.8K
Comments 6

Логика: предикатная, формальная и сентенциальная. Кванторы и возникновение информатики

Programming *Algorithms *Mathematics *History of IT Popular science
Tutorial

После развития логики работами Буля, Гёделя, Моргана, Лейбница и Фреге, на основе этой дисциплины создаётся новая — информатика. Программирование опирается на базовые законы и операции расширенной логики Аристотеля — предикатной логики, описательная способность которой намного выше. В статье последовательно будет рассмотрено развитие системы логики, её аксиомы, а также связи с информационными технологиями...

Изучить подробнее...
Total votes 19: ↑12 and ↓7 +5
Views 22K
Comments 21

Вариация двухщелевого эксперимента

Popular science Physics Quantum technologies

Доброго времени суток, уважаемые читатели. Почти каждый школьник знаком с опытом, где свет описывается либо как частица или волна в зависимости от наблюдения. Начав изучать основы квантовой физики с замечательным преподавателем, уроки которого доступны на YouTube для всех желающих. Думаю над квантовым объяснением эффекта интерференции, мне пришло в голову некое рассуждение. Оно довольно простое и понятное, вполне вероятно, что я далеко не первый, кто пришел к нему или вовсе заблуждаюсь.

Читать далее
Total votes 14: ↑7 and ↓7 0
Views 11K
Comments 61

Как измерить количество информации?

Образовательные проекты JetBrains corporate blog Algorithms *Mathematics *Popular science

Мы ежедневно работаем с информацией из разных источников и поэтому имеем интуитивные представления о том, что означает, когда один источник является более информативным, чем другой. Однако далеко не всегда понятно, как это правильно определить формально. Не всегда большое количество текста означает большое количество информации. Например, среди СМИ распространена практика, когда короткое сообщение из ленты информационного агентства переписывают в большую новость, но при этом не добавляют никакой «новой информации». Или другой пример: рассмотрим текстовый файл с романом «Война и мир» в кодировке UTF-8. Его размер — 3.2 Мб. Сколько информации содержится в этом файле? Изменится ли это количество, если файл перекодировать в другую кодировку? А если заархивировать? Сколько информации вы получите, если прочитаете этот файл? А если прочитаете его второй раз?

По мотивам открытой лекции для Computer Science центра рассказываю о том, как можно математически подойти к определению понятия "количество информации".

Читать далее
Total votes 36: ↑36 and ↓0 +36
Views 9.5K
Comments 20