Comments / Profile of cpud47 / Habr

User

ProfileArticlesPostsNewsComments95

Почему E = mc²: подробное объяснение с минимумом формул и максимумом смысла

cpud47 7 hours ago

В определённом смысле, энергия — это выдумка, математический трюк. Она не имеет физического смысла. Это просто не более чем один из интегралов движения. Поэтому нет, скорость не порождает энергию.

Вообще, подход с "причинностью" имеет смысл только в рамках простой школьной физики. И то, там большая часть формул являются простыми математическими следствиями определений.

В более серьёзном рассмотрении, "причинность" и формулы становятся слабо связанными. Современные физические системы часто описываются просто их гамльтонианом, или лагранжианом. Попробуйте к ним применить тот же подход с "причинами и следствиями". См принцип наименьшего действия

+1

Главный эффект Манделы в мире программистов — сколько байт в мегабайте

cpud47 Sep 29 at 21:01

Если это хороший шифр а поток данных достаточно короткий, то шифротекст практически неотличим от шума. Это, собственно, один из основных критериев оценки алгоритмов шифрования.

Но в целом, это всё упирается в проблему, что очень плохо умеем оценивать количество информации в сообщении. Для хоть сколько-нибудь серьёзной точности требуется слишком много данных и слишком много вычислительног времени.

0

Главный эффект Манделы в мире программистов — сколько байт в мегабайте

cpud47 Sep 29 at 20:55

Но если записывать угол наклона монеты при касании поверхности, то размер одного "информационного" бита станет равен нескольким логическим битам?

Нет, не станет, разумеется. Это вопрос оптимальности кодирования всего лишь.

Да, но это очень далеко от информации в компьютерах и накопителях данных.

Почему? Просто при обработке в компьютерах зачастую не фиксируют распределение вероятностей. Ну и схему записи не всегда оптимальную выбирают. Подход у учёту информации остаётся всё тот же.

0

Главный эффект Манделы в мире программистов — сколько байт в мегабайте

cpud47 Sep 29 at 13:24

Эта формула не для вычислений количества информации.

Буквально для вычисления (если мы откуда-то знаем распределение, разумеется). И есть вполне себе утверждения и теоремы, которые используют количественные значения информации.

Например, известно, что любого префиксного кода средняя длина кодировки для символа не может быть меньше средней информации в символе (оба средних в смысле матожидания).

Стандартизировать эту информацию невозможно.

Затрудняюсь понять что Вы имеете ввиду. Это вполне себе стандартное определение (см P.S.).

"Физический смысл" бита — это информация, которая содержится в событии, что выпал орёл при броске идеальной монетки

Ну вообще, современное определение информации пришло к нам из продвинутой статистике. Если неформально, то там рассматривается модель, когда у нас есть априорные вероятности (до "эксперимента"), эксперимент завершается событием A; и в зависимости от произошедшего события пересчитываться апостериорные вероятности. И информация в событии A, это количественная величина, которая характеризует насколько сильно могут выродиться апостериорные вероятности, если произошло это событие.

В такой постановке, когда мы подбрасываем монетку, то в событии "выпал Орёл" содержится один бит информации.

Продолжая тейк про теорию кодирования, если у нас есть эксперимент по подбрасыванию n монеток, то для точного описания исхода этого эксперимента требуется n бит.

P.S. посыпаю голову пеплом: я указал формулу для энтропии, а не для информации. Информация - это просто -log(p).

0

Используем Rutoken Lite для шифрования

cpud47 Sep 27 at 22:05

Даже если счётчик у Вас 32-битный и даже если он вообще не предсказуемый (то есть мы вообще не знаем когда включился МК и когда была выполнена генерация), то просто полный перебор счётчика — это 1-10 часов на средненьком компе. Вообще не годиться.

Для целей криптографии хочется иметь хотя бы 100 бит данных. От источника времени Вы столько данных не получите.

А вот движение мыши - в теории непредсказуемо, но оно тоже ограничено параметрами экрана, т.е. количество вариантов конечно, и скорее всего из всего их массива будет только "влево-вправо по дуге несколько раз".

Берут не движения мыши, а младшие биты её координат. Т.е. даже если Вы будете водить просто вверх-вниз, длина у этих движений будет плавать. Вот из этого плавающего шума и извлекают энтропию

0

Главный эффект Манделы в мире программистов — сколько байт в мегабайте

cpud47 Sep 27 at 09:12

"Единица измерения информации" - это бред по определению. Информация - это не метрологическая сущность

Нет, информация имеет вполне количественный характер, в смысле теории информации. Там она определяется как I(A) = - P(A) \log P(A). Другое дело, что её нельзя напрямую измерить — только оценить статистическими методами.

И вот бит в терминах теории информации вполне себе "единица измерения информации" и соответствует использованию в формуле выше двоичного логарифма. Для троичного логарифма — трит и т.д.

"Физический смысл" бита — это информация, которая содержится в событии, что выпал орёл при броске идеальной монетки.

0

Обзор математики для начинающего ML-инженера

cpud47 Sep 6 at 13:13

Гильбертово пр-во — обобщение Евклидова

Не совсем. Евклидовое пространство классически требует конечномеронсти. Гильбертово пространство классически требует бесконечномерности и сепарабельности. Не надо их смешивать.

От того, что kernel method мы работаем с пространством функций, оно не становиться гильбертовым. Обычно там всё же выбирается конечный базис и получает евклидово пространство.

здесь упоминания Гильбертовых пр-в возникают

Потому что, при достаточно высокой размерной пространства имеет смысл сделать предельный переход решить задачу там, а потом апроксимировать решение конечным приближением.

То есть вместо того, чтобы ограничивать конечный набор базисных функций, берут бесконечный набор, пополняют его и получают гильбертово пространство. При помощи приёмов функана обрабатывают задачу уже в гильбертовом пространстве. И после этого пытаются обратно вернуться к конечном набору (возможно другому).

берут какой-нибудь подход, алгоритм, метод, шлепают его

Так я не спорю. Но от этого не надо использовать термины почём зря. Тем более, в статье "с основами".

0

«Парадокс сестёр», который только кажется простым, и его неожиданное решение

cpud47 Sep 5 at 22:53

Один бросок монетки - это не статистика, это единичный эксперимент, или единичное событие. Статистика такие события не рассматривает. Статистика рассматривает большое число событий.

Вполне себе статистика. Есть даже вполне практические методы статистических оценок по одному измерению (в частности, например, можно оценить и среднее и дисперсию двумерного нормального распределения всего по одному измерению).

Другой момент, что не стоит забывать о смысле полученных чисел и о том, как интерпретировать результаты.

Но если говорить про основы статистики, то там именно единичные эксперименты и рассматривают. Просто по той причине, что любую выборку всегда можно представить как выборку из одного элемента (с немного другим семейством распределений — но тем же параметром)

+1

Обзор математики для начинающего ML-инженера

cpud47 Sep 3 at 22:03

Думаю, ключевая идея в том, что почти любой kernel method — это про работу в Гильбертовом пространстве признаков (как, например, с SVM)

Там нет Гилбертовых пространств обычно. Просто обычные Евклидовы пространства. Замечу, что классически Гилббертово пространство определяется как бесконечномерное сепарабельное пространство со скалярным произведением. Т.е. Гильбертовость всё подразумевает бесконечномерность

0

Обзор математики для начинающего ML-инженера

cpud47 Sep 3 at 21:51

Функция потерь может быть только выпуклой и другие не годятся

Чаще всего, она таковой не является. В смысле, разумеется, функция потерь, как функция от фактически ответов является выпуклой. Но вот сами функции-решения портят картинку. И поэтому функции потерь, как функции от весов выпуклыми обычно не являются.

Но вот это нужно доказывать, что в этом пространстве можно корректно определить метрику.

В любом конечномерном пространстве можно определить норму и расстояние. Доказывать здесь нечего.

Можно показывать, что то, либо иное расстояние является более или менее удобными для Вашей задачи. Но это не делает эти расстояния неправильными (в математическом, формальном смысле).

Ну и довольно часто расстояние выбирают "хоть какое-то", потому что цель не в том, чтобы определить расстояние, соответствующее семантике — цель в том, чтобы так преобразовать входные данные, что семантическое расстояние будет соответствовать расстоянию между образами. Поэтому выбор "плохого" расстояния, не делает задачу нерешаемой, он просто усложняет её решение.

А ведь многие пишут "берем соседнюю точку" или "окрестность точки", но метрику не определяют, подразумевая Евклидову.

Вообще, "окрестность точки" подразумевается в смысле топологии. Которая, в свою очередь, часто индуцируется метрикой, нормой, или скалярным(внутренним) произведением.

Скалярное произведение, как и расстояние "по теореме пифагора" действительно является стандартным для векторов в смысле наборов чисел. Но есть и другие варианты.

Ну и слабая независимость случайных величин...

Можно доказать ЦПТ для случаев когда ковариация между случайными величинами достаточно маленькая (насколько — нужно брать конкретные теоремы).

Как и можно доказать, что ЦПТ работает для разнораспределённых случайных величин (при выполнении некоторых условий, которые грубо говоря сводятся к тому, чтобы наши случайные величины не слишком быстро убегали в бесконечность).

+1

«Парадокс сестёр», который только кажется простым, и его неожиданное решение

cpud47 Sep 3 at 14:48

Нет, не так.

Продолжая Вашу аналогию с домами. Допустим, есть квартал, где могут жить только семьи у которых в семье ровно два ребёнка и хотя бы один из них девочка. Какая вероятность, что случайная семья из этого квартала будет иметь обоих детей — девочек.

я разворачиваюсь и ухожу с порога домов, где первым узнаю про мальчика

Эта вероятность всё ещё 1/2, т.к. словами это будет звучать как "какова вероятность того что оба ребёнка девочки, если известно, что первый из них — не мальчик".

Ну или вот аналогия с шарами:

Допустим игра: участник тянет в слепую шар сначала из одного мешка, потом из второго. В каждом мешке равное количество чёрных и белых шаров. Если оба шара чёрные - участник проиграл. Если хоть один из них белый — победил. Какова вероятность что победитель вытащит два белых шара — это эквивалентно "какова вероятность, что участник вытащил два белых шара, если мы достоверно знаем(среди тех), что он победил(вытащил хоть один белый шар)"

0

Рядов Тейлора не существует

cpud47 Sep 3 at 13:58

В ФКП сходится алгебра над элементарными множествами (количествами), алгебра над треугольником, и - соответствнно - геометрия. Люблю ТФКП. :)

Ну так я не зря говорил про анализ. Там, по сути своей, алгебры больше чем анализа. Поэтому алгебраически там можно много чего интересного найти. А вот с точки зрения анализа там уже почти всё решено (аналогично как решение слау в алгебре).

0

Рядов Тейлора не существует

cpud47 Sep 3 at 13:54

Емнип, голоморфность — она про сохранение углов между кривыми (при переходе к образу).

Хотя из-за того, что дифференцируемость в области, голоморфность и аналитичность эквиваленты друг другу, эти понятия часто используются взаимозаменяемо.

0

Рядов Тейлора не существует

cpud47 Aug 30 at 20:40

Вы просто выбираете удобные задачи

Функции комплексного переменного не только ведут себя более "регулярно", но и позволяют, в некоторой степени, установить поведение соответствующих функций действительного переменного.

Аналитические функции (что вещественные, что комплексные) ведут себя "более регулярно". Другое дело, что аналитичность у ФКП проверяется сильно проще, но на этом всё.

Как только Вы выйдете за рамки удобных (аналитических) функций, всё сразу становится нерегулярно (а ТФКП превращается в тыкву). И если Вам кажется, что неаналитические функции неинтересны, то это сильно не так.

Например, есть важные теоретические конструкции, которые опираются на существование бесконечнодифференцируемых функций, которые не являются аналитическими (например, интеграл по многообразию).

Анализ не становится красивым, от того что Вы затребуете кучу свойств от своего объекта изучения. Анализ красив именно когда Вы требуете минимум свойств. В этом смысле, ТФКП — одна из самых скучных областей анализа (как раз ввиду своей регулярности).

+1

Девиртуализация в C++, компиляторах и вашей программе

cpud47 Aug 19 at 21:42

Не очень понятно зачем. Если девиртуализацию сделать получилось — то её имеет смысл сделать. А если не получилось, то она просто некорректно.

Можно, конечно, заменять виртуальный вызов на if по vtable. Но для этого нужна статистика, а какие здесь vtable-ы вообще случаются. Это либо jit, либо pgo.

0

Криптография для котиков или почему открытый ключ не может расшифровать сообщение

cpud47 Aug 19 at 21:18

На практике, такие шифры использовались до изобретения компьютеров и вроде как не особо поддавались взлому.

Но вообще говоря, тут есть переполненная статистика, а потому от частотного анализа должны быть результаты. Насколько реалистично использовать эти результаты для взлома шифра — не подскажу.

0

Криптография для котиков или почему открытый ключ не может расшифровать сообщение

cpud47 Aug 19 at 21:12

Ну, вообще, по-хорошему, любой ключ должен быть одноразовым. Если мы хотите зашифровать несколько сообщений один ключом, то мы мысленно дописываем одно сообщение после другого и всё равно шифруем только один раз.

В этом смысле, размер "датасета", как Вы выразились — это просто длина шифруемого сообщения. И важным параметрам для шифра является именно "какой длины сообщение можно им зашифровать без риска для взлома".

Переиспользование ключей для нескольких разных сообщений в лучшем случае является сомнительной практикой, а в худшем просто напросто влечёт к прямому взлому. Поэтому нет особого смысла об этом говорить(если мы о хороших практиках, разумеется).

Поэтому в классической постановке, без нарушений условий эксплуатации одноразовый блокнот не поддаётся частотный анализу. А если же мы допускаем нарушения условий эксплуатации, то гораздо более эффективно воспользоваться человеческим фактором...

0

Криптография для котиков или почему открытый ключ не может расшифровать сообщение

cpud47 Aug 19 at 08:46

Чтобы применить частотный анализ, Вам нужны закономерности, перекошенная статистика в шифротексте.

Для шифра Цезаря очевидно статистика совпадает со статистикой открытого текста — просто дешифруется. Для шифра Виженера с ключевой фразой длины K можно рассмотреть статистику на каждом K-ом символе шифротекста и открытого текста — они, очевидно, совпадают.

В одноразовом блокноте у нас шифротекст распределен равномерно. Ну можно рассматривать его как шифр Виженера с бесконечным периодом. Каждый символ шифруется независимо от других, по независимому ключу. А по одному символу шифротекста статистику тяжело построить.

Или с другой стороны: нет даже способа проверить, что задданный ключ можно использовать для расшифрования — при расшифровке мы можем получить абсолютно любой текст заданной длины.

Поэтому нет, одноразовый блокнот не поддаётся статистическому анализу (если он действительно одноразовый и если он истинно случайный (чего само по себе сложно добиться)).

+1

Криптография для котиков или почему открытый ключ не может расшифровать сообщение

cpud47 Aug 18 at 21:34

А есть ли шифры, которые нельзя математически нельзя расшифровать без закрытого ключа или иной секретной информации?

Ассиметрический шифр всегда можно взломать, если потратить достаточно много времени.

Для этого достаточно перебрать все возможные сообщения, все возможные закрытые ключи и все возможные значения источников случайности. Таким образом, рано или поздно, мы найдём а) наш шифротекст б) закрытый ключ (или несколько) который расшифровывает все сообщения (которые мы перебрали). (Разумеется сообщений для перебора бесконечно много, но мы можем перебрать все сообщения шифротексты которых подходят по длине искомого шифротекста — это можно сделать за конечное время).

0

Криптография для котиков или почему открытый ключ не может расшифровать сообщение

cpud47 Aug 18 at 21:26

Даже если условно каждой букве будет назначен случайный символ (книжный шифр/Виженера), то частотным анализом можно будет взломать.

Если действительно случайный символ, то частотный анализ не сработает.

+1

1