Comments / Profile of malkovsky / Habr

Николай Мальковский @malkovsky

https://t.me/+na-P5iLun605NTli

ProfileArticles14PostsNewsComments235

Топологическая сортировка

malkovsky Apr 27 2020 at 00:10

Хмм… скорее всего это ровно то, что рассказывается в статье, уверен, что это фольклор. Тарьян вообще кучу всего придумал, наиболее близкое по теме — это скорее всего алгоритм нахождения компонент сильной связности, если применить его к ациклическому графу, то он сделает на нем топологическую сортировку, а потом обнаружит, что все компоненты состоят из одной вершины.

0

Машинный перевод. От Холодной войны до наших дней

malkovsky Apr 16 2020 at 13:19

Очевидным недостатком данной модели является также то, что для подготовки корпуса, в котором сделано выравнивание, требуются очень значительные усилия, профессиональные переводчики должны не просто перевести текст, но и указать, какое слово является переводом какого.

А как же автоматическое выравнивание? Собственно решение от IBM

+1

Генерируем тексты песен цепями Маркова

malkovsky Mar 9 2020 at 09:19

Нет, сама по себе библиотека дает прекрасный результат.

Вы вообще на него смотрели? Сгенерированной фраза
«Но на тебе я ставлю точку, это точно, Вот мое тебе «пока». Я говорю тебе в ответ: Что еще тут непонятно?»
покрывается (с переходом на слове «тебе»)
«Но на тебе я ставлю точку, это точно, Вот мое тебе «пока». Я говорю тебе»
и
«тебе в ответ: Что еще тут непонятно?»
которые присутствует в обучающем тексте.

Результат очень слабый. Если хотите использовать марковские цепи для генерации текста, то хотя бы разберитесь в том, как работают нграмные языковые модели, но вообще вроде как не секрет, что нейронные сети сейчас вне конкуренции на подобных задачах

+2

MVP проекта CoVirus — онлайн карта заражения коронавирусом или «красная кнопка» в твоей руке

malkovsky Mar 7 2020 at 16:30

С начала февраля мониторю страничку от John Hopkins University
Новостей там нет, но в плане интерактивной карты она точно более информативна
Вышел на неё, кажется, по хабру

+2

Нормализация текста в задачах распознавания речи

malkovsky Mar 6 2020 at 09:24

Читать разумеется удобней, но тут предполагается текста для обучения систем распознавания речи, а там как раз предпочтительней, чтобы текст в точности соответствовал тому, что было произнесено, без сокращение и прочего

+3

Просто о простых числах (быстрый инкрементный метод вычисления простых чисел)

malkovsky Feb 13 2020 at 10:17

«для каждого очередного… помечает кратные ему» это как минимум вложенный цикл, это не похоже на O(1)

Внутренний цикл действительно не O(1), при нахождении простого k внутренний цикл делает (n-k*k)/k итераций. Вероятность, что число k является протым — это k/ln(k). Дальше немного базового матана и вы получаете оценку для базового решета Эратосфена O(n loglog(n)).

Есть более оптимальная реализация со сложностью O(n), о ней даже в прошлом году писали на хабре

P. S. alez13 Вы потратили время на изложения своего потока мыслей не удосужившись до это сделать минимальные действию по изучению вопроса (поискать в гугл, ну или на хотя бы на хабре). Это основная причина, почему вашу статью приняли в штыки.

0

Kaboom: необычный сапёр

malkovsky Feb 11 2020 at 10:42

Хмм, а почему в случае отсутствие безопасных клеток сделать так, что любая открытая небезопасная клетка не взрывалась?

+5

Теория антиряда

malkovsky Dec 18 2019 at 21:05

Если вы пишите статью, предполагая, что читать её будете только вы сами, но при этом выставляете на общее обозрение некоторому сообществу, то отрицательная оценка этой статьи — закономерный результат.

В интернете нет ни одного форума, участники которого были бы заинтересованы в получении результатов совместной научно-теоретической деятельности

Зачем же вы тогда тратите свое время на то, чтобы писать что-то на форуме в интернете?

поэтому мне нет смысла соблюдать эти формальности

Для людей, которые профессионально занимаются наукой (да и не только), эти формальности позволяют быстрей и эффективней находить полезную для них информацию.

0

Теория антиряда

malkovsky Dec 18 2019 at 19:45

Хотелось бы всё-таки рассчитывать на минимум компетенции участников обсуждения

В таком случае вам стоит освоить минимальную компетенцию автора публикации: из первого абзаца должно быть понятно, какова цель этой публикации, о чем она. Без этого условия публикацию не будут читать, какой бы прорывной и гениальной она не была (и это действует не только на хабре).

0

Как получить по индексу элемент из бинарного дерева за приемлемое время?

malkovsky Dec 10 2019 at 12:35

e-maxx.ru/bookz/files/cormen.pdf
исключительно в образовательных целях

0

Как получить по индексу элемент из бинарного дерева за приемлемое время?

malkovsky Dec 10 2019 at 12:33

Наверно я не с той стороны зашел. Тут уже достаточно много написали про то, что исходная задача (быстрый поиск порядковой статистики) вроде как решается добавлением дополнительного поля в узел, которое отслеживает суммарный размер поддерева с корнем в этом узле, в том числе и обычное декартово дерево. Неявное декартово дерево я больше привел в качестве примера, где эта величина вычисляется и используется.

0

Как получить по индексу элемент из бинарного дерева за приемлемое время?

malkovsky Dec 9 2019 at 10:53

Советую обратить внимание на Декартово дерево (treap, cartesian tree). В разделе про «неявные декартовы деревья» описана реализация массива со вставкой в середину за O(log(n)). В том варианте, который там предложен, нет возможности доступа по ключу, только по индексу, но не думаю, что это сложно будет сделать.

Вообще, как тут уже писали, кажется, что ваша задача решается любым деревом путем хранения в вершине размера поддерева.

P. S. Чтобы понять, о чем вообще эта статья, нужно заглянуть под кат. Не надо так писать. Публикация — это не просто изложение потока мыслей.

+1

Конспект по «Машинному обучению». Математический анализ. Градиентный спуск

malkovsky Nov 4 2019 at 11:27

выжимка основных результатов

Я могу понять, зачем в МО может понадобится знание теоремы Ферма, но учитывая то, что вы про градиентный спуск ничего не доказывали, то её наличие в статье не особо понятно. А вот зачем в статье теоремы Ролля и Лагранжа? Они не понадобятся даже если кто-то, прочитав эту статью, решит разобраться в обосновании градиентного спуска или его основных модификациях.

Я думаю, это удобно: зайти на Хабр и быстро посмотреть

Представьте, что каждый пользователь хабра по прохождению какого-нибудь курса будет писать по 1-2 статьи-конспекта, думаете это будет удобно?

P. S. Мне кажется, что сам конспект довольно хорош, но мне непонятно, зачем вы его пишете здесь на хабре.

+1

Подробный разбор симплекс-метода

malkovsky Nov 4 2019 at 10:37

Кажется вы путаете симплекс-метод для задачи ЛП (о котором идет речь в статье) с методом Нелдера-Мида
Что примечательно — на википедии по этому поводу специальный эпиграф, видимо часто путают

This article is about the linear programming algorithm. For the non-linear optimization heuristic, see Nelder–Mead method.

Not to be confused with Dantzig's simplex algorithm for the problem of linear optimization.

0

Подробный разбор симплекс-метода

malkovsky Nov 3 2019 at 10:16

Статья хорошая, проделана довольно большая работа, однако вынужден согласиться с x67 — не совсем понятно, чем ваша статья лучше описаний в методичках (к слову я рекомендую первоисточник — книгу Д. Данцига по линейному программированию), чем она их дополняет?

Почему вы ничего не написали про то, как найти начальный базисный план? Вы сами писали симплекс-метод, так что не могли не натолкнуться на эту проблему. К примеру в python/scipy реализован двухфазный симплекс-метод, который в первой фазе как раз ищет начальный базис. Вообще для демонстраций он очень удобен, так как выдает всю последовательность точек, в которых побывал, можно заодно с ним и сравнение сделать.

Еще, кажется, у вас половина формул написаны нормальным TeX-шрифтом (видимо через встроенный в хабраредактор?), половина скриншотами формул не очень хорошего качества, если нужно, могу помочь это поправить.

Возможно вам будет интересно посмотреть (а может даже и что-нибудь оттуда взять) на мой черновик, который я использовал для анимаций траекторий разных оптимизационных методов.

Надеюсь, вы учтете это, когда соберетесь писать еще статьи. Удачи!

0

Градиентный спуск по косточкам

malkovsky Oct 23 2019 at 14:25

По 3) есть один важный момент: на самом деле в ML используются стохастический градиентный спуск и его модификации, обычный градиентный спуск в ML бесполезен. Просто оказывается гораздо эффективней разбить данные скажем на 100 частей и сделать 100 итераций градиентного спуска учитывая на каждом шаге только одну часть нежели сделать одну итерацию на всех данных. В обоих случаях вычислительные затраты практически идентичны.

0

Свойство симметричности отношения коинтеграции

malkovsky Jul 1 2019 at 13:40

Когда я только начинала свои исследования, мне казалось, что можно взять рынок, засунуть его в «мясорубку» статистических тестов и на выходе получить отфильтрованные вкусные ряды. К сожалению, сейчас я вижу, что эта концепция статистического брутфорса не сработает.

Вы не первая и не последняя. «Тот, кто считает, что математика сложна, просто не осознает всю сложность жизни» (с).

Если вам интересно мнение человека, который немного в математике разбирается, то, как мне кажется, ваша проблема в том, что вы не осознаете, что статистические методы — это инструменты. Если вы пытаетесь съесть суп молотком — это не проблема молотка.

Сейчас я понимаю, что европейские и американские учёные мало чем отличаются от наших, разница только в масштабе шарлатанства. Наши учёные сидят в замке из слоновой кости, пишут какую-то ахинею и получают за это гранты размером 500 тысяч рублей. На Западе сидят примерно такие же учёные в примерно таком же замке из слоновой кости, пишут примерно такую же ахинею и получают за это «нобелевки» и гранты размером 500 тысяч долларов. Вот и вся разница.

А вы знаете, что гражданин СССР тоже получил «нобелевку» по экономике? И его работы признают не только в экономике. В общем, такие заявления следует делать после того, как получите свою «нобелевку», а лучше никогда, ну или хотя бы не на хабре.

+2

Сортировка: определяем лучший алгоритм

malkovsky May 28 2019 at 19:49

Вы совершенно правы, действительно так можно делать, но стоит учитывать, что снизив размер словаря с 256 до 16 указанным образом, длина каждого слова увеличится в два раза. Соответственно, чтобы снизить размер словаря до 2 нужно увеличить размер каждой строки в log_2(«размер словаря») раз, что не улучшает асимптотику. Более того, поразрядная сортировка — это тоже самое, что сортировать числа как строки с помощью префиксного дерева. Сортировка подсчетам действительно линейна по количеству сортируемых чисел, но в ней проходит несколько стадий, количество которых зависит от количества цифр в числах, т.е. зависит от самих сортируемых чисел.

P. S. Я же вроде бы не пытался принизить значимость trie, наоборот я как раз в работе использую очень много структур, завязанных на trie, и почти не использую хеши помимо стандартных хеш-таблиц. Мой посыл был в том, что такой экзотический способ сортировки может действительно быть эффективен в отдельных ситуациях.

Думаю, за красочным примером того, что может произойти, если слишком привязываться к любимым методам и алгоритмам, далеко идти не придется.

+1

Сортировка: определяем лучший алгоритм

malkovsky May 28 2019 at 16:32

Я лишь указал на возможность использования хешей в случае, если нам нужно сравнивать строки много раз, понятно, что trie в подавляющем большинстве случаев предпочтительней.

Допустим мы сортируем n строк длины L над алфавитом размера A.
1) Использование обычный сортировки со сравнением хешами требует от нас предподсчета за O(nL) и последующей сортировкой за O(n log(n)log(L))
2) При использовании trie построение происходит за O(nL * f(A)), где f(m) — сложность добавление в словарь размера, который сопоставляет некоторым буквам алфавита переходы в дереве. Наверно здесь можно считать, что это O(1) за счет хеш-таблиц. Дальше нужно отсортировать переходы в каждом узле O(T*log(d)), где T — итоговое число узлов в trie, а d — максимальная степень (учитываем, что суммарное количество сортируемых элементов — это Т), в худшем случае O(nL log(A)), вывод будет тривиальным за O(T). Можно обойтись без хеш-таблиц и сортировать сразу на месте с помощью бинарных деревьев или кучи, оценка худшего случая от этого не изменится, т.е. все еще O(nLlog(A)), но скорее всего будет лучше, так как trie эффективно во многом благодаря тому, что T сильно меньше nL.

В итоге получаем O(n log(n)log(L)) против O(nL log(A)), поправьте меня, если я где-то обсчитался. Вторая оценка более грубая (T заметно меньше nL, «средняя степень» заметно меньше А), но даже при всем при этом совершенно не очевидно, что trie будет эффективней например при сортировке слов, составленных из иероглифов, т.е. когда размер словаря заметно больше длины слова.

+1

Сортировка: определяем лучший алгоритм

malkovsky May 28 2019 at 12:14

Вообще-то можно: но нужно посчитать не один хеш, а хеши всех префиксов. Для полиномиального хеша это можно сделать за линейное время от длины строки. Дальше бинарным поиском найти позицию, где хеши перестают совпадать, если коллизий хеша не произошло, то это означает, что мы нашли позицию, что до нее все символы совпадают, а символы в этой позиции различаются — по нему и надо сревнивать. Итого — предподсчет за линейное время с линейной доп. памятью дают возможность делать сравнение за логарифм от длины меньшей из строк. Ну и не стоит забывать, что могут произойти коллизии, не совсем понятно, что делать в этом случае

0

1 2 ...

10