Комментарии / Профиль malkovsky / Хабр

Николай Мальковский@malkovsky

t.me/a_zachem_eto_nuzhno

7,1

Рейтинг

100

Подписчики

ПрофильСтатьи22ПостыНовостиКомментарии316

Быстрые и компактные структуры данных для RMQ

malkovsky 3 июл в 22:57

Нет, предподсчет линейный, разве что формально для спарс таблицы используется размер блока n/C, но это легко исправить на n/log n как. Запросы за O(log n), но вроде понятно из построения, что высота дерева очень маленькая.

20-30 нс -- это достигается в первую очередь из оптимизацией покрывающим интервалом. Вообще оптимизация довольно естественная, сам до неё дошел, но потом обнаружил в статье у поляков (но больше нигде не видел). По сути большая часть запросов получается из спарс таблицы, вот тут https://github.com/Malkovsky/pixie/blob/main/include/pixie/rmq.h есть подробные замеры, там видно, что короткие запросы не покрываются этой оптимизацией, поэтому дольше отрабатывают (у поляков в статье тот же эффект).

Как оно сравнивается с

Для замеров достаточно реализовать вот этот интерфейс

Почему интервью для разрабов — такое непроходимое говно, и что с этим делать?

malkovsky 3 июл в 11:16

Я скорее согласен с основными тезисами статьи, но хотел бы прокомментировать вот это

Исключение: компании, создающие реально алгоритмически-сложные технологии, например, свои СУБД
Например, крутящих венгерский алгоритм, шардированный по гео, под нагрузкой, и обернутый какими-то сложными данными. Или строящих какой-то супер-нагруженный пользовательский экран с хитрой логикой, перемазанной кэшами

Понимание сортировки пузырьком и умение написать венгерский алгоритм -- вещи разного порядка сложности. Задачи уровня leetcode medium ничего не скажут о вашей потенциальной полезности в проекте по улучшению движка для бд, так что с этим исключением я совсем не согласен, в указанных случаях скорее есть смысл смотреть на цвет на codeforces.

Никакого другого глубокого смысла в него не заложено.

Я вот считаю, что смысл есть, это сильно понижает вероятность того, что при не совсем обычном перекладывании джейсона разраб напишет код, который будет прекрасно проходить тесты, а потом сломает прод из-за того, что там был немасштабируемый алгоритм. Есть даже частый вариант этого эффекта "accidently quadratic"

Сингапур, наука и никакой жвачки: как двое петербургских студентов съездили на крупнейшую конференцию по ИИ

malkovsky 20 июн в 16:25

Ребят, а не знаете, были ли попытки сделать нейросетевую функцию в качестве нижней границы в A*?

Я выпустил нейросеть в реальный мир — и стало не смешно

malkovsky 3 июн в 10:51

Промпт на всех один: мизантроп-матерщинник, который зовёт людей кожаными мешками

вроде всё логично

GLM-5.1 придумал для меня новый алгоритм

malkovsky 18 мая в 06:40

Перепроверил, полностью используемый вариант на AVX-2 для вычисления сумм выглядит вот так

    __m256i ps = _mm256_shuffle_epi8(vdelta, nibbles);
    ps = _mm256_add_epi8(ps, _mm256_slli_si256(ps, 1));
    ps = _mm256_add_epi8(ps, _mm256_slli_si256(ps, 2));
    ps = _mm256_add_epi8(ps, _mm256_slli_si256(ps, 4));
    ps = _mm256_add_epi8(ps, _mm256_slli_si256(ps, 8));

    __m128i ps_lo = _mm256_castsi256_si128(ps);
    __m128i ps_hi = _mm256_extracti128_si256(ps, 1);
    __m128i carry = _mm_set1_epi8((int8_t)_mm_extract_epi8(ps_lo, 15));
    ps_hi = _mm_add_epi8(ps_hi, carry);
    ps = _mm256_inserti128_si256(_mm256_castsi128_si256(ps_lo), ps_hi, 1);

Тут мой косяк как автора, а не AI, дополню статью. По поводу pdep AI при анализе всю ту же информацию про Zen 2 выдал и предлагал фолбэк на несколько умножений. Здесь есть еще один нюанс касающийся и 128-битных регистров: excess принимает значения [-128; 128] и не влезает в байт, поэтому надо что-то с этим делать, но и тут как-будто всё аккуратно сведено

GLM-5.1 придумал для меня новый алгоритм

malkovsky 17 мая в 19:17

Прошу прощения за неточность, Исходный вариант где использовался pdep, работал с SSE, не AVX. Соответственно проблемы с переносом по 128битым лейнам там не было

GLM-5.1 придумал для меня новый алгоритм

malkovsky 17 мая в 19:06

Она не переносит биты/байты через границу 128 бит. Это значит, что на 16-м байте (начало старшего лейна) префиксная сумма начнется заново с нуля, полностью проигнорировав накопленный excess из младшей половины регистра.

Я перепиоверю, но вроде как с этим проблемы не было, разве что в варианте с AVX-512.

ИИ здесь не изобрёл ничего нового (это классический Broadword Computing / Parallel LUT, который лет 10 используется в биоинформатике и парсерах вроде simdjson)

Иллюзия новизны комбинации vpshufb как параллельного LUT для 4-битных нибблов, это стандартный паттерн (так работает, например, подсчет popcount по алгоритму Мулы или валидация строк).

С этим я и не спорю, это прям даже в промпт было “применить именно этот метод, потому что он универсальный”

ИИ просто взял готовый паттерн из одной области (парсинг/сжатие) и перенёс в задачу RMQ/LCA

Когда вы комбинируете уже известные алгоритмы неизвестным до этого способом, разве вы не получаете новый алгоритм? Тогда болтшинство научных статей не содержат новизны

Код требует полной переработки межлейнового обмена и избавления от скалярного pdep в пользу чистого SIMD-маскирования.

Исходный вариант применялся к блокам по 64 бита и указанной проблемы быть не должно. Впоследствии пдеп я убрал и писал об этом в статье

Вариация на тему Рида-Соломона

malkovsky 10 мая в 16:24

Насколько я понимаю, основной подход к реализации этого умножения оснван на использовании табличного метода — либо простая таблица всех попарных умножений, либо совместное использование таблицы логарифма/степени базового элемента. К сожалению, табличные методы не векторизуются на esp32-s3

Эти таблицы не векторищуются нигде, но специально под симд есть табличный аналог fma https://www.ssrc.us/media/pubs/c9a735170a7e1aa648b261ec6ad615e34af566db.pdf

Можно глянуть реализацию вот тут https://github.com/catid/gf256

А у вас на принимающей стороне известно какие данные испортились? Если да, то берите вот эту реализацию: лучше в открытом доступе не найдёте, а чтобв сделать быстрее придётся много математики разобрать https://github.com/catid/leopard

Я удалил backpropagation из нейросети. Она обучилась методами XIX века

malkovsky 21 апр в 15:17

Плюс в карму за то, что написали про Поляка. В общем то большая часть рассуждений в статье как раз сводится к его идеям и, собственно, методу тяжёлого шарика откуда термин “momentum” и возник в контексте градиентного спуска.

Я бы отдельно отметил, что у Поляка (да и в последующем в теории оптимизации) инерция возникает совершенно не как средство выхода из локального минимума. Наоборот инерция ускоряет сходимость для плохо обусловленных функций и работает в основном для локального анализа. Упрощенный анализ можно есть тут. Про то, что момент помогает бороться с локальными минимумами – это миф, по крайней мере никакого математического обоснования этого я никогда не видел (именно математическое обоснование, а не размахивание руками с картинками). Если знаете где такое есть – с удовольствием почитаю!

Поиск по коду: почему просто проиндексировать все коммиты — плохая идея

malkovsky 11 апр в 14:48

Я сейчас веду проект по succinct структурам, у меня есть студенты, которым нужна практика, но нет реальных бизнес задач, под которое это можно было бы подвязать. У меня ощущение, что для поисковых задач может быть пересечение, не хотели бы обсудить?

Semantic terminal: AI-генератор однострочников по описанию на естественном языке

malkovsky 11 апр в 07:31

Каждый вызов – это новая сессия, в которой только системный промт + текущий запрос. В этом и был смысл, что больше ничего нет. Если хочется, чтобы учитывался контекст сессии – cursor, roo code, opencode, claude code итп

Semantic terminal: AI-генератор однострочников по описанию на естественном языке

malkovsky 10 апр в 20:10

Ничего не делаю – мне такого ответа ни разу не было. Дизайн утилиты предполагает, что вы сначала генерируете команду, смотрите на неё, а потом выполняете. Есть возможность это пропустить, но для этого нужно целенаправленно указать флаг и тут уже сами виноваты.

Отдельно отмечу промт

Semantic terminal: AI-генератор однострочников по описанию на естественном языке

malkovsky 10 апр в 19:09

Закиньте в issues!

Поиск по коду: почему просто проиндексировать все коммиты — плохая идея

malkovsky 10 апр в 18:53

Подскажите, я так и не понял, а что у вас за базовый индекс то? Если вы ищете строки, разве там не должно быть чего-то в духе суффиксного дерева?

Аудит сайта, который навайбкодил CEO Y Combinator

malkovsky 6 апр в 12:25

C недавних пор сам тоже так делаю. Технически часть с копированием иллюстраций можно пропустить.

GDB для тех, кто думает, что отладка — это фантастика

malkovsky 30 мар в 14:37

Это верно, но статья была про то как использовать gdb из консоли, а не в qtcreator.

GDB для тех, кто думает, что отладка — это фантастика

malkovsky 30 мар в 14:35

Это понятно, вот только я готов использовать gdb с интерфейсом в vscode, но не готов использовать чистый gdb из терминала, вопрос в этом

GDB для тех, кто думает, что отладка — это фантастика

malkovsky 29 мар в 14:50

Хорошая и полезная статья.

А вы пользуетесь отладчиклм из терминала? Есть ли какие-то преимущества над плагиами в ide, для меня вот интерфейс терминала для отладки почти бесполезен и не ускоряет посравнению “отладкой принтами”

Введение в высокопроизводительные вычисления на С++ для CPU

malkovsky 18 мар в 15:09

Да, это "тернарный оператор", в С/С++ он отоже есть. Честно говоря не знаю есть ли в нем большой смысл с современными компиляторами, как синтаксический сахар точно полезен.

Введение в высокопроизводительные вычисления на С++ для CPU

malkovsky 18 мар в 09:11

Чтож вы мучаетесь то
https://godbolt.org/z/177jcYKc4

P. S. Для личного опыта интересно потыкаться, но для прода я бы не выпендривался и использовал std::copy или std::ranges::copy

2 3 ...

15 16