Комментарии / Профиль daktfi / Хабр

Пользователь

0,1

Рейтинг

Я сделал локального AI-агента для России. Без VPN, без подписки, без облака

Даже банальный бесплатный чат - уже помогает, ибо получается офигенский справочник по всякому разному. Типа, "а как бы мне закатить Солнце вручную, да чтобы на свежеизобретённом велосипеде?" - а она в ответ, мол, есть либа такая и либа сякая, а в стандарте написано то и это. И уже на этой волне спокойно идёшь на тот же cppreference или истчо куды.

Я сделал локального AI-агента для России. Без VPN, без подписки, без облака

daktfi 26 мар в 19:59

Ну вот я вполне себе программист на плюсах со стажем, опытом и квалификацией. Поручить те же юнит-тесты нейронке (только сначала дать ей ТЗ, а потом по рукам и по жопе, когда косячит) - реально кратное ускорение работы. 5 минут на ТЗ, 10 минут она там что-то колбасит, ещё 5 минут проверить за ней и ещё 5 минут на исправления. Самому тот же тест писать - час, и ещё не факт, при копипасте не зевнёшь какую-нибудь ерунду. "Возьми вот этот метод и сделай такой же, только с перламутровыми пуговицами" - та же история (ну, смотря какой метод, конечно). Какие-нибудь радикальные потрахушки с тем же грпц "а вот перепиши мне эти методы с CQ на колбэки... не, кака вышла, верни взад, только вот и там поменяй Х на У", при том что сам я с этого грпц пухну и зверею - уже одно это дорогого стоит.

Словом, про два раза не знаю, очень сильно зависит от текущих задач и от кода, но туеву хучу нудной рутины на неё спихнуть - как два байта переслать за одну посылку. И при этом пока она ломает один кусок кода - я спокойно роюсь в другом одновременно.

Я написал алгоритм вычисления дат, который на 30–40% быстрее остальных

daktfi 19 дек 2025 в 19:52

Именно так. "У немца для всякого дела свой инструмент есть" :-)

Причём мы в итоге даже убрали из кода вилку по размеру, мол, меньше 10к сортируем стандартной сортировкой, а больше - своей. Ибо SoA, а не AoS, и для стандартной нужна обёртка, а абсолютная разница мизерная, на ТЕХ задачах - не стоящая усложнения кода, если правильно помню, меньше 20 микросекунд в худшем случае.

Я написал алгоритм вычисления дат, который на 30–40% быстрее остальных

daktfi 19 дек 2025 в 19:43

Это реально используется в HFT, но там таблицы маленькие - год-два от силы. Два года - это меньше 40 кб, живёт в L2, часто используемые поддиапазоны - в L1.

Я написал алгоритм вычисления дат, который на 30–40% быстрее остальных

daktfi 19 дек 2025 в 19:40

В исходниках там активно используется int128, с ним работает корректно уже лет десять как, если не больше. Правда, в исходниках есть специальные функции hi128/lo128 с очевидным функционалом. Ну и так-то понятно, что это просто высокоуровневая обёртка для старой традиции х86 использовать пару регистров для результата умножения или для делимого при делении.

Я написал алгоритм вычисления дат, который на 30–40% быстрее остальных

daktfi 19 дек 2025 в 19:37

HFT. Там, правда, на рабочие диапазоны делают таблицы, можно уложиться в 40 кб примерно и всё будет за одно обращение в L2 (а то и в L1).

У меня счас по работе разбор даты ВНЕЗАПНО стал бутылочным горлышком, но там исходно вообще Poco::DateTime было, оно удобное, но дико тормозное.

Я написал алгоритм вычисления дат, который на 30–40% быстрее остальных

daktfi 19 дек 2025 в 19:32

Активно использовал её в реальном проде. Гонял тесты, чисто из любопытства. На имевшемся железе экспериментальная многопоточная сортировка (std::experimental::parallel_sort, кажись, Си++-14 это был или прототип) начинала отставать примерно на 10-20 тысяч ключей (точнее, пар ключ+нагрузка, там были варианты инт32/64/128/дабл ключ, нагрузка - один, два или три раза инт32), однопоточная сливалась ещё раньше. Многопоточный радикс в прод не пошёл, слишком грузит проц при незначительном выигрыше в скорости (там многопоточность высокая и несколько однопоточных радиксов отрабатывали интегрально быстрее). Учитывая, что сортировали десятками-сотнями миллионов - никакой квиксорт там и рядом не валялся.
Константа большая, но зависит от реализации (надо правильно привязываться к размерам кэшей проца и префетч делать). "Тупо в лоб" - что угодно будет грустно.
Так-то можно сказать, что и пузырёк - супер-пупер сортировка: три элемента быстрее не отсортируешь, а оверхед примерно нулевой! :-)

Я написал алгоритм вычисления дат, который на 30–40% быстрее остальных

daktfi 19 дек 2025 в 09:47

Как раз для больших - очень даже практично. Радиксная сортировка.

Сортируем сотни млн строк в разы быстрее библиотечных алгоритмов. А не замахнуться ли нам на ммм… на O(n)?

daktfi 4 мар 2025 в 04:59

По поводу упора в процессор при параллельной сортировке - скорее всего, не совсем так.

Несколько лет назад весьма плотно занимался реализацией радиксной сортировки, в том числе параллельной, с оптимизацией под кэш процессора и всё такое. Результат - заметный рост скорости примерно до 20 потоков и потом резкий выход на плато. Небольшое исследование показало, что упор в контроллер памяти - 6 каналов по 2 регистровых модуля, итого 24 потока доступа, из которых два-три-четыре (в зависимости от фазы Луны) отъедаются операционкой и другими процессами. При этом - вполне ощутимые накладные расходы на синхронизацию. В итоге в прод ушла однопоточная версия, которая обгоняла классику начиная примерно с 10к ключей (ключи 32/64/128 бит или даблы, нагрузка - 32, 2*32 или 3*32 целые числа, SoA, порог обгона от комбинации ключа/нагрузки почти не зависел, у меня шаг размера тестовых массивов был больше).