Комментарии / Профиль vmx / Хабр

Пользователь

L7 маршрутизация Squid+IPTables и WireGuard, или как завернуть трафик в тоннель на основе имени домена

штука для простых DNS-серверов

Утилита задумывалась для произвольных DNS, даже для тех которые мы не контролируем.

Ставим ее на софтроутере/зеркале трафика (вроде ее кто-то запускал даже на OpenWRT, по крайней мере в форках было) и собираем себе адреса.

первый запрос, если мы не хотим добавлять задержку DNS-серверу (а мы не хотим)

Ну, я бы в этом месте не заморачивался. Задержка же небольшая.

Надо бы переписать заново с нуля красиво

Мне кажется, в 2026-м в сетях перфекционизм не очень нужен :)

И так все работает через одно место. В трафик активно вмешивается ТСПУ, операторский АнтиДДоС/Антифрод, происходят непредсказуемые ковровые баны сетей/AS и т.п. Тут хоть как-то бы все работало.

L7 маршрутизация Squid+IPTables и WireGuard, или как завернуть трафик в тоннель на основе имени домена

vmx 9 янв в 21:40

Я как-то делал вот такую очень простую утилиту https://github.com/vmxdev/sidmat

Она слушает на интерфейсе (с помощью pcap или nflog) DNS-ответы и печатает ip адреса доменов, которые матчатся регекспами. Можно сказать те же wildcards, только в виде регулярок. Там в документации есть примеры, как ее использовать с iptables/ipset.

То есть, если не хочется морочиться с хуками DNS-сервера, можно сделать и по-другому. Не знаю, проще это или нет.

ГК «Солар» запатентовала новый метод защиты веб-сервисов от ботов и вредоносного трафика

vmx 25 дек 2025 в 20:32

Система анализирует параметры HTTPS‑соединения и рассчитывает вероятность того, что запрос отправлен ботом. Если расчетное значение превышает заданный порог, пользователю предлагается дополнительная проверка перед установлением защищенного соединения; при низкой вероятности сессия открывается без дополнительных действий.

Вроде все так делают, не?

Это же буквально базовый алгоритм для антибот/антиддос софта в 2025 году. Смотрят на параметры, если что-то не нравится, показывают капчу ("дополнительная проверка").

Зачем это патентовать, интересно?

Что они собираются с этим патентом делать? Предъявлять Cloudflare или отечественным кибербез-компаниям?

В топку Live Coding. Он измеряет уровень стресса, а не навыки программирования

vmx 21 дек 2025 в 15:06

«Дан список чисел, нужно вернуть сумму чётных из них». И такая задача не предполагается как сложная или заумная

В смысле? Я бы наоборот считал что задача с подвохом.

Как именно этот список дан?

Если в текстовом виде, нужно ли проверять числа при парсинге?

Что это за числа, в каком они лежат диапазоне?

Сколько этих чисел может быть в списке, нужно ли готовиться к тому что машинные 64-битные переполнятся?

Нужно ли быстро считать эту сумму, может быть собеседующие - аутисты и хотят посмотреть как вы наваливаете SIMD-интринсиков вживую.

В общем, из такой "несложной" задачи можно сделать целый цикл статей на хабре, если захотеть.

Протокол TBFP

vmx 26 ноя 2025 в 07:41

В каких бинарных протоколах есть поле порядковый номер пакета разрядностью минимум 16 бит?

В TCP? Там есть 32-битный sequence number.

В каких бинарных протоколах есть порядковый номер передаваемого пакета?

Иногда в "односторонние" UDP-based протоколы добавляют порядковые номера, чтобы понимать сколько пакетов потерялось. В netflow/ipfix есть sequence number.

Существую ли бинарные протоколы реализованные аппаратно?

Какой-то очень сложный вопрос. Сейчас грань между "программно" и "аппаратно" немного размыта, но вообще сетевой стек (Ethernet, IP и даже TCP/UDP) парсится и модифицируется на многих бытовых сетевых карточках "аппаратно": https://en.wikipedia.org/wiki/TCP_offload_engine

Хотя это старая статья, сейчас даже мало кто говорит "tcp offload", обычно это называют "nic offloads".

Релиз открытой системы для глубокого инспектирования сетевых пакетов nDPI 5.0

vmx 22 ноя 2025 в 16:13

Все вроде по-разному. Из того что я читал в открытом доступе или общался с инженерами - у них обычно есть разные продукты (или линейки продуктов) для разного.

Одни продукты анализируют netflow/ipfix/sFlow. Когда видят что-то подозрительное - то или срезают на роутерах (с помощью BGP blackhole/flowspec) или перенаправляют трафик на другие железки для "очистки". Таким способом срезают крупных ботов, которые наливают хорошо трафика и которых видно в семплированном xFlow.

Для "тонкой" очистки - да, как написали вверху, ставят nginx (или реже что-то другое) перед защищаемыми хостами в режиме реверс прокси и на нем уже пытаются бороться.

Есть опенсорные WAF, например https://github.com/bunkerity/bunkerweb - у него как раз nginx под капотом. Если интересно, можно посмотреть как там сделано

Релиз открытой системы для глубокого инспектирования сетевых пакетов nDPI 5.0

vmx 22 ноя 2025 в 07:59

Теоретически это можно использовать как инструмент для обнаружения вредоносного и паразитного трафика.

Определять и отсекать ботов, сканеров и прочую малварь.

Но практически ботов часто пишут не дураки, они маскируются под обычный пользовательский трафик и все эти TLS fingerprints/JA4 и т.п. работают так себе.

И для nDPI нужны полные пакеты, то есть нужно снимать трафик с зеркала или стоять в разрыве. Такое могут себе позволить только не очень большие сети.

В более-менее крупных сетях максимум что можно анализировать постоянно - это семплированные кусочки пакетов из sFlow, а на таком эти *DPI не работают.

Оператор связи Т2 (ранее Tele2) опроверг передачу поисковой истории абонента в деле о поиске экстремистских материалов

vmx 8 ноя 2025 в 10:24

Более того, у подавляющего большинства операторов нет даже никаких "историй посещения сайтов". Операторов заставляют ставить отдельно коробку с СОРМ, а управляют этой коробкой и берут оттуда данные совершенно другие люди, не операторы.

Обычно вся статистика которая есть у оператора - это семплированный netflow/ipfix. В нем вообще ничего не видно кроме IP адресов, протоколов и портов. При семплировании 1:500 в эту статистику попадет каждый 500-й пакет, а у крупных операторов бывает sampling rate и 1:10000.

То есть "историю поиска" могут дать только поисковики. Ну да, можно увидеть ее в браузере искавшего, но это какой-то уже странный случай.

Ранняя история алгебраических типов данных

vmx 3 ноя 2025 в 09:53

После этого момента типы-суммы исчезают из императивного программирования. В императивных языках конца XX века доминировало влияние Pascal и C. В Pascal не было типов-сумм, потому что Вирт считал их менее гибкими, чем не размеченные (untagged) объединения.

Не специалист по этому всему, но в Pascal же чуть ли не с рождения были variant records? Википедия считает что это и есть tagged unions https://en.wikipedia.org/wiki/Tagged_union#1970s_&_1980s

В C, возможно, нет типов-сумм, потому что его создатели заимствовали систему типов из языка PL/I от IBM

В C тоже можно сделать tagged unions "на коленке", но нужно следить вручную за тегами. В телекомах это вообще такая классика, используется в куче протоколов и есть даже специальный термин TLV (type-length-value / tag-length-value) https://en.wikipedia.org/wiki/Type–length–value

Как я с помощью LLM писал эмулятор ZX Spectrum

vmx 14 окт 2025 в 15:10

Насколько я понимаю, получаем чей-то эмулятор ZX Spectrum, уже написанный. Робот просто заимствует код.

Сможет ли нейронка написать эмулятор для несуществующей архитектуры?

И вообще, сделать то, чего раньше не существовало?

Я видел со стороны несколько попыток заставить LLM написать нетривиальное, все провальные.

Microsoft переводит GitHub на серверы Azure

vmx 8 окт 2025 в 19:53

Недавно на гитхабе начали переделывать и сломали статистику по трафику репозиториев. Изменили графики посещений и клонирования (в худшую сторону), перестали показывать сайты с которых перешли и популярный контент.

Referring sites and popular content are temporarily unavailable or may not display accurately. We're actively working to resolve the issue.

Не то чтобы это была какая-то суперважная фича, но иногда интересно было посмотреть.

Судя по

Мы попросим команды отложить разработку функций, чтобы сосредоточиться на переносе GitHub.

можно и не дождаться, когда починят.

Алгоритм поиска аномалий Isolation Forest

vmx 25 сен 2025 в 20:07

Насколько я понимаю, Гарда использует (если использует, конечно) поиск аномалий в сетевом трафике. Они же не могут показывать каждую аномалию человеку для валидации, это было бы странновато. Обычно на аномалии нужно очень быстро реагировать.

А вообще интересно, насколько это реально работает с сетевыми аномалиями, что можно детектировать (атаки? сбои оборудования?) и насколько хорошо это получается.

EDIT: не туда ткнул, это был ответ @mvasilev-ai

Я отклоняю комиты с использованием кучи и прошу коллег переписать такую логику

vmx 17 сен 2025 в 20:12

Да, аллокации/деаллокации на куче влияют на производительность.

У проекта DPDK есть гайд по написанию высокопроизводительного кода. Не для геймдева, конечно, а для обработки сетевого трафика (там требования к производительности и надежности бывают еще жестче): https://doc.dpdk.org/guides-25.07/prog_guide/writing_efficient_code.html

Это гайд для более "традиционных" Intel/ARM, причем многопроцессорных, но, мне кажется, его интересно почитать даже просто для информации.

Обзор NetFlow-коллектора с визуализацией Akvorado: от развертывания до практического использования

vmx 7 сен 2025 в 11:54

А какую систему анализа и визуализации трафика вы применяете и почему?

Самодельную (но тоже опенсорсную) https://github.com/vmxdev/xenoeye/

Нам нужно не только визуализировать, а еще и реагировать на сетевые аномалии, DoS/DDoS, причем чем быстрее, тем лучше. Мы используем скользящие средние для детекции аномалий.

И мы обычно на одной инсталляции показываем статистику по разным сетям или объектам мониторинга разным пользователям (т.е. делаем мультитенантность/мультиарендность).

Недавно писал статью про наш Netflow/IPFIX/sFlow анализатор: https://habr.com/ru/articles/909132/

Абсолютно ничего не имею против Акворадо, даже советую его использовать интересующимся пользователям на реддите, но нужно понимать, что он хранит все фловы. Для кого-то это плюс, для кого-то довольно бессмысленно - для того чтобы раз в неделю грубо посмотреть разбивку трафика по своим сетям, GeoIP или AS нужно иметь хорошее такое хранилище. Плюс он вместе с Кафкой не очень легкий:

Akvorado is performant enough to handle 100 000 flows per second with 64 GB of RAM and 24
vCPU( https://vincent.bernat.ch/en/blog/2022-akvorado-flow-collector )

Да простят меня Настоящие Хайлоадеры, но мы вместо Кафки используем просто файловую систему - нужная статистика складывается в файликах на диск и отдельным процессом экспортируется в PostgreSQL или ClickHouse.

Ну и предобрабатываем данные внутри коллектора. Наверное это тоже неправильно с точки зрения Настоящей Хайлоад Архитектуры, но позволяет обрабатывать до 700k fps на одном vCPU (когда много объектов мониторинга, то меньше, конечно).

Китайский инженер показал прототип дрона в форме меча из...

vmx 7 авг 2025 в 09:07

Одно неловкое движение и пальцы рубит винтом меча.

Можно будет узнавать владельцев таких мечей при рукопожатии. Очень удобно.

Программа «Hello World» на машинном коде под DOS

vmx 6 авг 2025 в 14:44

Ah, Al это же восьмибитные части AX! Он же сам по себе 16-битный

Да.

вместе с BX входит в 32-битный EAX. Разве нет?

Нет. Когда процессоры Intel перешли на 32 бита, регистры общего назначения расширили до 32 бит. AX -> EAX, BX -> EBX и т.д.

BX не объединяли с AX для получения EAX.

Когда переходили на 64 бита, провернули приблизительно такой же трюк. EAX расширили до RAX, EBX до RBX и т.д.

Программа «Hello World» на машинном коде под DOS

vmx 5 авг 2025 в 10:20

Далее скопируем CS в DS

Какое-то мучительное получилось копирование. Иногда такое делают без промежуточного регистра

push cs

pop ds

B4 4C B0 2A CD 21 ; exit

Из .com файла можно выйти просто инструкцией ret. Вот объяснение как это работает https://devblogs.microsoft.com/oldnewthing/20200309-00/?p=103547

Когда фидбэк может уничтожить продукт

vmx 24 июл 2025 в 15:00

Да, к фидбекам и вообще к комментариям "из интернета" нужно относиться с осторожностью.

Сейчас перепроизводство софта, почти всегда можно найти аналог. Если реальным пользователям что-то не нравится, они как правило молча (и без фидбека!) переходят на другой продукт.
В интернете часто пишут вообще далекие от предметной области люди, причем с видом экспертов. А эксперты не пишут, им это не очень интересно.
Какой-то странный феномен - личное (или даже оффлайновое) общение с реальными пользователями бывает полезнее и интереснее, чем сообщения от анонимных людей "из интернета".

Иногда вижу еще один вид негативных отзывов - от евангелистов ПРАВИЛЬНЫХ технологий.
Программа/библиотека написана не на любимом языке программирования - у евангелиста моментально полыхает: "ха-ха, ну сразу же видно какой это глючный отстой, я пользуюсь штукой написанной на Правильном ЯП и всем советую!!1" (штука делает не то что нужно, но кого это смущает).
Не используется любимая технология комментатора - "буэ, что за рукожоп это делал вообще, вот смотрите как нужно делать: <рассказ о продукте, который делает вообще другое>".

Открытые инструменты для визуализации сетевого трафика

vmx 13 июл 2025 в 09:30

Очень странное ощущение, когда о тебе пишет нейросеть.

Да, скриншоты она почему-то не смогла.

Хотя, все эти визуализации выглядят более-менее одинаково. Обычно это time series и опционально отчеты за крупные периоды - столбчатые/круговые диаграммы потребителей трафика, генераторов, AS, гео-распределения и т.п.

Вроде почти у всех можно посмотреть и другие поля, типа распределения трафика по TCP-флагам, TTL, IP протоколам, TCP/UDP портам.

Можно заглянуть в каждый из проектов, там будут картинки. Или загуглить что-то вроде netflow reports и посмотреть картинки. Они у всех приблизительно одинаковые, там сложно придумать что-то оригинальное.

Про xenoeye недавно писал на хабре, там есть и скриншот графаны.

https://habrastorage.org/r/w1560/getpro/habr/upload_files/419/b9d/ab3/419b9dab3d98780062b1e2e479da8697.png

Основные отличия между netflow анализаторами как раз не в визуализации, а в другом - может ли анализатор реагировать на аномалии, как у него реализованы объекты мониторинга (если реализованы вообще), если ли возможность разным группам пользователей показывать разные отчеты и т.д.

На момент релиза tkvdb был одним из редких примеров реализации подобного решения на основе Radix.

Кхем. Radix trees тогда уж.

Key-Value на radix trees в памяти были и тогда, есть и сейчас. tkvdb был (и есть) редкий пример реализации с возможностью хранения деревьев на диске в виде append-only структуры и транзакциями (ну, условными).

Perplexity запускает Comet — собственный AI-браузер, бросающий вызов Google

vmx 11 июл 2025 в 21:29

Так действительно же диковатое заявление, не чувствуете?
Хотя, может вы много с AI общаетесь.
Про Оперу, кстати, хороший пример.
"Компания Opera переходит на движок Chromium и бросает вызов Google" - нормально звучит?

-1