Обновить

Все потоки

Сначала показывать
Порог рейтинга
Уровень сложности

HiveTraceRed vs garak: тестируем безопасность языковых моделей на русском и английском

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6K

Наша команда сравнила два открытых инструмента для проверки языковых моделей (LLM) на устойчивость к атакам: российский HiveTraceRed от HiveTrace/ITMO и международный garak от NVIDIA. Прогнали обоих на одинаковых задачах против двух открытых моделей (qwen2.5:3b и llama3.2:3b) на английском и русском языках.

Главное:

На английском работают оба, плюс-минус одинаково. HiveTraceRed нашёл 11 кандидатов в обходы (Jailbreak, это обход встроенных защитных ограничений модели через специальный запрос. Например, если модель отказывается писать фишинговое письмо в лоб, jailbreak это формулировка, после которой она его всё-таки пишет) на 380 попыток, у garak вышло 2 на 174. После ручной проверки всех 20 кандидатов от обоих инструментов 12 оказались настоящими jailbreak’ами, 2 пограничными, 6 ложными срабатываниями.

Persuasion-атаки (FootInTheDoor + Framing, добраны отдельно): добавляют ещё 11 случаев утечки методологии на 40 попыток (модель обсуждает тему «академически», но без полностью actionable инструкций). Лучше всего срабатывает FramingAttack на qwen-RU (3/5).

На русском garak бесполезен: ноль найденных кандидатов на обеих моделях из 80 попыток. У HiveTraceRed 7 кандидатов на 380 попыток.

Если вам нужно тестировать LLM, обслуживающую русскоязычных пользователей (а это любой российский продукт, от GigaChat до банковского чат-бота на YandexGPT), используйте HiveTraceRed.

Дальше расскажем, почему так получилось, что именно нашли и как воспроизвести у себя.

Читать далее

Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели12K

LLM-агенты вроде Claude Code постепенно становятся рабочим инструментом разработчика. Но почти все они завязаны на облачные API с их ценами, лимитами и зависимостью от внешней инфраструктуры.

Поэтому всё чаще возникает идея: а что если запускать агентов на своём сервере — локально или на VPS?

Разберёмся, как это сделать, какое железо для этого нужно и почему такие сценарии могут быть выгодны не только пользователям, но и самим хостерам.

Читать далее

Как подготовиться к алгоритмическим соревнованиям: опыт финалиста ICPC

Время на прочтение11 мин
Охват и читатели8.1K

Всем привет! Меня зовут Андрей, я финалист ICPC (Международной студенческой олимпиады по программированию), разработчик Техплатформы Городских сервисов Яндекса. Эта статья — концентрат неочевидных (а порой и контринтуитивных) советов по подготовке к соревнованиям. Годами я тренировался, набивал шишки на контестах и набирался мудрости у топовых тренеров, чтобы собрать этот опыт в одном месте.

Читать далее

Фотоны под маской электронов: оптические вихри

Время на прочтение14 мин
Охват и читатели5.3K

Что есть свет? Ответы будут разительно отличаться в зависимости от того, у кого спрашивать. Однако для физики и других точных наук свет является как важным ресурсом, так и важным интуристом для реализации крайне сложны систем. Контроль и манипулирование светом, а именно его свойствами, открывает новые возможности в самых разных отраслях, от классической электроники до квантовых вычислений. Однако получить контроль над светом — это далеко не тривиальная задача, но вполне выполнимая, если мыслить креативно. Ученые из Варшавского университета (Польша) разработали систему, позволяющую трансформировать лучи света в так называемые оптические вихри. Как именно ученые создали эти «торнадо», какими свойствами они обладают, и где именно могут быть полезны? Ответы на эти вопросы мы найдем в докладе ученых.

Читать далее

Битва двух ёкодзун: почему детекторы ИИ и гуманизаторы делают тексты еще хуже

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели5.8K

В век, когда абсолютно все площадки, включая Хабр, захлебываются под цунами сгенерированного контента, особенно ценными становятся статьи, написанные людьми. Только есть один нюансик: человеческий текст должен быть хорошим. А я как редактор часто становлюсь невольным свидетелем битвы двух ёкодзун: искусственного интеллекта с естественной халтурой. Чума на оба этих дома, честно говоря. 

В этой статье хочу порассуждать на тему: любой ли сгенерированный контент плох с редакторской точки зрения и становится ли текст живого автора ценным лишь по факту своей «человечности»? Попутно мы разберем:

1. А как на самом деле работают детекторы ИИ и можем ли мы им доверять? 

2. Стоит ли от греха подальше прогонять текст, который определяется как сгенерированный, через гуманизаторы, чтобы придать ему живого румянца?

3. Что делать, когда показания разных детекторов расходятся? 

Читать далее

Нужно проанализировать данные? Какую нейросеть выбрать в SpeShu.AI

Время на прочтение5 мин
Охват и читатели5.2K

Чтобы 1 000 строк таблицы обработать за 5 минут, нужна нейросеть с большим контекстом.

Что это, какие топ-5 нейросетей лучше использовать и как написать правильный промпт, дочитайте статью и получите ответы.

Читать далее

Как мы автоматизировали аналитику маркетплейсов в Yandex Datalens

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.9K

Всем привет, меня зовут Никита. Не так давно к моей команде обратился сервис аналитики маркетплейсов — они собирали данные по WB и Ozon и отдавали их селлерам в виде отчетов.

Процесс был устроен по простой схеме: по расписанию обращались к API Wildberries и Ozon, выгружали данные в Google Sheets, дальше внутри таблиц уже считали метрики — продажи, конверсии, воронки, какие-то производные показатели. У каждого клиента свой набор таблиц, свои формулы, свои доработки.

На старте это было удобно для них. Пока клиентов немного, можно быстро что-то поправить, докрутить формулу, добавить новый показатель прямо в таблице.

Проблемы начались, когда объем клиентов вырос.

У каждого по несколько кабинетов (WB, Ozon), таблицы начали разрастаться, логика расчётов расползлась. Каждое обновление данных требовало ручной проверки и правок, из-за чего команда тратила всё больше времени на поддержку таблиц вместо аналитики. По мере роста клиентов начали накапливаться ошибки, а масштабирование напрямую упёрлось в количество людей, которые могли это обслуживать.

Мы решили пересобрать для них систему, вынести сбор и хранение данных в отдельный слой, централизовать расчёты и убрать всю бизнес-логику из Google Sheets. Таблицы в таком сценарии остаются только интерфейсом, но не местом, где живут данные и считаются метрики.

В качестве инструмента визуализации выбрали Yandex DataLens. Он закрывает базовые задачи по работе с дашбордами и при этом остаётся простым для пользователей без технической подготовки. Также было важно, что сервис доступен в России без ограничений и не требует больших затрат на внедрение и использование.

Читать далее

MCP в Cursor IDE: подключаем AI-агенту внешние данные без возни с API

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.9K

Cursor IDE умеет генерировать код, рефакторить, объяснять и дебажить. Но по умолчанию он видит только файлы в вашем проекте. Если нужно, чтобы агент сходил в Google Trends, проверил задачи в Jira или прочитал что-то из Notion, приходится копировать данные руками и вставлять в чат. Агент получается не особо автономным, каждый шаг требует вашего участия.

MCP даёт агенту инструменты — функции, которые тот вызывает сам, когда ему нужны внешние данные. Вместо «вот тебе CSV, проанализируй» вы пишете «проанализируй тренды по запросу X», и агент сам вызывает нужную функцию, получает данные и работает с ними.

Читать разбор

Apple Computer vs. Apple Records: 30-летняя война за «яблоко»

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.1K

Apple против Apple — это почти тридцатилетняя история о том, как один и тот же знак (точнее, очень похожий) в разных классах и на разных рынках превращается в минное поле, если технология начинает «сшивать» эти рынки воедино. По ходу спора юристы пытались удержать в договорных формулировках то, чего в момент подписания договоров еще просто не существовало технологически.

Читать далее

Как я автоматизировал отправку постов в Threads* и X*, но споткнулся о невидимые лимиты Twitter*

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.9K

Я хотел сделать простую штуку: написал пост один раз, а он сам улетел в Threads* и X*. С Threads всё оказалось почти скучно: официальный API, токен, два запроса, готово.

С X* началась отдельная инженерная прогулка по тёмному лесу: официальный API стоит денег, сервер из России напрямую ходит нестабильно, а браузерный GraphQL-путь то публикует, то отвечает 200 без созданного поста, то присылает 226, 344 или внезапное Tweet needs to be a bit shorter.

В этой статье разбираю, как я собрал кросспостинг через Cloudflare Worker, где достать auth_token и ct0, почему нельзя верить HTTP-статусу, какие лимиты и антибот-ошибки реально прилетают, и что показали две недели логов.

Читать далее

TokenToad: как я сделал Chrome-расширение, чтобы перестать удивляться счетам за AI

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.5K

Расходы на AI API копятся незаметно: сессия Claude Code тут, batch к GPT-5 там — и к концу месяца биллинг удивляет. Собрал бесплатное Chrome-расширение, которое показывает траты Anthropic, OpenAI и Gemini в реальном времени прямо в badge браузера.

Читать далее

Ollama 0.23: Claude Desktop теперь запускается из терминала. Без бубна

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.7K

Заголовок звучит как что-то из разряда «хакерских трюков», но на деле это официальный релиз.

3 мая 2026 года (в мой день рождения) разработчики Ollama опубликовали версию 0.23 — и главным событием стала прямая интеграция с десктопным приложением Claude. 

Читать далее

30 секунд вместо 30 минут: как мы автоматизировали генерирование конфигураций потоковой обработки с помощью RAG и A2A

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели7.2K

Привет, Хабр! Меня зовут Дмитрий Титов, я DevOps-инженер в команде интеграционных сервисов Platform V Synapse в СберТехе. Наша команда работает над продуктом Platform V Streaming Event Processing — программным решением для фильтрации и трансформации форматов событий, агрегирования и выявления аномалий и закономерностей.

В этой статье я расскажу, как мы создали систему автоматического генерирования конфигураций для одного из компонентов нашего продукта, используя RAG (Retrieval-Augmented Generation), векторные базы данных и межагентное взаимодействие по протоколу A2A.

Читать далее

Ближайшие события

Писать или не писать… свой мессенджер — вот в чем вопрос

Время на прочтение6 мин
Охват и читатели9.8K

Корпоративный мессенджер своими руками. Попробуем разобрать, что может пойти не так — без драматизации, но с цифрами и реальным опытом. И сразу важная оговорка: мы не считаем, что “пилить” свой мессенджер — это по умолчанию плохая идея. Иногда это абсолютно правильное решение.

Читать далее

Баги, которые не ловит Rust

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели10K

В апреле 2026 года Canonical раскрыла 44 CVE в uutils — реализации GNU coreutils на Rust, которая поставляется по умолчанию с версии 25.10. Большинство из уязвимостей обнаружилось при внешнем аудите, проведённом перед выпуском 26.04 LTS.

Я изучил список и решил, что из него можно многому научиться.

Примечательно то, что все эти баги оказались в кодовой базе на Rust, написанной людьми, которые знают, что делают, и ни один из багов не был отловлен механизмом проверки заимствований, clippy lints и cargo audit.

Я пишу эту статью не для того, чтобы покритировать команду разработчиков uutils. Ровно наоборот: мне хочется поблагодарить её за публикацию результатов аудита с подробностями, благодаря которым все мы можем научиться чему-то новому.

Кроме того, на нашем подкасте Rust in Production недавно был вице-президент по разработке Ubuntu Джон Сигер, заслуживший похвалы слушателей за честный рассказ о состоянии Rust в Canonical.

Если вы пишете системный код на Rust, то эта статья будет самым сжатым анализом того, где сейчас заканчивается безопасность Rust.

Читать далее

Топ-5 примеров, когда нейросети творят искусство

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.3K

Нейронки умеют рисовать не только пляшущих котов с баянами на деревенской свадьбе. Еще они могут творить настоящее искусство. И пять отобранных примеров в статье красноречиво это подтверждают.

Читать далее

44 CVE в uutils: что Rust ловит, а что нет на границе с системой

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели7.4K

В апреле 2026 года Canonical раскрыла 44 CVE в uutils. Это переписанная на Rust версия GNU coreutils, которая в Ubuntu идёт по умолчанию с 25.10. Раскрытие пришло из внешнего аудита, заказанного перед релизом 26.04 LTS. Большую часть уязвимостей нашли обычным ревью кода. Ни borrow checker, ни проверки clippy, ни cargo audit не поймали ни одной.

Этот аудит, пожалуй, самый чёткий из существующих примеров того, что Rust ловит, а что нет. Самый внятный разбор списка сделал Маттиас Эндлер в посте «Bugs Rust Won’t Catch» от 29 апреля. Эндлер ведёт консалтинг corrode и подкаст Rust in Production; недавно у него в гостях был Джон Сигер, вице-президент по инженерии в Canonical. Пост построен как разбор того самого раскрытия: 44 CVE распределены по восьми категориям; к большинству приложен git diff фикса.

Ниже разберу каркас Эндлера и добавлю два аргумента сверху. Первый: один из мейнтейнеров GNU coreutils в HN-треде показал бенчмарк, на котором рекомендованный Эндлером фикс не выживает. Второй: структурный аргумент про то, что 40 лет наслоённых POSIX-шрамов делают с любой переписью, независимо от языка.

Читать далее

Анатомия Сплита: как Яндекс упаковал рассрочку и потребкредит в один интерфейс

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели9.1K

В ответах на вопросы по статье про Яндекс Сплит напридумывал такого, что аж стыдно. Но удалять не буду и распишу подробно, как работает Сплит и Супер Сплит, и чем они отличаются.

В моей старой статье про устройство BNPL (сентябрь 2022, «Оплата долями или при чём здесь исламский банкинг») основной тезис был такой: BNPL — это обходной путь регулирования. Сервис рассрочки делает ООО, не подпадающее под 353-ФЗ, не передающее данные в БКИ, и зарабатывает на комиссии магазина. Государство закрывало глаза на существование схемы, пока сегмент не перестал быть маленьким.

В 2025 году рынок BNPL в России дорос до 940 млрд рублей (данные «Долями» от Т-Банка), за первое полугодие удвоился. Так появился 283-ФЗ от 31.07.2025 «О деятельности по предоставлению сервиса рассрочки», вступивший в силу 1 апреля 2026. Что в законе: реестр операторов, лимит 50 000 ₽, срок до 6 месяцев (с 2028 — до 4), запрет скрытых комиссий, передача в БКИ при долге свыше лимита, неустойка не более 20% годовых (потолок — оператор может взять и ноль).

Интересен кейс Яндекса. Ранее у них был один «Сплит» с возможностью апгрейда до «Супер Сплита». Сейчас это уже два юридически и экономически разных продукта в одном интерфейсе под одним брендом. Разберу, как они устроены, чем отличаются и почему такая конструкция возникла.

Читать далее

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели9.4K

Свежепоставленный мониторинг на DGX Spark. Открываю NVIDIA‑дашборд в Grafana — половина memory‑панелей пустые, прямые линии по нулю. Сначала кажется, что что‑то не настроил. Через полчаса доходит: это не у меня сломалось, это NVML на GB10 так работает.

Это та область, где на GB10 половина стандартного observability‑стека просто не работает: NVML отдаёт [N/A] на memory.used и memory.total, dcgm‑exporter не ставится, nvtop в memory‑колонке показывает пустоту. В Grafana NVIDIA‑дашборды по умолчанию выглядят так, будто GPU вообще нет — и это не очевидно, потому что Grafana при отсутствии данных не кричит, а молча рисует ровную линию по нулю.

Статья — про то, как я это место обошёл и что в итоге увидел в Grafana. Трёхуровневая схема: textfile collector для базовых метрик, per‑container attribution через docker top + nvidia-smi, и CLI‑фоллбэк на /proc/meminfo, который оказался полезен не только на Spark, но и на других Linux‑системах с единой памятью (unified memory) — AMD Strix Halo и подобные.

Читать далее

Страшная сказка

Уровень сложностиПростой
Время на прочтение42 мин
Охват и читатели11K

Типа предупреждение:
Далее идет нейрослоп и полет больной фантазии. Вы читаете его на свой страх и риск.


Документ строится как рабочая модель, основанная на наблюдаемых трендах. Реальность пройдёт по своей траектории, и она почти гарантированно будет отличаться от прогноза в деталях — но главные структурные вехи обоснованы достаточно, чтобы быть рабочей основой для размышлений и решений.

Читать далее