Обновить
16K+
22
Метеор@cheebo

rtmeteor.ru

16
Рейтинг
12
Подписчики
Отправить сообщение

HiveTraceRed vs garak: тестируем безопасность языковых моделей на русском и английском

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.6K

Наша команда сравнила два открытых инструмента для проверки языковых моделей (LLM) на устойчивость к атакам: российский HiveTraceRed от HiveTrace/ITMO и международный garak от NVIDIA. Прогнали обоих на одинаковых задачах против двух открытых моделей (qwen2.5:3b и llama3.2:3b) на английском и русском языках.

Главное:

На английском работают оба, плюс-минус одинаково. HiveTraceRed нашёл 11 кандидатов в обходы (Jailbreak, это обход встроенных защитных ограничений модели через специальный запрос. Например, если модель отказывается писать фишинговое письмо в лоб, jailbreak это формулировка, после которой она его всё-таки пишет) на 380 попыток, у garak вышло 2 на 174. После ручной проверки всех 20 кандидатов от обоих инструментов 12 оказались настоящими jailbreak’ами, 2 пограничными, 6 ложными срабатываниями.

Persuasion-атаки (FootInTheDoor + Framing, добраны отдельно): добавляют ещё 11 случаев утечки методологии на 40 попыток (модель обсуждает тему «академически», но без полностью actionable инструкций). Лучше всего срабатывает FramingAttack на qwen-RU (3/5).

На русском garak бесполезен: ноль найденных кандидатов на обеих моделях из 80 попыток. У HiveTraceRed 7 кандидатов на 380 попыток.

Если вам нужно тестировать LLM, обслуживающую русскоязычных пользователей (а это любой российский продукт, от GigaChat до банковского чат-бота на YandexGPT), используйте HiveTraceRed.

Дальше расскажем, почему так получилось, что именно нашли и как воспроизвести у себя.

Читать далее

LLM-пентест в 2026: что изменилось за год

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели11K

Привет, Хабр! Согласно отчёту Trend Micro TrendAI за прошлый год число CVE во всей AI-экосистеме почти удвоилось: с 419 до 756. Цифры стартовые, но мысль простая. Тестировать нейросетевые сервисы как обычные веб-приложения в 2026-м уже недостаточно. И вот почему.

В этой статье разберу:

- что появилось нового в OWASP LLM Top 10 (версия 2025);

- какие атаки реально работают в проде, а какие так и остались в arXiv;

- чем тестируют LLM сейчас (open-source стек плюс российские игроки);

- плюс короткий практический playbook на четыре уровня.

Читать далее

HTML во вложении — это программа. Почему почтовые фильтры его пропускают и как SOC его ловит

Время на прочтение10 мин
Охват и читатели7.6K

Когда сотрудник открывает письмо и видит вложение invoice.pdf — он знает, что это документ. Когда он видит setup.exe — большинство уже насторожится. А когда он видит scan_12.html — он, скорее всего, подумает, что это “какая-то страничка” и кликнет без задней мысли.

Хотя на самом деле .html — это программа. Маленькая программа для браузера, которая может делать всё то, что умеет JavaScript на стороне клиента. В том числе — собрать ZIP-архив прямо в памяти и скачать. Без единого запроса наружу.

Это работает. И будет работать дальше. Разбираемся почему.

Читать далее

Пентест с помощью ИИ в России и материалы для сертификации по безопасности ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели10K

Как ИИ поменял пентест уже вчера и где взять материалы для подготовки к сертификации по безопасности ИИ на русском языке и в одном месте

Читать далее

Межпозвоночная грыжа? Работай над ней

Время на прочтение5 мин
Охват и читатели138K

Внимание! Данная статья не призывает к самолечению! Не является рекламной. Люди уникальны, единой схемы для всех нет.

Статья будет иметь более мотивационный окрас, нежели россыпь медицинских терминов. Тем не менее, я считаю ей место быть, как реальной истории перехода от отчаяния к хорошему результату.

Предыстория


В свои 22 года я стал счастливым обладателем 4 грыж поясничного отдела позвоночника. Для меня это было шоком, ведь я люблю активный образ жизни и спорт в целом. Как они появились сказать сложно. Просто, в какой-то момент начала болеть спина по нарастающей. Полагаясь на русский авось, я продолжал играть в свой любимый футбол и доигрался.
Читать дальше →

Кросспостинг постов из Instagram в паблик VK на Python

Время на прочтение9 мин
Охват и читатели12K


Предисловие


Решил выйти на новый рынок сбыта, тем более, целевая аудитория моего интернет-магазина, не имеющая аккаунтов в Instagram, давно интересовалась появлением дубликата в VK. Идея хорошая, но постов на странице сотни, соответственно вручную работать ctrl+c ctrl+v не хотелось, плюс дальнейшие перспективы обезьянней работы не впечатляли.

Уверенный, что в интернете полно бесплатный решений, я начал гуглить. Естественно, первые страницы поисковой выдачи пестрят платными сервисами, с довольно обширными функционалами. Но мне, всего лишь на всего, надо было перенести все посты со страницы Instagram в паблик VK и в дальнейшем синхронно пополнять его.

Не найдя ничего подходящего может плохо искал, было решено задушила жаба писать скрипт самому. Выбрал язык python. Просто, удобно, без лишних наворотов, да и скорость в этом деле не важна.

Документация по api Instagram и VK довольно подробная и задачка не кажется сложной. Освободив себе пару вечеров, я приступил к работе. Первым делом необходимо было получить токены как в Instagram, так и в VK. С этим проблем не было, оба были получены за пару минут.

Дальше меня ждал первый подводный камень…
Читать дальше →

Информация

В рейтинге
505-й
Откуда
Россия
Зарегистрирован
Активность

Специализация

Специалист по информационной безопасности