Как стать автором
Обновить

Я больше не верю публичным датасетам

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров11K
Всего голосов 24: ↑23 и ↓1+31
Комментарии14

Комментарии 14

А не было желания после этого проанализировать какой-то другой публичный датасет? Теперь это же проще должно быть, когда вы примерно знаете, какие примерно ожидать там поля, как делать анализ и какие засады вас могут поджидать. Да, это дополнительная работа, но делать выводы сразу о всех публичных датасетах на основе анализа только одного - это несколько странно. )

Желание проанализировать другие датасеты есть, но даже с учётом полученного опыта это ресурсоёмкие операции. Найдутся ресурсы - будут новые исследования других датасетов.

Наше недоверие к публичным датасетам после десяти случаев с обнаружением ошибок (9 датасетов с ошибками в новости из подводки, десятый датасет - CICIDS2017 из нашего разбора) - естественно. Да, критическое мышление подсказывает, что не стоит делать преждевременных обобщений. Но на всякий случай останемся при своём: не будем доверять, будем проверять.

Вывод о недоверии не означает, что мы против использования публичных датасетов. Мы за, но со знанием проблем и ограничений используемых датасетов.

"Я больше не верю", кмк, воспринимается как полное неприятие.

В этом контексте неверие != неприятие.

Не верю, значит, не уверен в качестве данных и хочу проверить их перед использованием для обучения своей модели.

Неприятие датасета - это несогласие, нежелание принять, признать датасет? Мы признаём публичные датасеты. Выводы №№ 2 и 4 явно про это.

Я всего лишь про заголовок. Который, кмк, слишком резкий.

Здесь соглашаемся. Заголовок резкий. Но и огорчение большое, что столько ресурсов потрачено на поиски проблем в одном из самых цитируемых датасетов. И боль накоплена соответствующая: пост созревал долгих три года в черновиках.

Перед публикацией внимательно перечитали советы хаброавторам. И по пункту № 3 рассчитываем, что заголовок сочтут цепляющим, а не кликбейтным. И что он вызовет интерес, а не раздражение и желание поставить минус за преднамеренный обман.

В сочетании с картинкой, действительно создается впечатление отвержения. Может так было бы точнее — «Я больше не верю качеству публичных датасетов» или «Публичные датасеты — "грязные" данные»?

Или какой-нибудь мем на тему «Ожидания/Реальность»?

Датасет: Ожидания vs Реальность
Датасет: Ожидания vs Реальность

Впрочем, для тех кто статью уже прочитал — это не важно 😊

Предложения принимаются!

Но пока кажется (и статистика публикации подтверждает это), что тема, заголовок и КДПВ выбраны удачно: в текущей дискуссии плюсы набирают и комментарии читателей, и комментарии автора (значит, по-своему правы все стороны); пост попал в топ-5 за сутки; количество просмотров и голосов растёт активнее, чем в среднем.

…Теоретически, воспроизводя проделанную авторами работу в модели GenAI, можно придумать обратную связь по качеству датасета… Валидировать имеющийся датасет в строгом соответствии с RFC каждого из протоколов (Ethernet, tcp, ip, http и т.д.)… А дальше либо править настройки конфигурации (можно ту же модель научить - что и где править) и собирать обучающий pcap заново, либо править ранее собранные данные (быстрее, но хуже качество)… С другой стороны, не всегда и не везде возможно настроить строго по спецификации, версии компонентов инфраструктуры меняются как и сами rfc, так что ещё вопрос, что выбрать в качестве эталона для обратной связи…

Теоретически. Практически это не представляется возможным в условиях ресурсных ограничений. Аккуратно "собирать обучающий pcap заново" - у нас на эту операцию уходит 3-6 месяцев, если это наш датасет. Если нужно воспроизвести сбор стороннего датасета, то еще можно прибавлять минимум полгода. И это только затраты времени специалистов.

Допустим идеальный датасет был создан и ИИ успешно по нему обучился. Сможет ли такой ИИ обнаруживать новые виды атак, которых не было в исходном датасете?

Очевидно с некоторой долей вероятности да. Тем более вероятно, чем более новые атаки похожи на старые и чем менее они похожи на "валидные действия пользователей".

На это и расчёт. Разработчики ML систем обнаружения вторжений в своих рекламных буклетах пишут так:

"Существующие сигнатурные системы способны обнаруживать только те вторжения, которые представлены в базе сигнатур. А новые, ранее неизвестные атаки (zero-day) останутся незамеченными. Мы предлагаем купить нашу ML систему, которая благодаря обобщающей способности модели, обученной на известных атаках, сможет обнаруживать и новые, неизвестные атаки".

И ещё. В статье "Сравнение системы обнаружения вторжений на основе машинного обучения с сигнатурными СЗИ" мы провели такой эксперимент.

Взяли сигнатурное средство защиты WAF ModSecurity с базой правил CRS 3.3.2, и одно из правил (942360) заменили на предыдущую версию (более раннюю редакцию). Таким образом смоделировали ситуацию, когда одна из атак стала реализацией 0-day уязвимости - после изменения в базе правил стала отсутствовать информация об одной реализации SQL инъекции.

Как и предполагалось, после модификации базы решающих правил («откат назад» к старой редакции правила 942360) сигнатурный классификатор WAF ModSecurity перестал обнаруживать реализацию тестовой SQL инъекции нулевого дня.

А обученная ML модель успешно обнаруживала такую 0-day атаку. Важно подчеркнуть, что конкретная реализация тестовой SQL инъекции нулевого дня не предъявлялась модели на этапе обучения. И обнаружение ранее неизвестной атаки стало возможным благодаря обобщающей способности модели машинного обучения.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий