Комментарии 14
А не было желания после этого проанализировать какой-то другой публичный датасет? Теперь это же проще должно быть, когда вы примерно знаете, какие примерно ожидать там поля, как делать анализ и какие засады вас могут поджидать. Да, это дополнительная работа, но делать выводы сразу о всех публичных датасетах на основе анализа только одного - это несколько странно. )
Желание проанализировать другие датасеты есть, но даже с учётом полученного опыта это ресурсоёмкие операции. Найдутся ресурсы - будут новые исследования других датасетов.
Наше недоверие к публичным датасетам после десяти случаев с обнаружением ошибок (9 датасетов с ошибками в новости из подводки, десятый датасет - CICIDS2017 из нашего разбора) - естественно. Да, критическое мышление подсказывает, что не стоит делать преждевременных обобщений. Но на всякий случай останемся при своём: не будем доверять, будем проверять.
Вывод о недоверии не означает, что мы против использования публичных датасетов. Мы за, но со знанием проблем и ограничений используемых датасетов.
"Я больше не верю", кмк, воспринимается как полное неприятие.
В этом контексте неверие != неприятие.
Не верю, значит, не уверен в качестве данных и хочу проверить их перед использованием для обучения своей модели.
Неприятие датасета - это несогласие, нежелание принять, признать датасет? Мы признаём публичные датасеты. Выводы №№ 2 и 4 явно про это.
Я всего лишь про заголовок. Который, кмк, слишком резкий.
Здесь соглашаемся. Заголовок резкий. Но и огорчение большое, что столько ресурсов потрачено на поиски проблем в одном из самых цитируемых датасетов. И боль накоплена соответствующая: пост созревал долгих три года в черновиках.
Перед публикацией внимательно перечитали советы хаброавторам. И по пункту № 3 рассчитываем, что заголовок сочтут цепляющим, а не кликбейтным. И что он вызовет интерес, а не раздражение и желание поставить минус за преднамеренный обман.
В сочетании с картинкой, действительно создается впечатление отвержения. Может так было бы точнее — «Я больше не верю качеству публичных датасетов» или «Публичные датасеты — "грязные" данные»?
Или какой-нибудь мем на тему «Ожидания/Реальность»?
Впрочем, для тех кто статью уже прочитал — это не важно 😊
Предложения принимаются!
Но пока кажется (и статистика публикации подтверждает это), что тема, заголовок и КДПВ выбраны удачно: в текущей дискуссии плюсы набирают и комментарии читателей, и комментарии автора (значит, по-своему правы все стороны); пост попал в топ-5 за сутки; количество просмотров и голосов растёт активнее, чем в среднем.
…Теоретически, воспроизводя проделанную авторами работу в модели GenAI, можно придумать обратную связь по качеству датасета… Валидировать имеющийся датасет в строгом соответствии с RFC каждого из протоколов (Ethernet, tcp, ip, http и т.д.)… А дальше либо править настройки конфигурации (можно ту же модель научить - что и где править) и собирать обучающий pcap заново, либо править ранее собранные данные (быстрее, но хуже качество)… С другой стороны, не всегда и не везде возможно настроить строго по спецификации, версии компонентов инфраструктуры меняются как и сами rfc, так что ещё вопрос, что выбрать в качестве эталона для обратной связи…
Теоретически. Практически это не представляется возможным в условиях ресурсных ограничений. Аккуратно "собирать обучающий pcap заново" - у нас на эту операцию уходит 3-6 месяцев, если это наш датасет. Если нужно воспроизвести сбор стороннего датасета, то еще можно прибавлять минимум полгода. И это только затраты времени специалистов.
Допустим идеальный датасет был создан и ИИ успешно по нему обучился. Сможет ли такой ИИ обнаруживать новые виды атак, которых не было в исходном датасете?
Очевидно с некоторой долей вероятности да. Тем более вероятно, чем более новые атаки похожи на старые и чем менее они похожи на "валидные действия пользователей".
На это и расчёт. Разработчики ML систем обнаружения вторжений в своих рекламных буклетах пишут так:
"Существующие сигнатурные системы способны обнаруживать только те вторжения, которые представлены в базе сигнатур. А новые, ранее неизвестные атаки (zero-day) останутся незамеченными. Мы предлагаем купить нашу ML систему, которая благодаря обобщающей способности модели, обученной на известных атаках, сможет обнаруживать и новые, неизвестные атаки".
И ещё. В статье "Сравнение системы обнаружения вторжений на основе машинного обучения с сигнатурными СЗИ" мы провели такой эксперимент.
Взяли сигнатурное средство защиты WAF ModSecurity с базой правил CRS 3.3.2, и одно из правил (942360) заменили на предыдущую версию (более раннюю редакцию). Таким образом смоделировали ситуацию, когда одна из атак стала реализацией 0-day уязвимости - после изменения в базе правил стала отсутствовать информация об одной реализации SQL инъекции.
Как и предполагалось, после модификации базы решающих правил («откат назад» к старой редакции правила 942360) сигнатурный классификатор WAF ModSecurity перестал обнаруживать реализацию тестовой SQL инъекции нулевого дня.
А обученная ML модель успешно обнаруживала такую 0-day атаку. Важно подчеркнуть, что конкретная реализация тестовой SQL инъекции нулевого дня не предъявлялась модели на этапе обучения. И обнаружение ранее неизвестной атаки стало возможным благодаря обобщающей способности модели машинного обучения.
Я больше не верю публичным датасетам