Pull to refresh
20
0

Разработчик ИТ и ИБ-решений

Send message

Добрый день!

Все таки чистых данных для обучения недостаточно?

Да, для качественного результата большУю роль также играет общий объем выборки, репрезентативность и консистентность набора данных. Что касается балансировки, на практике для нее нет четких правил, по которым можно понять допустимый дисбаланс в количестве объектов классов, при котором данные станут «идеальными».

В рассмотренном нами случае выбранный способ балансировки (выборка с недостатком) не дал значительного прироста качества, т. к. исключенные тексты содержали неявный контекст не только для балансируемого класса. Сказалась специфика задачи и данных. Существуют и другие способы балансировки, целью которых является расширить «маленькие» по объему классы. С ними мы планируем в будущем поэкспериментировать.

Как вы думаете в вашем случае можно использовать генерацию чистых данных для ликвидации дисбаланса при обучении?

Можно попробовать генерировать на основании имеющихся данных синтетические тексты с помощью генеративных LLM и использовать такой подход для расширения небольших по объему классов.

Но к такому набору будет также применена проверка человеком, как и при валидации реальных отчетов. Мы не можем на 100% исключить возможные галлюцинации и шум в синтетических данных.

Очень рады, что статья оказалась вам полезной!)

Да, в ближайшее время опубликуюем продолжение)

Добрый день! Да, все верно, это наш недочет)

Добрый день, Евгений! Да, для этой атаки обязательно наличие ключа KRBTGT у злоумышленника.

Очень рад, что моя статья оказалась полезной!

Виктор, спасибо! Да, все так, как ты сказал. MITRE сделали очень много важных и интересных вещей, добавлю в статью ссылку на их историю))

Большое количество участников требует подключать к проведению мероприятия много экспертов со стороны компании-организатора. Мы были единственным партнером хакатона и, к сожалению, физически не могли подключить столько экспертов, поэтому пришлось тщательно выбирать участников.

Команды отбирали с помощью организаторов хакатона, субъективно команд «профессиональных хакатонщиков» было больше половины.
Спасибо! Надеемся, наш опыт будет полезен тем, кто только планирует свой первый хакатон.

Information

Rating
Does not participate
Works in
Registered
Activity