Да, для качественного результата большУю роль также играет общий объем выборки, репрезентативность и консистентность набора данных. Что касается балансировки, на практике для нее нет четких правил, по которым можно понять допустимый дисбаланс в количестве объектов классов, при котором данные станут «идеальными».
В рассмотренном нами случае выбранный способ балансировки (выборка с недостатком) не дал значительного прироста качества, т. к. исключенные тексты содержали неявный контекст не только для балансируемого класса. Сказалась специфика задачи и данных. Существуют и другие способы балансировки, целью которых является расширить «маленькие» по объему классы. С ними мы планируем в будущем поэкспериментировать.
Как вы думаете в вашем случае можно использовать генерацию чистых данных для ликвидации дисбаланса при обучении?
Можно попробовать генерировать на основании имеющихся данных синтетические тексты с помощью генеративных LLM и использовать такой подход для расширения небольших по объему классов.
Но к такому набору будет также применена проверка человеком, как и при валидации реальных отчетов. Мы не можем на 100% исключить возможные галлюцинации и шум в синтетических данных.
Большое количество участников требует подключать к проведению мероприятия много экспертов со стороны компании-организатора. Мы были единственным партнером хакатона и, к сожалению, физически не могли подключить столько экспертов, поэтому пришлось тщательно выбирать участников.
Добрый день!
Да, для качественного результата большУю роль также играет общий объем выборки, репрезентативность и консистентность набора данных. Что касается балансировки, на практике для нее нет четких правил, по которым можно понять допустимый дисбаланс в количестве объектов классов, при котором данные станут «идеальными».
В рассмотренном нами случае выбранный способ балансировки (выборка с недостатком) не дал значительного прироста качества, т. к. исключенные тексты содержали неявный контекст не только для балансируемого класса. Сказалась специфика задачи и данных. Существуют и другие способы балансировки, целью которых является расширить «маленькие» по объему классы. С ними мы планируем в будущем поэкспериментировать.
Можно попробовать генерировать на основании имеющихся данных синтетические тексты с помощью генеративных LLM и использовать такой подход для расширения небольших по объему классов.
Но к такому набору будет также применена проверка человеком, как и при валидации реальных отчетов. Мы не можем на 100% исключить возможные галлюцинации и шум в синтетических данных.
Очень рады, что статья оказалась вам полезной!)
Опубликовали)
https://habr.com/ru/company/rvision/blog/694630/
Да, в ближайшее время опубликуюем продолжение)
Добрый день! Да, все верно, это наш недочет)
Добрый день, Евгений! Да, для этой атаки обязательно наличие ключа KRBTGT у злоумышленника.
Очень рад, что моя статья оказалась полезной!
Виктор, спасибо! Да, все так, как ты сказал. MITRE сделали очень много важных и интересных вещей, добавлю в статью ссылку на их историю))
Большое количество участников требует подключать к проведению мероприятия много экспертов со стороны компании-организатора. Мы были единственным партнером хакатона и, к сожалению, физически не могли подключить столько экспертов, поэтому пришлось тщательно выбирать участников.