Первым делом требуется подготовить данные для прямого прохода (т.н. inference – тот процесс, который мы делаем, когда используем обученную модель в продакшене). Этим занимается т. н. процессор (из терминологии библиотеки transformers). На вход он принимает оригинальное изображение, а также OCR разметку, то есть все слова, имеющиеся на чеке, вместе с соответствующими им координатами и размерами (далее - боксами), которые нормализуются в диапазон [0…1000]. Процессор совершает следующие действия:
Пользователь
Synthetic Minority Oversampling Technique
В datascience все уже знают о важности данных для успеха любого проекта с машинным обучением. Часто бывает, что сами данные представляют собой гораздо большую ценность, чем модель, которая на них обучилась, поскольку процесс получения этих данных может быть гораздо сложнее, опаснее, дороже, чем обучение модели. Поэтому набирает популярность генерация наборов данных, создаются специальные фреймворки. Сегодня речь пойдет об одном из таких фреймворков, SMOTE, или же Synthetic Minority Oversampling Technique. За два последних десятилетия накопилось довольно много материала по этой технике. Ключевое отличие этой статьи в экспериментах, которые проводились в ходе исследования работоспособности такого типа овэрсэмплинга.
Постановка проблемы
Все, кто хоть раз сталкивался с машинным обучением, знакомы с таким понятием как «отсутствие баланса классов». Мало когда встречаются отбалансированные наборы данных, только если мы сами не сделаем себе нужную выборку с балансом. Также, многие наверно слышали, что дисбаланс классов может негативно отражаться на обучении модели, поэтому всегда возникали вопросы о том, как такую проблему решать.
Обнаружение DNS туннелей
В современном мире, где цифровые технологии проникают во все сферы нашей жизни, обеспечение безопасности данных становится важной задачей.
В данной статье мы расскажем, что представляют собой DNS-туннели, каким образом они создаются, а также как методы машинного обучения могут быть применены для эффективного их обнаружения.
Как устроен алгоритм CRF и какие возможности он имеет
Как устроен алгоритм CRF и какие возможности он имеет
Для проекта распознавания сканов документов были изучены существующие подходы к решению задачи NER (Named Entity Recognition). Среди огромного множества решений на основе трансформеров был обнаружен один занятный алгоритм – Conditional Random Fields (CRF). Пытаясь разузнать о нем больше, было замечено, что в русском сегменте нет простого и понятного объяснения без горы математических доказательств. В данной статье предпринята попытка исправить это и рассказать простым языком о том, как устроен алгоритм CRF и какие возможности он имеет. Зачем это надо?
Настройка OpenVPN для CTF
Однажды была поставлена задача создать собственный стенд для проведения CTF-соревнований. Задачи были подготовлены в формате Docker-контейнеров, но для них была необходима сеть.
Возникает логичный вопрос «Зачем?». Сеть позволит выделить отдельный IP адрес каждой задаче. В принципе, конечно, можно обойтись и без сети, однако такой подход имеет несколько минусов, а именно:
Legacy pairing в Bluetooth Low Energy и его недостатки
Эта статья посвящена старой, но все еще актуальной уязвимости протокола Bluetooth Low Energy 4.0 - 4.1.
Справка – версия Bluetooth и BLE не может быть обновлена, так как зависит от адаптера, который чаще всего припаян к плате устройства.
В современном мире понятие Bluetooth перегружено. Что первое приходит на ум, когда говорят: «работает по Bluetooth»? Конечно же беспроводные колонки, фитнес браслеты, пульты управления, клавиатуры, мышки и огромное множество другой мелкой техники, которую в современном мире принято называть Интернет Вещей (IoT). На самом деле большинство из них передают информацию по протоколу Bluetooth Low Energy (BLE или Bluetooth Smart).
Протокол BLE – спецификация ядра Bluetooth, определенная в стандарте Bluetooth 4.0, который отличается малым энергопотреблением по сравнению с классической версией протокола.
Справка – начиная с версии 4.0 Bluetooth SIG фактически поддерживает два стандарта: BR/EDR и Low Energy.
Снова о распознавании рукописного текста, на этот раз с помощью CRNN
Нейронные сети в частности и машинное обучение в целом демонстрируют потрясающие результаты в тех областях науки и техники, в которых от них никто не ожидал этого еще лет 10 назад. Уже на текущий момент модели машинного обучения превзошли человека в задачах классификации, распознавания, предсказания и даже в некоторых играх человек не способен конкурировать c ними…
Задача классификации изображений на датасете ImageNet – ярчайший пример того, что нейросети превзошли человека (внимание: еще в 2016 году).
Виртуализация
Цикл статей "Инженерия машинного обучения".
Этой статьей мы начинаем публикацию цикла материалов, посвященных созданию и управлению инфраструктурой для проектов машинного обучения (MLOps), который основан на лекциях совместного учебного курса УрФУ и ООО "Сайберлимфа" "Инженерия машинного обучения" [1]. Мы планируем в ближайших статьях кратко рассмотреть отдельные темы этого курса: виртуализация, автоматизация работы с данными, инструменты для создания пайплайнов, CI/CD для ML, средства мониторинга и контроля. При изложении акцент будет сделан на практическом применении, в том числе на инструментах для решения задач MLOps, например, Jenkins, Ansible, dvc, Airflow, MLFlow и другие. Конечно же изложение вышеуказанных тем будет кратким, в "формате habr", достаточным для формирования у читателя понимания того, как и зачем пользоваться тем или иным инструментом, однако недостаточным для того, чтобы сразу после прочтения статьи приступить к выполнению производственных задач. Конечно же для этого требуется практика и более системное изучение инструментария и имеющихся подходов. И если вам интересно продолжать совершенствование в этом направлении, то рекомендуем обратиться к курсу "Инженерия машинного обучения" УрФУ, в котором представленные в статьях темы рассматриваются более глубоко, а также многочисленным источникам по теме: книгам, тематическим каналам, видеолекциям. Также мы планируем учитывать обратную связь от читателей и рассказывать о том, что может быть востребовано в ваших проектах. Пожалуйста, пишите пожелания в комментариях или напрямую авторам.
Информационная безопасность в IoT
Данная статья была задумана и реализована, как обзорный материал, посвященный теме обеспечения информационной безопасности в многообразном мире Интернета вещей. Упомянутая многообразность среди прочего привела и к тому, что текст получился весьма объемным, но, смеем надеяться, полезным в части систематизации информации. Для удобства читателей, знакомых с тематикой, ниже приведено содержание статьи с возможностью перехода к интересующему разделу. Тем же, кто только начинает своё путешествие в этой области знаний, предлагаем двигаться по тексту последовательно.
Теоретические основы компьютерной безопасности, часть 2: Зарождение компьютерной безопасности
Мы продолжаем серию публикаций про историю компьютерной безопасности.
Статья "Теоретические основы компьютерной безопасности, часть 1: Эволюция ЭВМ" была посвящена развитию ЭВМ и операционных систем. Наиболее важным достижением того периода стали операционные системы реального времени, позволявшие пользователям параллельно работать с одной ЭВМ. Но эти же операционные системы создали новый пласт проблем - который и привел к появлению дисциплины "компьютерная безопасность".
Теоретические основы компьютерной безопасности, часть 1: Эволюция ЭВМ
Информационная безопасность в целом не является новой научной дисциплиной. Считается, что впервые вопросы информационной безопасности были задокументированы в трактате «Искусство войны» древнекитайского полководца Сунь Цзы. Этот трактат был написан в V-м веке до нашей эры, но уже в нем автор говорил о важности обладания актуальной информацией о собственных силах и силах противника, о необходимости сокрытия этой информации и распространении ложной информации, адресованной противоборствующей стороне: «Поэтому просвещенные государи и мудрые полководцы двигались и побеждали, совершали подвиги, превосходя всех других, потому, что всё знали наперед. Знание наперед нельзя получить от богов и демонов, нельзя получить и путем умозаключений по сходству, нельзя получить и путем всяких вычислений. Знание положения противника можно получить только от людей».
Можно сказать, что практически до конца первой половины XX-го века суждения Сунь Цзы были корректны, и вопросы обеспечения информационной безопасности, в основном, сводились к организации безопасного взаимодействия людей и документов (при их создании, пересылке, потреблении информации из них). Но все кардинально поменялось с появлением электронных вычислительных машин (ЭВМ) и развитием систем связи, в частности, появлением сети ArpaNet, на базе которой позже сформировалась современная глобальная сеть Интернет. Эти технические средства привнесли революцию в процессы обработки информации: теперь документ (его образ в ЭВМ) стало возможным копировать и пересылать за тысячи километров буквально за доли секунды, а попутно появились относительно простые способы решения задач уничтожения и искажения информации. Все это породило самостоятельную ветвь отрасли информационной безопасности – компьютерную безопасность. В этой области знаний были разработаны все используемые сегодня методы защиты информации в компьютерных системах на базе строгого доказательного подхода, что гарантирует (при соблюдении некоторых условий) выполнение критериев безопасности для компьютерной системы.
Применение онтологии к решению практических задач ИБ (часть 1)
В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...
Kerberoasting v2
В статье «Итоги внутренних пентестов — 2020» от Positive Technologies сообщается, что в 61% внутренних тестирований на проникновение успешно применялась атака Kerberoasting. Это мотивировало меня разобраться в атаке, а также ответить на следующие вопросы: почему Kerberoasting так часто эксплуатируется и какие практики по защите существуют и успешно применяются на текущий момент.
Перед тем как перейти к сути атаки, полезно получить общее представление о том, как именно устроена проверка подлинности Kerberos.
Проверка подлинности
В проверке подлинности Microsoft по Kerberos участвуют:
Key Distribution Center (KDC) – Центр распространения ключей Kerberos, одна из служб безопасности Windows server. Работает на контроллере домена (DC);
Клиент, который хочет пройти проверку подлинности и получить доступ к сервису;
Сервер, к сервису которого пользователь хочет получить доступ.
Использование рекуррентных нейронных сетей в Reinforcement Learning
Поиск аномалий во временных рядах
Вокруг нас появляется все больше различных устройств, систем, комплексов, платформ – технологических, информационных, киберфизических. Мы не задумываемся о том, как кофеварка варит кофе, робот-пылесос выбирает маршрут при уборке квартиры, система биометрической идентификации определяет человека на видеокадре, а портал государственных услуг обрабатывает наше заявление на получение справки об отсутствии судимости. Мы привыкаем к этим системам как к «черным ящикам», которые дают предсказуемый результат на выходе, не заботясь о том, как эти системы себя «чувствуют».
Определение классов сетевых узлов и выявление аномалий в их активности по сетевому трафику в пассивном режиме
На современных заводах, а часто и на достаточно больших поездах и пароходах активно используются сети передачи данных. При этом во многих случаях передаваемая информация достаточно критична для того, чтобы задуматься о её защите. Для этого применяются средства обеспечения сетевой безопасности. А для применения таких средств надо как минимум знать, что за узлы представлены в защищаемой сети, по каким адресам они расположены и как взаимодействуют со своими соседями.
И в этой статье предлагается один из методов определения типа сетевых узлов с помощью новомодных методов машинного обучения.
Изолированная программная среда – сферический конь в вакууме или …?
Упрощать реальный мир, чтобы потом успешно разрабатывать всякие теории для мира вымышленного – нормальный процесс для всех наук. У физиков целый набор таких артефактов: идеальный газ, материальная точка, абсолютно твердое тело, несжимаемая жидкость и пр.
И что самое характерное – работает! Уравнение Менделеева-Клапейрона прекрасно описывает вполне реальный газ, а классическая механика великолепно справляется с расчетом движения тел различного масштаба (пока этот масштаб не уходит в микромир или наоборот – в область действия общей теории относительности).
По-умному такой процесс называется моделирование методом редуцирования – т.е. мы максимально упрощаем реальную систему, получаем математическую модель, которая позволяет прогнозировать поведение системы, а потом оказывается, что и реальная система удовлетворяет выявленным закономерностям.
Подобный подход применяется и в сфере информационной безопасности. Сегодня мы посмотрим на один из таких артефактов – изолированную программную среду и как эта среда позволяет решать задачи обеспечения ИБ в реальных системах.
Информация
- В рейтинге
- 443-й
- Зарегистрирован
- Активность