Как стать автором
Обновить
28
16
CyberLympha @CyberLympha

Пользователь

Отправить сообщение

Применение LayoutXLM для извлечения сущностей из чеков

Время на прочтение5 мин
Количество просмотров459

Первым делом требуется подготовить данные для прямого прохода (т.н. inference – тот процесс, который мы делаем, когда используем обученную модель в продакшене). Этим занимается т. н. процессор (из терминологии библиотеки transformers). На вход он принимает оригинальное изображение, а также OCR разметку, то есть все слова, имеющиеся на чеке, вместе с соответствующими им координатами и размерами (далее - боксами), которые нормализуются в диапазон [0…1000]. Процессор совершает следующие действия:

Читать далее
Всего голосов 5: ↑4 и ↓1+7
Комментарии0

Synthetic Minority Oversampling Technique

Время на прочтение6 мин
Количество просмотров679

В datascience все уже знают о важности данных для успеха любого проекта с машинным обучением. Часто бывает, что сами данные представляют собой гораздо большую ценность, чем модель, которая на них обучилась, поскольку процесс получения этих данных может быть гораздо сложнее, опаснее, дороже, чем обучение модели. Поэтому набирает популярность генерация наборов данных, создаются специальные фреймворки. Сегодня речь пойдет об одном из таких фреймворков, SMOTE, или же Synthetic Minority Oversampling Technique. За два последних десятилетия накопилось довольно много материала по этой технике. Ключевое отличие этой статьи в экспериментах, которые проводились в ходе исследования работоспособности такого типа овэрсэмплинга.

Постановка проблемы

Все, кто хоть раз сталкивался с машинным обучением, знакомы с таким понятием как «отсутствие баланса классов». Мало когда встречаются отбалансированные наборы данных, только если мы сами не сделаем себе нужную выборку с балансом. Также, многие наверно слышали, что дисбаланс классов может негативно отражаться на обучении модели, поэтому всегда возникали вопросы о том, как такую проблему решать.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Обнаружение DNS туннелей

Время на прочтение12 мин
Количество просмотров8.1K

В современном мире, где цифровые технологии проникают во все сферы нашей жизни, обеспечение безопасности данных становится важной задачей.

В данной статье мы расскажем, что представляют собой DNS-туннели, каким образом они создаются, а также как методы машинного обучения могут быть применены для эффективного их обнаружения.

Читать далее
Всего голосов 6: ↑4 и ↓2+4
Комментарии5

Как устроен алгоритм CRF и какие возможности он имеет

Время на прочтение8 мин
Количество просмотров1.9K

Как устроен алгоритм CRF и какие возможности он имеет

Для проекта распознавания сканов документов были изучены существующие подходы к решению задачи NER (Named Entity Recognition). Среди огромного множества решений на основе трансформеров был обнаружен один занятный алгоритм – Conditional Random Fields (CRF). Пытаясь разузнать о нем больше, было замечено, что в русском сегменте нет простого и понятного объяснения без горы математических доказательств. В данной статье предпринята попытка исправить это и рассказать простым языком о том, как устроен алгоритм CRF и какие возможности он имеет. Зачем это надо?

Читать далее
Всего голосов 4: ↑4 и ↓0+6
Комментарии6

Настройка OpenVPN для CTF

Время на прочтение9 мин
Количество просмотров3.2K

Однажды была поставлена задача создать собственный стенд для проведения CTF-соревнований. Задачи были подготовлены в формате Docker-контейнеров, но для них была необходима сеть.

Возникает логичный вопрос «Зачем?». Сеть позволит выделить отдельный IP адрес каждой задаче. В принципе, конечно, можно обойтись и без сети, однако такой подход имеет несколько минусов, а именно:

Читать далее
Всего голосов 2: ↑2 и ↓0+4
Комментарии4

Legacy pairing в Bluetooth Low Energy и его недостатки

Время на прочтение9 мин
Количество просмотров2.4K

Эта статья посвящена старой, но все еще актуальной уязвимости протокола Bluetooth Low Energy 4.0 - 4.1.

Справка – версия Bluetooth и BLE не может быть обновлена, так как зависит от адаптера, который чаще всего припаян к плате устройства.

В современном мире понятие Bluetooth перегружено. Что первое приходит на ум, когда говорят: «работает по Bluetooth»? Конечно же беспроводные колонки, фитнес браслеты, пульты управления, клавиатуры, мышки и огромное множество другой мелкой техники, которую в современном мире принято называть Интернет Вещей (IoT). На самом деле большинство из них передают информацию по протоколу Bluetooth Low Energy (BLE или Bluetooth Smart).

Протокол BLE – спецификация ядра Bluetooth, определенная в стандарте Bluetooth 4.0, который отличается малым энергопотреблением по сравнению с классической версией протокола.

Справка – начиная с версии 4.0 Bluetooth SIG фактически поддерживает два стандарта: BR/EDR и Low Energy.

Узнать о недостатках
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Снова о распознавании рукописного текста, на этот раз с помощью CRNN

Время на прочтение5 мин
Количество просмотров8.7K

Нейронные сети в частности и машинное обучение в целом демонстрируют потрясающие результаты в тех областях науки и техники, в которых от них никто не ожидал этого еще лет 10 назад. Уже на текущий момент модели машинного обучения превзошли человека в задачах классификации, распознавания, предсказания и даже в некоторых играх человек не способен конкурировать c ними…

Задача классификации изображений на датасете ImageNet – ярчайший пример того, что нейросети превзошли человека (внимание: еще в 2016 году).

Давайте посмотрим
Всего голосов 5: ↑5 и ↓0+5
Комментарии7

Виртуализация

Время на прочтение14 мин
Количество просмотров3.8K

Цикл статей "Инженерия машинного обучения".

Этой статьей мы начинаем публикацию цикла материалов, посвященных созданию и управлению инфраструктурой для проектов машинного обучения (MLOps), который основан на лекциях совместного учебного курса УрФУ и ООО "Сайберлимфа" "Инженерия машинного обучения" [1]. Мы планируем в ближайших статьях кратко рассмотреть отдельные темы этого курса: виртуализация, автоматизация работы с данными, инструменты для создания пайплайнов, CI/CD для ML, средства мониторинга и контроля. При изложении акцент будет сделан на практическом применении, в том числе на инструментах для решения задач MLOps, например, Jenkins, Ansible, dvc, Airflow, MLFlow и другие. Конечно же изложение вышеуказанных тем будет кратким, в "формате habr", достаточным для формирования у читателя понимания того, как и зачем пользоваться тем или иным инструментом, однако недостаточным для того, чтобы сразу после прочтения статьи приступить к выполнению производственных задач. Конечно же для этого требуется практика и более системное изучение инструментария и имеющихся подходов. И если вам интересно продолжать совершенствование в этом направлении, то рекомендуем обратиться к курсу "Инженерия машинного обучения" УрФУ, в котором представленные в статьях темы рассматриваются более глубоко, а также многочисленным источникам по теме: книгам, тематическим каналам, видеолекциям. Также мы планируем учитывать обратную связь от читателей и рассказывать о том, что может быть востребовано в ваших проектах. Пожалуйста, пишите пожелания в комментариях или напрямую авторам.

Познакомиться с виртуализацией
Всего голосов 2: ↑1 и ↓10
Комментарии0

Информационная безопасность в IoT

Время на прочтение19 мин
Количество просмотров7.9K

Данная статья была задумана и реализована, как обзорный материал, посвященный теме обеспечения информационной безопасности в многообразном мире Интернета вещей. Упомянутая многообразность среди прочего привела и к тому, что текст получился весьма объемным, но, смеем надеяться, полезным в части систематизации информации. Для удобства читателей, знакомых с тематикой, ниже приведено содержание статьи с возможностью перехода к интересующему разделу. Тем же, кто только начинает своё путешествие в этой области знаний, предлагаем двигаться по тексту последовательно.

Давайте разберемся
Всего голосов 4: ↑4 и ↓0+4
Комментарии8

Теоретические основы компьютерной безопасности, часть 2: Зарождение компьютерной безопасности

Время на прочтение12 мин
Количество просмотров3.7K

Мы продолжаем серию публикаций про историю компьютерной безопасности. 

Статья "Теоретические основы компьютерной безопасности, часть 1: Эволюция ЭВМ" была посвящена развитию ЭВМ и операционных систем. Наиболее важным достижением того периода стали операционные системы реального времени, позволявшие пользователям параллельно работать с одной ЭВМ. Но эти же операционные системы создали новый пласт проблем - который и привел к появлению дисциплины "компьютерная безопасность".

Нырнуть в глубины истории ИБ!
Всего голосов 3: ↑2 и ↓1+1
Комментарии3

Теоретические основы компьютерной безопасности, часть 1: Эволюция ЭВМ

Время на прочтение18 мин
Количество просмотров7.9K

Информационная безопасность в целом не является новой научной дисциплиной. Считается, что впервые вопросы информационной безопасности были задокументированы в трактате «Искусство войны» древнекитайского полководца Сунь Цзы. Этот трактат был написан в V-м веке до нашей эры, но уже в нем автор говорил о важности обладания актуальной информацией о собственных силах и силах противника, о необходимости сокрытия этой информации и распространении ложной информации, адресованной противоборствующей стороне: «Поэтому просвещенные государи и мудрые полководцы двигались и побеждали, совершали подвиги, превосходя всех других, потому, что всё знали наперед. Знание наперед нельзя получить от богов и демонов, нельзя получить и путем умозаключений по сходству, нельзя получить и путем всяких вычислений. Знание положения противника можно получить только от людей».

Можно сказать, что практически до конца первой половины XX-го века суждения Сунь Цзы были корректны, и вопросы обеспечения информационной безопасности, в основном, сводились к организации безопасного взаимодействия людей и документов (при их создании, пересылке, потреблении информации из них). Но все кардинально поменялось с появлением электронных вычислительных машин (ЭВМ) и развитием систем связи, в частности, появлением сети ArpaNet, на базе которой позже сформировалась современная глобальная сеть Интернет. Эти технические средства привнесли революцию в процессы обработки информации: теперь документ (его образ в ЭВМ) стало возможным копировать и пересылать за тысячи километров буквально за доли секунды, а попутно появились относительно простые способы решения задач уничтожения и искажения информации. Все это породило самостоятельную ветвь отрасли информационной безопасности – компьютерную безопасность. В этой области знаний были разработаны все используемые сегодня методы защиты информации в компьютерных системах на базе строгого доказательного подхода, что гарантирует (при соблюдении некоторых условий) выполнение критериев безопасности для компьютерной системы.

Нырнуть в глубины истории ИБ!
Всего голосов 12: ↑12 и ↓0+12
Комментарии7

Применение онтологии к решению практических задач ИБ (часть 1)

Время на прочтение11 мин
Количество просмотров21K

В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...

Познакомиться с онтологиями
Всего голосов 7: ↑6 и ↓1+5
Комментарии9

Kerberoasting v2

Время на прочтение8 мин
Количество просмотров27K

В статье «Итоги внутренних пентестов — 2020» от Positive Technologies сообщается, что в 61% внутренних тестирований на проникновение успешно применялась атака Kerberoasting. Это мотивировало меня разобраться в атаке, а также ответить на следующие вопросы: почему Kerberoasting так часто эксплуатируется и какие практики по защите существуют и успешно применяются на текущий момент. 

Перед тем как перейти к сути атаки, полезно получить общее представление о том, как именно устроена проверка подлинности Kerberos.

Проверка подлинности

В проверке подлинности Microsoft по Kerberos участвуют:

Key Distribution Center (KDC) – Центр распространения ключей Kerberos, одна из служб безопасности Windows server. Работает на контроллере домена (DC);

Клиент, который хочет пройти проверку подлинности и получить доступ к сервису;

Сервер, к сервису которого пользователь хочет получить доступ.

Разберемся более подробно
Всего голосов 10: ↑10 и ↓0+10
Комментарии4

Использование рекуррентных нейронных сетей в Reinforcement Learning

Время на прочтение12 мин
Количество просмотров9.7K
В задачах машинного обучения для обучения модели может использоваться известная целевая переменная (задачи такого типа называются «обучение с учителем»), либо модель самостоятельно учится находить закономерности с имеющихся данных, не имея заранее известные правильные результаты (такой тип задач называется «обучение без учителя»). Обучение с подкреплением (Reinforcement Learning, RL) не относится ни к первому типу, ни ко второму, однако обладает свойствами и того, и другого. Этот вид машинного обучения в настоящее время бурно развивается, разрабатывается множество теоретических алгоритмов RL [1], однако основная причина всплеска интереса заключается в множестве практических задач, в которых применяется RL, прежде всего в автоматизации, оптимизации и робототехнике. Обучение с подкреплением эффективно прежде всего там, где системе требуется анализировать окружающую среду и выбирать политику поведения с учетом получаемого отклика.
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии4

Поиск аномалий во временных рядах

Время на прочтение10 мин
Количество просмотров22K

Вокруг нас появляется все больше различных устройств, систем, комплексов, платформ – технологических, информационных, киберфизических. Мы не задумываемся о том, как кофеварка варит кофе, робот-пылесос выбирает маршрут при уборке квартиры, система биометрической идентификации определяет человека на видеокадре, а портал государственных услуг обрабатывает наше заявление на получение справки об отсутствии судимости. Мы привыкаем к этим системам как к «черным ящикам», которые дают предсказуемый результат на выходе, не заботясь о том, как эти системы себя «чувствуют».

Изучим этот процесс более подробно
Всего голосов 11: ↑11 и ↓0+11
Комментарии12

Определение классов сетевых узлов и выявление аномалий в их активности по сетевому трафику в пассивном режиме

Время на прочтение9 мин
Количество просмотров3.4K

На современных заводах, а часто и на достаточно больших поездах и пароходах активно используются сети передачи данных. При этом во многих случаях передаваемая информация достаточно критична для того, чтобы задуматься о её защите. Для этого применяются средства обеспечения сетевой безопасности. А для применения таких средств надо как минимум знать, что за узлы представлены в защищаемой сети, по каким адресам они расположены и как взаимодействуют со своими соседями.

 И в этой статье предлагается один из методов определения типа сетевых узлов с помощью новомодных методов машинного обучения.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии3

Изолированная программная среда – сферический конь в вакууме или …?

Время на прочтение9 мин
Количество просмотров5.3K

Упрощать реальный мир, чтобы потом успешно разрабатывать всякие теории для мира вымышленного – нормальный процесс для всех наук. У физиков целый набор таких артефактов: идеальный газ, материальная точка, абсолютно твердое тело, несжимаемая жидкость и пр.

И что самое характерное – работает! Уравнение Менделеева-Клапейрона прекрасно описывает вполне реальный газ, а классическая механика великолепно справляется с расчетом движения тел различного масштаба (пока этот масштаб не уходит в микромир или наоборот – в область действия общей теории относительности).

По-умному такой процесс называется моделирование методом редуцирования – т.е. мы максимально упрощаем реальную систему, получаем математическую модель, которая позволяет прогнозировать поведение системы, а потом оказывается, что и реальная система удовлетворяет выявленным закономерностям.

Подобный подход применяется и в сфере информационной безопасности. Сегодня мы посмотрим на один из таких артефактов – изолированную программную среду и как эта среда позволяет решать задачи обеспечения ИБ в реальных системах.

Изучить подход
Рейтинг0
Комментарии3

Информация

В рейтинге
443-й
Зарегистрирован
Активность