Как стать автором
Обновить
10
0

Пользователь

Отправить сообщение

Я больше не верю публичным датасетам

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров11K

Когда я прочитал новость о том, что исследователи MIT обнаружили вплоть до 10% ошибок в разметке самых популярных датасетов для обучения нейросетей, то решил, что нужно рассказать и о нашем опыте работы с публичными датасетами.

Уже более пяти лет мы занимаемся анализом сетевого трафика и машинным обучением моделей обнаружения компьютерных атак. И часто используем для этого публичные наборы обучающих данных. Расскажу, с какими сложностями мы при этом столкнулись и почему больше не верим публичным датасетам.

Читать далее
Всего голосов 24: ↑23 и ↓1+31
Комментарии14

Ведение систем IPAM и DCIM в NetBox: начинаем с кабельного журнала

Время на прочтение5 мин
Количество просмотров47K

Привет! Меня зовут Дмитрий, в Росбанке я занимаюсь автоматизацией сетевой инфраструктуры. Этим постом я начинаю серию публикаций о NetBox — популярном опенсорс-инструменте для документирования инфраструктуры на уровне IP-адресации (IPAM) и железа (DCIM). NetBox ценен тем, что даже с базовой функциональностью «из коробки» он предоставляет множество возможностей, не говоря уже о допиливании через форки. Далее я представлю NetBox подробнее и на нашем примере расскажу, с чего начинать работу.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии10

Блокировка Docker Hub для России. Без паники разбираемся как работать дальше

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров71K

Главной новостью этой недели стала блокировка пользователей из России ресурсом Docker Hub. Она осуществляется по Geo IP.

Ирония в том, что у самого докера есть инструменты, чтобы обойти эту блокировку. Используем докер, чтобы обойти блокировку докера и дальше использовать докер.

В статье три проверенных мною способа, как получить доступ к ресурсу.

Читать далее
Всего голосов 81: ↑77 и ↓4+93
Комментарии47

Мы так и не смогли защитить свою модель машинного обучения от состязательных атак. Пока

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.5K

Наша команда разработчиков Исследовательского центра доверенного искусственного интеллекта ИСП РАН первые два года занималась построением сетевой системы обнаружения вторжений, основанной на применении методов машинного обучения. А в последний год мы сменили щит на меч и начали атаковать состязательными атаками (adversarial attacks) синтезированную нами же модель.

Задача была простой: оценить устойчивость модели к состязательным атакам. Спойлер: модель не устойчива, а как это исправить — мы пока не знаем. Подробности ниже.

Читать далее
Всего голосов 21: ↑21 и ↓0+21
Комментарии8

Подключаем умный поиск (GPT) к своей базе документов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров21K

Есть отечественный файрвол (NGFW) и есть документация для пользователей powered by GitBook. В этой документации работает простой поиск — только по словам и словосочетаниям. И это плохо, потому что нет ответов на вопросы: "Какие алгоритмы шифрования ipsec поддерживаются у вас?", "Как заблокировать ютуб?", "Как настроить DMZ?".

Хочется, чтобы поиск был “умным” и чтобы пользователи могли обращаться с подобными вопросами именно к поиску, а не к инженерам тех. поддержки. AI или ML внутри — не важно, как это называть. Но на простые вопросы из списка выше поиск должен отвечать.

Я решил эту задачу (Retrieval Question Answering), используя OpenAI API. Казалось бы, уже опубликованы сотни похожих инструкций, как это сделать. Но под катом будет не инструкция, а рассказ про сложности, которые пришлось решить на пути от идеи до запуска поиска.

Читать далее
Всего голосов 19: ↑19 и ↓0+19
Комментарии25

Как построить систему геоаналитики с применением ML

Время на прочтение10 мин
Количество просмотров5.6K


Геоаналитика помогает бизнесу принимать решения: где открыть магазин, построить отель или возвести новостройку с учетом доступности и популярности локации, наличия конкурентов и сотен других факторов. Решать подобные аналитические задачи с большим количеством значимых признаков помогает машинное обучение. В этой статье мы рассмотрим примеры работы сервисов геоаналитики VK Predict. Выясним, какие модели машинного обучения используются при построении таких систем и из каких этапов состоит разработка продукта с возможностями геоаналитики.

Статья подготовлена на основе вебинара команд VK Predict и VK Cloud. 
Читать дальше →
Всего голосов 16: ↑15 и ↓1+22
Комментарии1

Как мы Nautobot до ума доводили

Время на прочтение10 мин
Количество просмотров5.4K

Много слов было сказано про концепцию Source of Truth в мире сетей, много копий сломано в дискуссиях о том, как лучше её реализовать. Кто-то голосует за Git, кто-то жить не может без Netbox, а кто-то по старинке хранит всё в Excel и собственной памяти.

Мы же в Hoff Tech вот уже больше года активно используем Nautobot, и нам есть чем поделиться с теми, кого гложут мысли: «Так, Nautobot установил, где у него кнопка что делать дальше?»

Если интересно, добро пожаловать под кат
Всего голосов 7: ↑7 и ↓0+7
Комментарии2

Kedro — ключ к модульной Data Science

Время на прочтение8 мин
Количество просмотров5.9K

Kedro — фреймворк модульного кода в Data Science. С его помощью вы можете создавать проекты по шаблону, настраивать конвейер в YAML, делить его на части, документировать проект — и это далеко не всё. Материалом о работе с Kedro делимся к старту курса по Data Science.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии1

Как оптимизировать проект Data Science с помощью Prefect

Время на прочтение10 мин
Количество просмотров6.2K

Есть ли способ оптимизировать рабочий процесс проекта Data Science всего в несколько строк кода? Да. Это Prefect. Делимся кратким руководством по работе с этим инструментом, пока у нас начинается флагманский курс Data Science.

Читать далее
Всего голосов 6: ↑5 и ↓1+5
Комментарии0

Тропа OSPF: от LSA до графа

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров7.8K

Роли LSA довольно подробно разобраны в разных источниках: router LSA описывает узлы графа, network LSA предназначен для широковещательных сегментов сети, summary LSA обеспечивает взаимодействие разных зон между собой… Однако собрать эти структуры данных воедино в целостный граф кажется мне достаточно нетривиальной задачей. Безусловно, RFC является источником абсолютного знания в такого рода вопросах, но лично мне сравнительно долго не удавалось его полноценно осознать. В этой статье я хотел бы поделиться своим представлением о назначении типов LSA, а также процессом построения графа на основе LSDB.

Читать далее
Всего голосов 5: ↑4 и ↓1+4
Комментарии5

Насколько хорошо у вас настроен OSPF/IS-IS или помогатор для сетевых инженеров

Время на прочтение12 мин
Количество просмотров10K

Коллеги-сетевики, привет. К написанию данной статьи меня сподвигли задачи, с которыми приходилось сталкиваться во время работы с OSPF/IS-IS и тот набор решений, к которому я в конечном итоге пришел. Речь идет о насущном вопросе сетевых инженеров, когда приходится применять настройки на живой сети (пусть и с программируемым откатом на крайний случай) без возможности посмотреть как это отразится на всей сети в целом. Если отдельные команды и сценарии еще можно проверить в лабе, то получить полную реплику сети практически невозможно. В связи с этим я задался вопросом о наличии инструмента, который позволял бы строить слепок сети и рассчитывать её реакцию на ранее примененные настройки. Об этом сегодняшний туториал.

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии7

Процессы и люди в IT: Иерархия в организации

Время на прочтение15 мин
Количество просмотров7.2K

В области информационных технологий традиционно уделяется большое внимание и процессам, и людям. Неудивительно, ведь с одной стороны работает большое количество людей, их совместную работу нужно организовать с помощью какого-то процесса. С другой стороны, эффективность работы людей в ИТ непропорционально зависит от их личных особенностей. Часто замена технических инструментов на более совершенные даёт заметно более низкий рост производительности, чем профессиональное развитие сотрудников. При этом обычно забывают о главном, что процессы выполняют люди, которые могут их выполнять самым неожиданным образом, вплоть до получения обратного запланированному результату. Ещё забывают, что процессы сильно меняют поведение людей, которые их выполняют. Многие проблемы в ИТ происходят именно из-за неверного понимания совместного действия людей и процессов. Тема необъятная, писать можно много. Эта статья о самом базовом, как образуется и растёт команда, которая будет потом выполнять какие-то процессы каким-то образом. Попробуем разобраться в сути вещей. Написать просто и понятно уже не обещаю.

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии6

Как устроены облачные сети и чем они отличаются от On-premise

Время на прочтение19 мин
Количество просмотров13K

Cloud Station — Photoshop Art by PhaseRunner

Принципы построения облачных и On-premise-сетей различаются: в облаке много новых сетевых сущностей и подходов к построению инфраструктуры. Но новое не значит сложное.

Меня зовут Болат Кажкенов, я архитектор VK Cloud. В этой статье я расскажу, чем различаются облачные и On-premise-сети, какие преимущества и недостатки есть у каждого из решений. 

Если раньше вы не работали с облачными сетями и представляете их устройство только в общих чертах, то, надеюсь, моя статья поможет вам восполнить пробелы в знаниях и проконсультировать коллег, если вдруг в вашей компании встанет вопрос о миграции в облако. Все примеры я буду показывать на нашей облачной платформе — VK Cloud.
Читать дальше →
Всего голосов 15: ↑14 и ↓1+19
Комментарии0

Получаем список российских IP-адресов

Время на прочтение4 мин
Количество просмотров44K

Мир меняется. И в текущей ситуации становится полезным список IP-адресов, условно принадлежащих автономным системам той или иной страны.

В этой статье вы узнаете, как получить список префиксов, анонсируемых автономными системами любой страны. Если вы, конечно, не знали этого раньше.

Читать далее
Всего голосов 28: ↑27 и ↓1+29
Комментарии10

Отнимаем и делим — исследуем целостность Рунета

Время на прочтение7 мин
Количество просмотров3.2K

В России постановлением Правительства определены виды угроз устойчивости, безопасности и целостности Рунета. О процессе принятия этого документа ранее писали на Хабре. "Но одно дело – определить виды угроз и совсем другое – выявлять сами угрозы и реагировать на них!" – скажете Вы и ... будете абсолютно правы. Кому это под силу, учитывая скорость изменения сети, ее масштабы и уровень ответственности?

Ответ на этот вопрос дает пункт 7 упомянутого выше постановления Правительства. Это три богатыря – Минцифры, Роскомнадзор и ФСБ. Как они будут выявлять угрозы? Есть три взаимодополняющих способа: по результатам учений, по результатам мониторинга сетей и по результатам исследований.

И если учениями и мониторингом (на уровне всея Рунета) я, как обычный интернет-пользователь, заниматься не могу, то небольшое исследование провести в состоянии.

Отнять и поделить
Всего голосов 3: ↑2 и ↓1+1
Комментарии1

Теория инвестиций для начинающих, часть 4

Время на прочтение28 мин
Количество просмотров50K
Франс Франкен Младший. Смерть и скупец. XVII в. Галерея Wellcome, Лондон.

Наш цикл об инвестициях близится к концу. Даже если вы не читали предыдущие три части, я настоятельно рекомендую прочитать раздел о сбережениях на пенсию. Вопрос накоплений на старость рано или поздно встанет перед каждым независимо от того, интересуется он финансовой математикой или нет. Впрочем, не обязательно глубоко разбираться в теории финансов, чтобы откладывать 10% от дохода и покупать на них индексный фонд. Простое механическое правило поможет вам в старости не зависеть от государственной пенсии. Я буду считать свою миссию выполненной, если вы возьмёте это правило на вооружение.

Краткое содержание четвёртой части:
  • как жить в мире, в котором среднестатистический инвестор паевого фонда получает доходность хуже рынка (купить рыночный портфель, то есть индекс);
  • какие инструменты позволяют купить индексный портфель в один клик (биржевые фонды, они же ETF'ы);
  • насколько эффективным может быть рынок, и как быстро новая информация отражается в цене акций (эффективность пугающая: рынок расследует космические катастрофы за несколько минут);
  • если не покупать индекс, то можно ли заработать на фондовом рынке по-другому (можно, если вы помогаете остальным преодолевать рыночные трения);
  • как автор инвестирует собственные деньги и копит на пенсию (всё скучно: индексные фонды).
Читать дальше →
Всего голосов 40: ↑40 и ↓0+40
Комментарии64

“Тайный клуб системной аналитики” или путь к идеалу

Время на прочтение5 мин
Количество просмотров9K

Hello World!

Меня зовут Сергей Павлов, я тимлид по системной аналитике в банке "Открытие” на продукте МСБ “Бизнес-Портал”. Хочу рассказать, как я решал задачи по управлению командой, когда к ней присоединился.

Скажу сразу: тут я не буду описывать графики, капасити, велосити и любые инструменты, связанные с командными метриками. Речь пойдет именно об организации процессов для повышения качества взаимодействия при коллективной работе.

Итак, морозное утро, вежливый голос руководителя мне говорит: “Это команда системных аналитиков, начинай творить добро”. Я смог выдавить только “угу” и сел думать насчет того самого творить и того самого добра.

Читать далее про добро
Всего голосов 4: ↑4 и ↓0+4
Комментарии6

Метрики в задачах машинного обучения

Время на прочтение9 мин
Количество просмотров662K

Привет, Хабр!



В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.


В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.


Читать дальше →
Всего голосов 40: ↑39 и ↓1+38
Комментарии9

Как организовать разметку данных для машинного обучения: методики и инструменты

Время на прочтение17 мин
Количество просмотров9.5K

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии3

Мониторим сессию удаленного админа при помощи screen

Время на прочтение2 мин
Количество просмотров11K
imageНедавно мне пришлось, что называется, перебороть себя. Дать доступ на свой любимый сервер некоему чужаку. Он натоптал своими грязными ботинками в моей уютной домашней директории, мацал косматыи лапами мои опрятные скрипты инициализации, рылся в логах, натащил в /opt какого-то барахла непонятно откуда. В общем, вел себя, как у себя дома.

Шучу, конечно. Удаленно зашел техник, установил специализированый софт своей фирмы, и удалился восвояси. Но, как говорится, в каждой шутке есть доля правды. Я довольно долго настаивал, чтобы фирма выслала свой софт и инструкции по установке. После того, как стало ясно, что этот номер не пройдет, стал обдумывать, как проконтролировать удаленного работника.

Собственно, решение основано на программе screen. Это консольных оконный менеджер, про который на хабре уже писали.
Читать дальше →
Всего голосов 22: ↑21 и ↓1+27
Комментарии28
1

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность