Как стать автором
Обновить
-13
Карма
0
Рейтинг

Пользователь

  • Подписчики
  • Подписки 1
  • Публикации
  • Комментарии

Циклы маршрутизации

Блог компании Qrator Labs Децентрализованные сети Информационная безопасность *Сетевые технологии *

Добрый день! Меня зовут Александр Зубков, я работаю в Qrator Labs и сегодня я хочу поговорить о циклах маршрутизации.

Читать далее
Всего голосов 28: ↑28 и ↓0 +28
Просмотры 7.3K
Комментарии 12

Оценка важности «фичей» для нелинейных моделей

Python *Машинное обучение *

Задачи, которые сегодня решает машинное обучение, зачастую являются комплексными и включают в себя большое количество признаков (фичей). Из-за сложности и многообразия исходных данных применение простых моделей машинного обучения часто не позволяет достигнуть необходимых результатов, поэтому в реальных бизнес-кейсах применяют сложные, нелинейные модели. У таких моделей есть существенный недостаток: из-за их сложности практически невозможно увидеть логику, по которой модель присвоила именно этот класс операции по счету. Особенно большое значение интерпретируемость модели играет, когда результаты ее работы необходимо представить заказчику — он скорее всего захочет узнать, на основе каких критериев принимаются решения для его бизнеса.

В стандартных пакетах для машинного обучения, таких как sklearn, xgboost, lightGBM существуют методы для оценки важности влияния на конечный результат той или иной фичи (параметра). Однако эти метрики важности не дают представление о том, как именно эти признаки влияют на предсказания модели. Например, как время проведенной операции указывает на то, была ли сделка мошеннической? Или как сильно адрес прописки владельца карты смещает предсказание модели? Для ответа на эти вопросы необходимо найти комплексное решение, которое помогло бы повысить интерпретируемость нелинейных моделей. Таким инструментом является библиотека SHAP. В библиотеке SHAP для оценки вклада фичей в итоговое предсказание моделей рассчитываются значения Шэпли. Для оценки важности фичи происходит оценка предсказаний модели, которая была обучена на основе датасета с и без данной фичи.

Рассмотрим работу данной библиотеки на примере определения мошеннических операций. Рассмотрим поля, которые есть в нашей таблице. В таблице содержится 213 столбцов, что довольно много для ручного перебора с помощью метода обучения модели без каждого признака поочередно для выявления важности каждой из фич.

Приведенный ниже код взят с kaggle и доработан для демонстрации функций рассматриваемого инструмента.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 1.7K
Комментарии 0

Самый маленький офисный пакет в мире

Блог компании VDSina.ru Ненормальное программирование *GitHub Софт
Перевод


Всем нам знаком традиционный офисный пакет — текстовый редактор, электронные таблицы, программа для создания презентаций, возможно, приложение для создания диаграмм или заметок. Всё это мы видим в Microsoft Office и в Google Docs. Все эти программы мощны и объёмны. Но каким будет минимальное количество кода, требуемое для создания офисного пакета?
Читать дальше →
Всего голосов 85: ↑83 и ↓2 +81
Просмотры 33K
Комментарии 26

Простые правила IT-гигиены

Информационная безопасность *Google Chrome Браузеры Софт
Доброго времени суток.

Просторы интернета давно не являются безопасным пространством (если его вообще можно было когда-либо считать как таковым) для пользователя. Тем более необычным является то, что многие не считают нужным (или не знают как) соблюдать относительно простые правила, так называемой, IT-гигиены.

image

В рамках этой статьи хочется несколько обобщить простейшие способы защиты от различных напастей и неприятных моментов на пути веб-серфинга, чтобы каждый мог делать это просто и быстро (почти как умываться по утрам и чистить зубы).

Давайте приступим.

Нюансы проблематики


Наверняка каждый так или иначе сталкивался с моментом, когда с аккаунта знакомого вдруг начинает поступить какой-то левый спам, просьбы занять денежку и что-то еще такое-этакое.
Читать дальше →
Всего голосов 37: ↑23 и ↓14 +9
Просмотры 23K
Комментарии 89

VxLAN фабрика. Часть 3

Блог компании OTUS Cisco *Сетевые технологии *

Привет, Хабр. Заканчиваю цикл статей, посвященных запуску курса "Сетевой инженер" от OTUS, по технологии VxLAN EVPN по маршрутизации внутри фабрики и использовании Firewall для ограничения доступа между внутренними сервисами


Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 3K
Комментарии 1

Высокопроизводительный TSDB benchmark VictoriaMetrics vs TimescaleDB vs InfluxDB

Системное администрирование *IT-инфраструктура *Визуализация данных DevOps *
Перевод

VictoriaMetrics, TimescaleDB и InfluxDB были сравнены в предыдущей статье по набору данных с миллиардом точек данных, принадлежащих 40K уникальным временным рядам.


Несколько лет назад была эпоха Zabbix. Каждый bare metal сервер имел не более нескольких показателей – использование процессора, использование оперативной памяти, использование диска и использование сети. Таким образом метрики с тысяч серверов могут поместиться в 40 тысяч уникальных временных рядов, а Zabbix может использовать MySQL в качестве бэкенда для данных временных рядов :)


В настоящее время один node_exporter с конфигурациями по умолчанию предоставляет более 500 метрик на среднем хосте. Существует множество экспортеров для различных баз данных, веб-серверов, аппаратных систем и т. д. Все они предоставляют множество полезных показателей. Все больше и больше приложений начинают выставлять различные показатели на себя. Существует Kubernetes с кластерами и pod-ами, раскрывающими множество метрик. Это приводит к тому, что серверы выставляют тысячи уникальных метрик на хост. Таким образом, уникальный временной ряд 40K больше не является высокой мощностью. Он становится мейнстримом, который должен быть легко обработан любой современной TSDB на одном сервере.


Что такое большое количество уникальных временных рядов на данный момент? Наверное, 400К или 4М? Или 40м? Давайте сравним современные TSDBs с этими цифрами.

Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 2.9K
Комментарии 6

Миграция на Zimbra при помощи imapsync

Блог компании Zextras Системное администрирование *Сетевые технологии *
Recovery mode
Помимо таких долгожданных функций как Иерархическая адресная книга и официальная поддержка Ubuntu 18.10 LTS, релиз Zimbra 8.8.15 принес нам известия о грядущем снятии с поддержки целого ряда утилит, необходимых для миграции с других почтовых систем на Zimbra Collaboration Suite. В частности, поддержка ZCS Migration Wizard for Domino была полностью прекращена, а ZCS Migration Wizard for Exchange теперь будет поддерживать лишь импорт файлов PST из Outlook. Для осуществления полноценной миграции разработчики Zimbra Collaboration Suite предлагают воспользоваться платными онлайн-сервисами, однако далеко не каждое предприятие из соображений безопасности готово предоставить данные своих почтовых ящиков третьим лицам, и далеко не каждое предприятие может позволить себе дополнительные траты, связанные с миграцией на Zimbra. Специально для таких пользователей существует программой imapsync, которая способна обеспечить надежную инкрементальную миграцию с любой почтовой системы на Zimbra.

image
Читать дальше →
Всего голосов 5: ↑3 и ↓2 +1
Просмотры 4.8K
Комментарии 16

Пишем Reverse socks5 proxy на powershell.Часть 2

Информационная безопасность *Сетевые технологии *Разработка под Windows *
История об исследовании и разработке в 3-х частях. Часть 2 — разработческая.
Буков много — пользы еще больше.

В первой части статьи мы познакомились с некоторым инструментарием по организации обратных туннелей, посмотрели на их преимущества и недостатки, изучили механизм работы Yamux мультиплексора и описали основные требования к вновь создаваемому powershell-модулю. Настало время заняться разработкой клиентского powershell модуля к уже готовой реализации обратного туннеля RSocksTun.

Прежде всего, нам необходимо понять, в каком режиме будет работать наш модуль. Очевидно, что для прима-передачи данных нам необходимо будет использовать механизм windows сокетов и предоставляемые .Net возможности по потоковому чтению-записи в сокеты. Но, с другой стороны, т.к. наш модуль должен обслуживать несколько yamux-стримов одновременно, то все операции ввода-вывода не должны полностью блокировать выполнение нашей программы. Отсюда напрашивается вывод о том, что наш модуль должен использовать программную многопоточность и выполнять операции чтения-записи с yamux-сервером, а так же операции чтения-записи к серверам назначения в разных программных потоках. Ну и само собой необходимо предусмотреть механизм взаимодействия между нашими параллельными потоками. Благо, powershell предоставляет широкие возможности по запуску и управлению программными потоками.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 2.5K
Комментарии 2

Информация

В рейтинге
5,469-й
Зарегистрирован
Активность