Как стать автором
Обновить
19
0
Морозов Денис @iXCray

Делатель дел

Отправить сообщение

Быстрый Data Mining или сравнение производительности C# vs Python (pandas-numpy-skilearn)

Время на прочтение7 мин
Количество просмотров14K
Всем привет! Разбираясь со Spark Apache, столкнулся с тем, что после достаточно небольшого усложнения алгоритмов подготовки данных расчеты стали выполняться крайне медленно. Поэтому захотелось реализовать что-нибудь на C# и сравнить производительность с аналогичным по классу решением на стеке python (pandas-numpy-skilearn). Аналогичным, потому что они выполняются на локальной машине. Подготовка данных на C# осуществлялась встроенными средствами (linq), расчет линейной регрессии библиотекой extremeoptimization.

В качестве тестовой использовалась задача «B. Предсказание трат клиентов» с ноябрьского соревнования Sberbank Data Science Journey.

Сразу стоит подчеркнуть, что в данной статье описан исключительно аспект сравнения производительности платформ, а не качества модели и предсказаний.

Итак, сначала краткое описание последовательности действий реализованных на C# (куски кода будут ниже):

1. Загрузить данные из csv. Использовалась библиотека Fast Csv Reader.
2. Отфильтровать расходные операции и выполнить группировку по месяцам.
3. Добавить каждому клиенту те категории, по которым у него не было операций. Для того, чтобы избежать длительный перебор цикл-в-цикле использовал фильтр Блума. Реализацию на C# нашел тут.
4. Формирование массива Hashing trick. Так как готовой реализации под C# не удалось найти, пришлось реализовать самому. Для этого скачал и допилил реализацию хеширования murmurhash3
5. Собственно расчет регрессии.
Читать дальше →

Мониторинг системных вызовов Linux

Время на прочтение7 мин
Количество просмотров22K


Если вы инженер в организации, использующей Linux в промышленной эксплуатации, у меня к вам два небольших вопроса.


  1. Сколько уникальных исходящих TCP-соединений установили ваши серверы за последний час?
  2. Какие процессы и пользователи инициировали установку этих соединений?

Если вы в состоянии ответить на оба вопроса, отлично — дальше можете не читать. А если ответа нет, то получить эту информацию поможет go-audit.

Читать дальше →

Моделирование активов предприятия: современные стандарты и практика

Время на прочтение7 мин
Количество просмотров9.2K

Можно ли войти в одну реку дважды?

Данная статья написана по результатам доклада на конференции Нефтегазстандарт – 2016, сделанная мной от имени компании ТриниДата.

Работая инженером — онтологом, я занимаюсь созданием информационных моделей для информационных систем.

В этой статье я хочу рассказать о практике применения стандарта ИСО 15926 к моделированию активов предприятия, и о том, к каким результатам это привело нас в итоге. Те, кто незнаком со стандартом, могут не расстраиваться — чтение статьи будет полезно независимо от знания стандарта.
Читать дальше →

Altaro VM Backup: резервное копирование виртуальных машин Hyper-V и VMware

Время на прочтение7 мин
Количество просмотров15K
Развертывание виртуальных машин становится общей практикой для компаний всех размеров. По мере внедрения виртуализации и роста популярности облачной модели развиваются и соответствующие средства резервного копирования, охватывая все больше виртуальных сред, операционных систем и приложений. Так как же организовать резервное копирование виртуальной среды на должном уровне? Насколько это сложно?

Читать дальше →

GFI MailEssentials: почта под защитой

Время на прочтение10 мин
Количество просмотров8.5K
Продукт MailEssentials компании GFI хорошо известен многим администраторам Exchange, особенно в малых и средних компаниях. Он защищает серверы Exchange или другую систему электронной почты на базе SMTP от спама и вредоносных программ. Тем же, кто ещё не знаком с данным продуктом, мы попробуем кратко рассказать, что он собой представляет и чем может быть полезен для вашей организации.
Читать дальше →

Пакет-географ – первая рабочая версия

Время на прочтение6 мин
Количество просмотров25K

Прежде всего хотел бы поблагодарить за более, чем 80 звёзд на GitHub, которые мне дали читатели Хабра по результатам предыдущего поста. И это несмотря на то, что репозиторий был почти пустой, а ссылка была неочевидна. На лицо полезность этого пакета!


Для тех, кто пропустил первый пост, маленькое повторение. Если у Вас в приложении есть что-то вроде:


Читать дальше →

GFI Archiver: хранилище для почты

Время на прочтение8 мин
Количество просмотров14K
Сегодня излишне говорить о том, что объем хранимой информации и ее ценность для организации растет с каждым годом. Это действительно так, причем мало просто сохранить, необходимо обеспечить возможность получения необходимой информации из ранее сохраненного архива, причем за кратчайшие сроки и с минимальными затратами. архивирование электронной почты — одна из важнейших корпоративных задач.

Читать дальше →

GFI LanGuard — виртуальный консультант по безопасности

Время на прочтение8 мин
Количество просмотров16K
Одна из важных задач обеспечения информационной безопасности — выявление потенциальных рисков и «дыр» в защите. Нужно найти и устранить уязвимости прежде, чем ими смогут воспользоваться злоумышленники. Для этой цели и служат сканеры безопасности. Сканер безопасности или сканер уязвимости сети –  автоматизированное решение для полного сканирование портов, контроля обновлений ПО, а также проверки программных и аппаратных средств. Это приложение, сканирующее сеть и ее устройства для обнаружения слабых мест в системе безопасности.


Сканеры проверяют используемые приложения, ищут «дыры», которыми могли бы воспользоваться хакеры, и предупреждают администратора о зонах риска и пробелах в системе безопасности. Их задачи — идентификация и анализ уязвимостей, инвентаризация ресурсов, формирование отчетов, содержащих описание уязвимостей и варианты их устранения. Конечно, функциональность разных продуктов существенно различается, однако грамотно используя сканер уязвимости сети, хорошо зарекомендовавший себя на рынке, можно значительно усилить сетевую безопасность.
Читать дальше →

Первые тесты универсальной вакцины против рака прошли успешно

Время на прочтение2 мин
Количество просмотров55K
image

Эксперты в борьбе с раком считают, что в этой области совершён долгожданный прорыв: немецкими учёными успешно проведены первые тесты универсальной вакцины на людях. Наночастицы жира, в которых были размещены кусочки РНК опухоли, запустили в организме иммунную реакцию – в результате организм начал сам атаковать раковые клетки.

Вакцину с наночастицами вводили в кровь трём пациентам, у которых опухоль уже находилась в поздней стадии развития. Организм испытуемых начал вырабатывать T-лимфоциты, обеспечивающие распознавание и уничтожение клеток, несущих чужеродные антигены.

Учёные из Майнцского университета имени Иоганна Гуттенберга под руководством профессора Угура Сахина [Ugur Sahin] рассказывают, что вакцина успешно сработала и на мышах с «агрессивно растущими» опухолями. «Такие вакцины изготавливать быстро и недорого,– пишут они. – И антиген практически любой опухоли может быть закодирован в неё. В связи с этим подход к иммунотерапии через наночастицы с РНК можно рассматривать, как новейшую вакцину универсальной применимости».
Читать дальше →

Вселенная расширяется быстрее, чем считалось

Время на прочтение3 мин
Количество просмотров31K

Новый расчёт постоянной Хаббла: 73,23 (км/с)/Мпк




Когда астрофизик Эдвин Хаббл почти сто лет назад определил, что Вселенная равномерно расширяется во всех направлениях, это открытие стало настоящим сюрпризом. Потом, в середине 1990-х, выяснилась ещё одна неожиданная вещь: оказывается, Вселенная расширяется всё быстрее, то есть с ускорением. Причиной этого посчитали отталкивающие свойства вещества, названного «тёмной энергией».

Теперь c помощью космического телескопа Хаббла астрофизики НАСА определили, что Вселенная расширяется быстрее, чем ожидалось. Как трактовать это открытие, пока неясно, но постоянную Хаббла придётся пересмотреть.
Читать дальше →

Нежелательное ПО DNS Unlocker использует метод DNS hijack для обмана пользователей

Время на прочтение6 мин
Количество просмотров12K
Наши специалисты технической поддержки фиксируют самые разные запросы пользователей. Один из таких запросов оказался весьма интересным для анализа. Ситуация заключалась в обнаруженной нами вредоносной активности в системе пользователя, которая проявилась в технике DNS hijack. Она используется для перенаправления DNS-запросов пользователя на специальные DNS-серверы. Особенность ситуации заключалась в том, что вредоносное ПО использовало для операции hijack специальный метод, который скрывал от глаз пользователя вредоносную активность.



Таким образом, пользователь не мог видеть настройки DNS-серверов в GUI-интерфейсе сетевых настроек. Кроме этого, там также будет указано, что система использует DHCP-протокол для получения настроек. Нежелательное приложение, которые выполняет подобные операции в системе, называется DNS Unlocker.

Читать дальше →

Security Week 22: Microsoft против паролей, судебные неувязки с Tor, криптолокер атакует клиентов Amazon

Время на прочтение5 мин
Количество просмотров16K
Google хоронит пароли, а Microsoft — нет. Напомню, в предыдущем выпуске я рассказал про светлое будущее в виде проекта Google Abacus — спорную, но весьма прогрессивную систему идентификации пользователя по его поведению (aka я помню все твои трещинки). Почти одновременно к беседе о паролях присоединилась компания Microsoft, но выступила (новость), скажем так, с позиций традиционализма и ортодоксальности. Конкретно, пост в блоге разработчиков Active Directory посвящен борьбе не со всеми паролями, а только с плохими.

Microsoft можно понять: она работает на рынке корпоративного ПО, а там инновации приживаются убийственно медленно (мимо дрожащих истерзанных рук; да что у меня сегодня такое с песенными ассоциациями?!). Очевидно, что с абакусом или без него, с паролями мы будем иметь дело еще долго. Так вот, по словам представителя Microsoft, типовые подходы к обеспечению стойкости паролей, такие как требования к длине пароля, наличию спецсимволов и регулярной замене — не работают. Более того, они упрощают задачу взлома: огражденные со всех сторон заборчиками политик, пользователи задают и обновляют свои пароли крайне предсказуемым образом. Если, например, поставить забор повыше (задать порог минимум в 10-15 символов), сотрудники начинают повторять одно и то же слово несколько раз подряд. Не ок.

Как многолетний офисный труженик Ворда, не могу не согласиться. Браво! Но не уверен, что предлагаемое компанией решение порадует меня именно как сотрудника. Microsoft работает с огромным количеством учетных записей в куче пользовательских и корпоративных сервисов, и решила использовать информацию о том, как эти записи пытаются взломать (10 миллионов атак в день!). В результате мы получаем функцию Dynamically Banned Passwords. Будучи внедренной в корпоративном окружении, эта фича не позволит сотруднику задать пароль, про который точно известно, что он (1) слаб и что (2) злодеи уже пытались (возможно успешно) взломать такой же (или похожий) пароль где-то еще.
Читать дальше →

Профессор Готче: «Поведение «биг-фармы» соответствует критерию «организованная преступность»»

Время на прочтение10 мин
Количество просмотров19K
(перевод on-line статьи “Daily Mail” от 23.02.2016)

Сэр Ричард Томпсон, экс-президент Королевского колледжа врачей бывший 21 год личным врачом королевы Великобритании, предупредил сегодня, что многие лекарственные средства являются менее эффективными, чем об этом думают. Он является одним из шести известных врачей, которые сегодня предупреждают о влиянии фармацевтических компаний на неоправданные назначения лекарств.

Эксперты, возглавляемые кардиологом национальной системы здравоохранения доктором Асимом Малхотрой, утверждают, что пациентам слишком часто выписывают бесполезные и даже вредные лекарства и процедуры, которые им не нужны. Они обвиняют государственную систему здравоохранения в неспособности противостоять фармацевтическим гигантам, которые продвигают лекарства только с целью получить от этого выгоду, а не с целью принести пользу.


Читать дальше →

Безопасное криптопрограммирование. Часть 1

Время на прочтение5 мин
Количество просмотров26K
В данном посте мы бы хотели познакомить пользователей Хабра с базовыми правилами программирования криптографических алгоритмов. Этот набор правил под названием «Стандарт криптографического программирования» (“Cryptography coding standard”) был создан в 2013 году по инициативе одного из гуру современной криптографии Жана-Филиппа Омассона. Несмотря на то, что описанные в нем подходы хорошо известны тем, кто профессионально занимается разработкой систем защиты, новичкам и студентам, думаем, будет интересно ознакомиться с предлагаемым текстом, являющимся переводом набора правил с сайта cryptocoding.net.
Читать дальше →

Файловая система и Hadoop: Опыт Twitter (Часть 2)

Время на прочтение2 мин
Количество просмотров9.7K
Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:


Сегодня мы решили продолжить краткий разбор заметки команды инженеров Twitter о создании файловой системы для работы с кластерами Hadoop.

Читать дальше →

40 ключевых концепций информационных технологий доступно и понятно

Время на прочтение16 мин
Количество просмотров160K
Представляю вашему вниманию перевод очень ёмкой, и в то же время достаточно краткой (для такого масштаба проблемы) статьи Карла Чео. Я решил, что очень хочу сделать её перевод практически сразу, как только начал читать, и очень рад, что в итоге сделал это.
Для того, чтобы сделать обучение более веселым и интересным, представляю вам перечень важных теорий и концепций информатики, объяснённых с помощью аналогий с минимальным количеством технических деталей. Это будет похоже на очень быстрый курс информатики для всех с целью просто дать вам общее представление об основных концепциях.

Важные замечания:
  • Пункты с неуказанным источником написаны мной самостоятельно. Поправьте меня, если вы заметите какие-то неточности. Предложите лучшую аналогию, если это возможно.
  • Заголовки ссылаются на соответствующие им статьи в Wikipedia. Пожалуйста, читайте эти статьи для более серьезных и детальных объяснений.
  • Аналогии — отличный способ объяснить материал, но они не идеальны. Если вы хотите по-настоящему понять перечисленные концепции, вам следует начать с фундаментальных азов и рассуждать, исходя из них.

Также зацените эту инфографику (вариант на русском), если вы просто начинающий программист.
Читать дальше →

Как я начинал работать с nRF24LE или ещё один способ запрограммировать этот чип

Время на прочтение3 мин
Количество просмотров31K
Попали мне в руки чипы NRF24LE1E в модульном исполнении с маркировкой на пузе XL24LE1-D01.
Вот такие вот:

image

Взял я их на собственные эксперименты, но речь пойдёт не об этом. Выбор пал на этот чип, так как в нём уже есть свой процессор на базе 8051, что не может не радовать. Я бегло пролистал даташит, и вроде ничего не вызвало вопросов. Мол, получим — а там разберёмся. И вот модули у меня.
Читать дальше →

Обнаружение сигнала в шумах

Время на прочтение3 мин
Количество просмотров35K

По роду своей деятельности мне приходится осуществлять контроль различных параметров наземных импульсно-фазовых радионавигационных систем (ИФРНС) «Чайка» и Loran-C. В этой статье я хочу поделиться одним из методов обнаружения времени прихода импульса ИФРНС при наличии шумов. Метод применим во многих задачах поиска сигнала известной формы.
Читать дальше →

Некапча Mail.Ru – капча, которая не показывается

Время на прочтение5 мин
Количество просмотров60K
Привет, Хабр! Сегодня я хочу рассказать вам про наш относительно недавно созданный сервис капчи. Этот сервис отличается от аналогичных тем, что нашу капчу никогда чаще всего вообще не требуется разгадывать. Как известно, капча негативно влияет на конверсию — не все могут быстро ее разгадать, особенно если она неоправданно сложная, а часть пользователей уходят с ресурса. И я не знаю таких людей, которые любят ломать глаза и получают удовольствие от процесса разгадывания. Поэтому если избавить пользователя от необходимости вводить еще одно дополнительное поле, то это сделает его немножечко лояльнее.


Вряд ли кто-то сможет разгадать эту капчу :)

Если в двух словах, то Некапча — это сервис интеллектуальной капчи, не требующий от человека прохождения проверки. Естественно, без дополнительной информации сервис не может ничего сказать о пользователе. Откуда же ее взять? Дело в том, что у Mail.Ru более 100 млн пользователей, причем большая часть из них авторизована. А это значит, что с запросом на наши домены передаются сессионные куки, по которым мы определяем пользователя, а затем достаем его профиль, статистику, спам-рейтинг и т.д. Вся эта информация подается на вход алгоритма-классификатора, и на выходе мы получаем предположение о том, кем является пользователь — человеком или спам-ботом.
Читать дальше →

Сертификаты SSL, SHA-1 и nic.ru

Время на прочтение1 мин
Количество просмотров15K
Cообщение полугодовой давности о том, что в ближайшем будущем MS & Google будут считать некоторые сертификаты серверов «недоверенными». Как следствие, в браузерах сервер будет не «зелёненьким», а «красненьким», что совсем не понравится клиентам.

www.symantec.com/connect/blogs/google-s-sha-1-deprecation-plan-chrome

В частности, к проблемным сертификатам относятся сертификаты серверов с подписью SHA-1/SHA-2 у котороых промежуточный сертификат содержит SHA-1 (но рутовый CA может содержать SHA-1).
Читать дальше →
1

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность