Pull to refresh
19
0
Морозов Денис @iXCray

Делатель дел

Send message

Быстрый Data Mining или сравнение производительности C# vs Python (pandas-numpy-skilearn)

Reading time7 min
Views14K
Всем привет! Разбираясь со Spark Apache, столкнулся с тем, что после достаточно небольшого усложнения алгоритмов подготовки данных расчеты стали выполняться крайне медленно. Поэтому захотелось реализовать что-нибудь на C# и сравнить производительность с аналогичным по классу решением на стеке python (pandas-numpy-skilearn). Аналогичным, потому что они выполняются на локальной машине. Подготовка данных на C# осуществлялась встроенными средствами (linq), расчет линейной регрессии библиотекой extremeoptimization.

В качестве тестовой использовалась задача «B. Предсказание трат клиентов» с ноябрьского соревнования Sberbank Data Science Journey.

Сразу стоит подчеркнуть, что в данной статье описан исключительно аспект сравнения производительности платформ, а не качества модели и предсказаний.

Итак, сначала краткое описание последовательности действий реализованных на C# (куски кода будут ниже):

1. Загрузить данные из csv. Использовалась библиотека Fast Csv Reader.
2. Отфильтровать расходные операции и выполнить группировку по месяцам.
3. Добавить каждому клиенту те категории, по которым у него не было операций. Для того, чтобы избежать длительный перебор цикл-в-цикле использовал фильтр Блума. Реализацию на C# нашел тут.
4. Формирование массива Hashing trick. Так как готовой реализации под C# не удалось найти, пришлось реализовать самому. Для этого скачал и допилил реализацию хеширования murmurhash3
5. Собственно расчет регрессии.
Читать дальше →
Total votes 17: ↑10 and ↓7+3
Comments12

Мониторинг системных вызовов Linux

Reading time7 min
Views21K


Если вы инженер в организации, использующей Linux в промышленной эксплуатации, у меня к вам два небольших вопроса.


  1. Сколько уникальных исходящих TCP-соединений установили ваши серверы за последний час?
  2. Какие процессы и пользователи инициировали установку этих соединений?

Если вы в состоянии ответить на оба вопроса, отлично — дальше можете не читать. А если ответа нет, то получить эту информацию поможет go-audit.

Читать дальше →
Total votes 26: ↑25 and ↓1+24
Comments5

Моделирование активов предприятия: современные стандарты и практика

Reading time7 min
Views9.1K

Можно ли войти в одну реку дважды?

Данная статья написана по результатам доклада на конференции Нефтегазстандарт – 2016, сделанная мной от имени компании ТриниДата.

Работая инженером — онтологом, я занимаюсь созданием информационных моделей для информационных систем.

В этой статье я хочу рассказать о практике применения стандарта ИСО 15926 к моделированию активов предприятия, и о том, к каким результатам это привело нас в итоге. Те, кто незнаком со стандартом, могут не расстраиваться — чтение статьи будет полезно независимо от знания стандарта.
Читать дальше →
Total votes 17: ↑14 and ↓3+11
Comments85

Altaro VM Backup: резервное копирование виртуальных машин Hyper-V и VMware

Reading time7 min
Views14K
Развертывание виртуальных машин становится общей практикой для компаний всех размеров. По мере внедрения виртуализации и роста популярности облачной модели развиваются и соответствующие средства резервного копирования, охватывая все больше виртуальных сред, операционных систем и приложений. Так как же организовать резервное копирование виртуальной среды на должном уровне? Насколько это сложно?

Читать дальше →
Total votes 15: ↑14 and ↓1+13
Comments22

GFI MailEssentials: почта под защитой

Reading time10 min
Views8.3K
Продукт MailEssentials компании GFI хорошо известен многим администраторам Exchange, особенно в малых и средних компаниях. Он защищает серверы Exchange или другую систему электронной почты на базе SMTP от спама и вредоносных программ. Тем же, кто ещё не знаком с данным продуктом, мы попробуем кратко рассказать, что он собой представляет и чем может быть полезен для вашей организации.
Читать дальше →
Total votes 11: ↑10 and ↓1+9
Comments2

Пакет-географ – первая рабочая версия

Reading time6 min
Views24K

Прежде всего хотел бы поблагодарить за более, чем 80 звёзд на GitHub, которые мне дали читатели Хабра по результатам предыдущего поста. И это несмотря на то, что репозиторий был почти пустой, а ссылка была неочевидна. На лицо полезность этого пакета!


Для тех, кто пропустил первый пост, маленькое повторение. Если у Вас в приложении есть что-то вроде:


Читать дальше →
Total votes 35: ↑34 and ↓1+33
Comments42

GFI Archiver: хранилище для почты

Reading time8 min
Views13K
Сегодня излишне говорить о том, что объем хранимой информации и ее ценность для организации растет с каждым годом. Это действительно так, причем мало просто сохранить, необходимо обеспечить возможность получения необходимой информации из ранее сохраненного архива, причем за кратчайшие сроки и с минимальными затратами. архивирование электронной почты — одна из важнейших корпоративных задач.

Читать дальше →
Total votes 15: ↑13 and ↓2+11
Comments12

GFI LanGuard — виртуальный консультант по безопасности

Reading time8 min
Views16K
Одна из важных задач обеспечения информационной безопасности — выявление потенциальных рисков и «дыр» в защите. Нужно найти и устранить уязвимости прежде, чем ими смогут воспользоваться злоумышленники. Для этой цели и служат сканеры безопасности. Сканер безопасности или сканер уязвимости сети –  автоматизированное решение для полного сканирование портов, контроля обновлений ПО, а также проверки программных и аппаратных средств. Это приложение, сканирующее сеть и ее устройства для обнаружения слабых мест в системе безопасности.


Сканеры проверяют используемые приложения, ищут «дыры», которыми могли бы воспользоваться хакеры, и предупреждают администратора о зонах риска и пробелах в системе безопасности. Их задачи — идентификация и анализ уязвимостей, инвентаризация ресурсов, формирование отчетов, содержащих описание уязвимостей и варианты их устранения. Конечно, функциональность разных продуктов существенно различается, однако грамотно используя сканер уязвимости сети, хорошо зарекомендовавший себя на рынке, можно значительно усилить сетевую безопасность.
Читать дальше →
Total votes 15: ↑13 and ↓2+11
Comments9

Первые тесты универсальной вакцины против рака прошли успешно

Reading time2 min
Views55K
image

Эксперты в борьбе с раком считают, что в этой области совершён долгожданный прорыв: немецкими учёными успешно проведены первые тесты универсальной вакцины на людях. Наночастицы жира, в которых были размещены кусочки РНК опухоли, запустили в организме иммунную реакцию – в результате организм начал сам атаковать раковые клетки.

Вакцину с наночастицами вводили в кровь трём пациентам, у которых опухоль уже находилась в поздней стадии развития. Организм испытуемых начал вырабатывать T-лимфоциты, обеспечивающие распознавание и уничтожение клеток, несущих чужеродные антигены.

Учёные из Майнцского университета имени Иоганна Гуттенберга под руководством профессора Угура Сахина [Ugur Sahin] рассказывают, что вакцина успешно сработала и на мышах с «агрессивно растущими» опухолями. «Такие вакцины изготавливать быстро и недорого,– пишут они. – И антиген практически любой опухоли может быть закодирован в неё. В связи с этим подход к иммунотерапии через наночастицы с РНК можно рассматривать, как новейшую вакцину универсальной применимости».
Читать дальше →
Total votes 55: ↑52 and ↓3+49
Comments96

Вселенная расширяется быстрее, чем считалось

Reading time3 min
Views31K

Новый расчёт постоянной Хаббла: 73,23 (км/с)/Мпк




Когда астрофизик Эдвин Хаббл почти сто лет назад определил, что Вселенная равномерно расширяется во всех направлениях, это открытие стало настоящим сюрпризом. Потом, в середине 1990-х, выяснилась ещё одна неожиданная вещь: оказывается, Вселенная расширяется всё быстрее, то есть с ускорением. Причиной этого посчитали отталкивающие свойства вещества, названного «тёмной энергией».

Теперь c помощью космического телескопа Хаббла астрофизики НАСА определили, что Вселенная расширяется быстрее, чем ожидалось. Как трактовать это открытие, пока неясно, но постоянную Хаббла придётся пересмотреть.
Читать дальше →
Total votes 20: ↑16 and ↓4+12
Comments67

Нежелательное ПО DNS Unlocker использует метод DNS hijack для обмана пользователей

Reading time6 min
Views12K
Наши специалисты технической поддержки фиксируют самые разные запросы пользователей. Один из таких запросов оказался весьма интересным для анализа. Ситуация заключалась в обнаруженной нами вредоносной активности в системе пользователя, которая проявилась в технике DNS hijack. Она используется для перенаправления DNS-запросов пользователя на специальные DNS-серверы. Особенность ситуации заключалась в том, что вредоносное ПО использовало для операции hijack специальный метод, который скрывал от глаз пользователя вредоносную активность.



Таким образом, пользователь не мог видеть настройки DNS-серверов в GUI-интерфейсе сетевых настроек. Кроме этого, там также будет указано, что система использует DHCP-протокол для получения настроек. Нежелательное приложение, которые выполняет подобные операции в системе, называется DNS Unlocker.

Читать дальше →
Total votes 13: ↑12 and ↓1+11
Comments21

Security Week 22: Microsoft против паролей, судебные неувязки с Tor, криптолокер атакует клиентов Amazon

Reading time5 min
Views16K
Google хоронит пароли, а Microsoft — нет. Напомню, в предыдущем выпуске я рассказал про светлое будущее в виде проекта Google Abacus — спорную, но весьма прогрессивную систему идентификации пользователя по его поведению (aka я помню все твои трещинки). Почти одновременно к беседе о паролях присоединилась компания Microsoft, но выступила (новость), скажем так, с позиций традиционализма и ортодоксальности. Конкретно, пост в блоге разработчиков Active Directory посвящен борьбе не со всеми паролями, а только с плохими.

Microsoft можно понять: она работает на рынке корпоративного ПО, а там инновации приживаются убийственно медленно (мимо дрожащих истерзанных рук; да что у меня сегодня такое с песенными ассоциациями?!). Очевидно, что с абакусом или без него, с паролями мы будем иметь дело еще долго. Так вот, по словам представителя Microsoft, типовые подходы к обеспечению стойкости паролей, такие как требования к длине пароля, наличию спецсимволов и регулярной замене — не работают. Более того, они упрощают задачу взлома: огражденные со всех сторон заборчиками политик, пользователи задают и обновляют свои пароли крайне предсказуемым образом. Если, например, поставить забор повыше (задать порог минимум в 10-15 символов), сотрудники начинают повторять одно и то же слово несколько раз подряд. Не ок.

Как многолетний офисный труженик Ворда, не могу не согласиться. Браво! Но не уверен, что предлагаемое компанией решение порадует меня именно как сотрудника. Microsoft работает с огромным количеством учетных записей в куче пользовательских и корпоративных сервисов, и решила использовать информацию о том, как эти записи пытаются взломать (10 миллионов атак в день!). В результате мы получаем функцию Dynamically Banned Passwords. Будучи внедренной в корпоративном окружении, эта фича не позволит сотруднику задать пароль, про который точно известно, что он (1) слаб и что (2) злодеи уже пытались (возможно успешно) взломать такой же (или похожий) пароль где-то еще.
Читать дальше →
Total votes 11: ↑10 and ↓1+9
Comments10

Профессор Готче: «Поведение «биг-фармы» соответствует критерию «организованная преступность»»

Reading time10 min
Views19K
(перевод on-line статьи “Daily Mail” от 23.02.2016)

Сэр Ричард Томпсон, экс-президент Королевского колледжа врачей бывший 21 год личным врачом королевы Великобритании, предупредил сегодня, что многие лекарственные средства являются менее эффективными, чем об этом думают. Он является одним из шести известных врачей, которые сегодня предупреждают о влиянии фармацевтических компаний на неоправданные назначения лекарств.

Эксперты, возглавляемые кардиологом национальной системы здравоохранения доктором Асимом Малхотрой, утверждают, что пациентам слишком часто выписывают бесполезные и даже вредные лекарства и процедуры, которые им не нужны. Они обвиняют государственную систему здравоохранения в неспособности противостоять фармацевтическим гигантам, которые продвигают лекарства только с целью получить от этого выгоду, а не с целью принести пользу.


Читать дальше →
Total votes 28: ↑22 and ↓6+16
Comments70

Безопасное криптопрограммирование. Часть 1

Reading time5 min
Views26K
В данном посте мы бы хотели познакомить пользователей Хабра с базовыми правилами программирования криптографических алгоритмов. Этот набор правил под названием «Стандарт криптографического программирования» (“Cryptography coding standard”) был создан в 2013 году по инициативе одного из гуру современной криптографии Жана-Филиппа Омассона. Несмотря на то, что описанные в нем подходы хорошо известны тем, кто профессионально занимается разработкой систем защиты, новичкам и студентам, думаем, будет интересно ознакомиться с предлагаемым текстом, являющимся переводом набора правил с сайта cryptocoding.net.
Читать дальше →
Total votes 30: ↑28 and ↓2+26
Comments19

Файловая система и Hadoop: Опыт Twitter (Часть 2)

Reading time2 min
Views9.7K
Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:


Сегодня мы решили продолжить краткий разбор заметки команды инженеров Twitter о создании файловой системы для работы с кластерами Hadoop.

Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments0

40 ключевых концепций информационных технологий доступно и понятно

Reading time16 min
Views160K
Представляю вашему вниманию перевод очень ёмкой, и в то же время достаточно краткой (для такого масштаба проблемы) статьи Карла Чео. Я решил, что очень хочу сделать её перевод практически сразу, как только начал читать, и очень рад, что в итоге сделал это.
Для того, чтобы сделать обучение более веселым и интересным, представляю вам перечень важных теорий и концепций информатики, объяснённых с помощью аналогий с минимальным количеством технических деталей. Это будет похоже на очень быстрый курс информатики для всех с целью просто дать вам общее представление об основных концепциях.

Важные замечания:
  • Пункты с неуказанным источником написаны мной самостоятельно. Поправьте меня, если вы заметите какие-то неточности. Предложите лучшую аналогию, если это возможно.
  • Заголовки ссылаются на соответствующие им статьи в Wikipedia. Пожалуйста, читайте эти статьи для более серьезных и детальных объяснений.
  • Аналогии — отличный способ объяснить материал, но они не идеальны. Если вы хотите по-настоящему понять перечисленные концепции, вам следует начать с фундаментальных азов и рассуждать, исходя из них.

Также зацените эту инфографику (вариант на русском), если вы просто начинающий программист.
Читать дальше →
Total votes 104: ↑96 and ↓8+88
Comments37

Как я начинал работать с nRF24LE или ещё один способ запрограммировать этот чип

Reading time3 min
Views31K
Попали мне в руки чипы NRF24LE1E в модульном исполнении с маркировкой на пузе XL24LE1-D01.
Вот такие вот:

image

Взял я их на собственные эксперименты, но речь пойдёт не об этом. Выбор пал на этот чип, так как в нём уже есть свой процессор на базе 8051, что не может не радовать. Я бегло пролистал даташит, и вроде ничего не вызвало вопросов. Мол, получим — а там разберёмся. И вот модули у меня.
Читать дальше →
Total votes 22: ↑21 and ↓1+20
Comments2

Обнаружение сигнала в шумах

Reading time3 min
Views35K

По роду своей деятельности мне приходится осуществлять контроль различных параметров наземных импульсно-фазовых радионавигационных систем (ИФРНС) «Чайка» и Loran-C. В этой статье я хочу поделиться одним из методов обнаружения времени прихода импульса ИФРНС при наличии шумов. Метод применим во многих задачах поиска сигнала известной формы.
Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments9

Некапча Mail.Ru – капча, которая не показывается

Reading time5 min
Views60K
Привет, Хабр! Сегодня я хочу рассказать вам про наш относительно недавно созданный сервис капчи. Этот сервис отличается от аналогичных тем, что нашу капчу никогда чаще всего вообще не требуется разгадывать. Как известно, капча негативно влияет на конверсию — не все могут быстро ее разгадать, особенно если она неоправданно сложная, а часть пользователей уходят с ресурса. И я не знаю таких людей, которые любят ломать глаза и получают удовольствие от процесса разгадывания. Поэтому если избавить пользователя от необходимости вводить еще одно дополнительное поле, то это сделает его немножечко лояльнее.


Вряд ли кто-то сможет разгадать эту капчу :)

Если в двух словах, то Некапча — это сервис интеллектуальной капчи, не требующий от человека прохождения проверки. Естественно, без дополнительной информации сервис не может ничего сказать о пользователе. Откуда же ее взять? Дело в том, что у Mail.Ru более 100 млн пользователей, причем большая часть из них авторизована. А это значит, что с запросом на наши домены передаются сессионные куки, по которым мы определяем пользователя, а затем достаем его профиль, статистику, спам-рейтинг и т.д. Вся эта информация подается на вход алгоритма-классификатора, и на выходе мы получаем предположение о том, кем является пользователь — человеком или спам-ботом.
Читать дальше →
Total votes 86: ↑62 and ↓24+38
Comments120

Сертификаты SSL, SHA-1 и nic.ru

Reading time1 min
Views15K
Cообщение полугодовой давности о том, что в ближайшем будущем MS & Google будут считать некоторые сертификаты серверов «недоверенными». Как следствие, в браузерах сервер будет не «зелёненьким», а «красненьким», что совсем не понравится клиентам.

www.symantec.com/connect/blogs/google-s-sha-1-deprecation-plan-chrome

В частности, к проблемным сертификатам относятся сертификаты серверов с подписью SHA-1/SHA-2 у котороых промежуточный сертификат содержит SHA-1 (но рутовый CA может содержать SHA-1).
Читать дальше →
Total votes 20: ↑14 and ↓6+8
Comments6
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity