Articles / Bookmarks / Profile of iXCray / Habr

How to become an author

Морозов Денис @iXCray

Делатель дел

Profile Publications 1Comments 493Bookmarks 29

pustota_2009 Dec 26 2016 at 16:41

Быстрый Data Mining или сравнение производительности C# vs Python (pandas-numpy-skilearn)

7 min

14K

High performance*Python*Data Mining*C#*Big Data*

Всем привет! Разбираясь со Spark Apache, столкнулся с тем, что после достаточно небольшого усложнения алгоритмов подготовки данных расчеты стали выполняться крайне медленно. Поэтому захотелось реализовать что-нибудь на C# и сравнить производительность с аналогичным по классу решением на стеке python (pandas-numpy-skilearn). Аналогичным, потому что они выполняются на локальной машине. Подготовка данных на C# осуществлялась встроенными средствами (linq), расчет линейной регрессии библиотекой extremeoptimization.

В качестве тестовой использовалась задача «B. Предсказание трат клиентов» с ноябрьского соревнования Sberbank Data Science Journey.

Сразу стоит подчеркнуть, что в данной статье описан исключительно аспект сравнения производительности платформ, а не качества модели и предсказаний.

Итак, сначала краткое описание последовательности действий реализованных на C# (куски кода будут ниже):

1. Загрузить данные из csv. Использовалась библиотека Fast Csv Reader.
2. Отфильтровать расходные операции и выполнить группировку по месяцам.
3. Добавить каждому клиенту те категории, по которым у него не было операций. Для того, чтобы избежать длительный перебор цикл-в-цикле использовал фильтр Блума. Реализацию на C# нашел тут.
4. Формирование массива Hashing trick. Так как готовой реализации под C# не удалось найти, пришлось реализовать самому. Для этого скачал и допилил реализацию хеширования murmurhash3
5. Собственно расчет регрессии.

Читать дальше →

+3

olemskoi Dec 27 2016 at 09:24

Мониторинг системных вызовов Linux

7 min

21K

System administration**nix*Server Administration*Слёрм corporate blog

Translation

Если вы инженер в организации, использующей Linux в промышленной эксплуатации, у меня к вам два небольших вопроса.

Сколько уникальных исходящих TCP-соединений установили ваши серверы за последний час?
Какие процессы и пользователи инициировали установку этих соединений?

Если вы в состоянии ответить на оба вопроса, отлично — дальше можете не читать. А если ответа нет, то получить эту информацию поможет go-audit.

Читать дальше →

+24

maxstroy Oct 31 2016 at 08:57

Моделирование активов предприятия: современные стандарты и практика

7 min

9K

ERP-systems*CRM systems*IT TerminologyBusiness Models*

Можно ли войти в одну реку дважды?

Данная статья написана по результатам доклада на конференции Нефтегазстандарт – 2016, сделанная мной от имени компании ТриниДата.

Работая инженером — онтологом, я занимаюсь созданием информационных моделей для информационных систем.

В этой статье я хочу рассказать о практике применения стандарта ИСО 15926 к моделированию активов предприятия, и о том, к каким результатам это привело нас в итоге. Те, кто незнаком со стандартом, могут не расстраиваться — чтение статьи будет полезно независимо от знания стандарта.

Читать дальше →

+11

ETitovich Jul 6 2016 at 17:43

Altaro VM Backup: резервное копирование виртуальных машин Hyper-V и VMware

7 min

14K

Information Security*AFI Distribution corporate blog

Развертывание виртуальных машин становится общей практикой для компаний всех размеров. По мере внедрения виртуализации и роста популярности облачной модели развиваются и соответствующие средства резервного копирования, охватывая все больше виртуальных сред, операционных систем и приложений. Так как же организовать резервное копирование виртуальной среды на должном уровне? Насколько это сложно?

Читать дальше →

+13

ETitovich Jul 5 2016 at 16:39

GFI MailEssentials: почта под защитой

10 min

8.2K

Information Security*AFI Distribution corporate blog

Продукт MailEssentials компании GFI хорошо известен многим администраторам Exchange, особенно в малых и средних компаниях. Он защищает серверы Exchange или другую систему электронной почты на базе SMTP от спама и вредоносных программ. Тем же, кто ещё не знаком с данным продуктом, мы попробуем кратко рассказать, что он собой представляет и чем может быть полезен для вашей организации.

Читать дальше →

+9

dusterio Jul 2 2016 at 11:42

Пакет-географ – первая рабочая версия

6 min

24K

Website development*PHP*Geoinformation services*Laravel*

Прежде всего хотел бы поблагодарить за более, чем 80 звёзд на GitHub, которые мне дали читатели Хабра по результатам предыдущего поста. И это несмотря на то, что репозиторий был почти пустой, а ссылка была неочевидна. На лицо полезность этого пакета!

Для тех, кто пропустил первый пост, маленькое повторение. Если у Вас в приложении есть что-то вроде:

Читать дальше →

+33

ETitovich Jun 29 2016 at 14:44

GFI Archiver: хранилище для почты

8 min

13K

Information Security*AFI Distribution corporate blog

Сегодня излишне говорить о том, что объем хранимой информации и ее ценность для организации растет с каждым годом. Это действительно так, причем мало просто сохранить, необходимо обеспечить возможность получения необходимой информации из ранее сохраненного архива, причем за кратчайшие сроки и с минимальными затратами. архивирование электронной почты — одна из важнейших корпоративных задач.

Читать дальше →

+11

ETitovich Jun 28 2016 at 14:04

GFI LanGuard — виртуальный консультант по безопасности

8 min

16K

Information Security*AFI Distribution corporate blog

Одна из важных задач обеспечения информационной безопасности — выявление потенциальных рисков и «дыр» в защите. Нужно найти и устранить уязвимости прежде, чем ими смогут воспользоваться злоумышленники. Для этой цели и служат сканеры безопасности. Сканер безопасности или сканер уязвимости сети – автоматизированное решение для полного сканирование портов, контроля обновлений ПО, а также проверки программных и аппаратных средств. Это приложение, сканирующее сеть и ее устройства для обнаружения слабых мест в системе безопасности.

Сканеры проверяют используемые приложения, ищут «дыры», которыми могли бы воспользоваться хакеры, и предупреждают администратора о зонах риска и пробелах в системе безопасности. Их задачи — идентификация и анализ уязвимостей, инвентаризация ресурсов, формирование отчетов, содержащих описание уязвимостей и варианты их устранения. Конечно, функциональность разных продуктов существенно различается, однако грамотно используя сканер уязвимости сети, хорошо зарекомендовавший себя на рынке, можно значительно усилить сетевую безопасность.

Читать дальше →

+11

SLY_G Jun 2 2016 at 23:05

Первые тесты универсальной вакцины против рака прошли успешно

2 min

55K

Popular scienceBiotechnologiesHealthThe future is here

Эксперты в борьбе с раком считают, что в этой области совершён долгожданный прорыв: немецкими учёными успешно проведены первые тесты универсальной вакцины на людях. Наночастицы жира, в которых были размещены кусочки РНК опухоли, запустили в организме иммунную реакцию – в результате организм начал сам атаковать раковые клетки.

Вакцину с наночастицами вводили в кровь трём пациентам, у которых опухоль уже находилась в поздней стадии развития. Организм испытуемых начал вырабатывать T-лимфоциты, обеспечивающие распознавание и уничтожение клеток, несущих чужеродные антигены.

Учёные из Майнцского университета имени Иоганна Гуттенберга под руководством профессора Угура Сахина [Ugur Sahin] рассказывают, что вакцина успешно сработала и на мышах с «агрессивно растущими» опухолями. «Такие вакцины изготавливать быстро и недорого,– пишут они. – И антиген практически любой опухоли может быть закодирован в неё. В связи с этим подход к иммунотерапии через наночастицы с РНК можно рассматривать, как новейшую вакцину универсальной применимости».

Читать дальше →

+49

alizar Jun 3 2016 at 15:37

Вселенная расширяется быстрее, чем считалось

3 min

31K

Popular sciencePhysicsAstronomy

Новый расчёт постоянной Хаббла: 73,23 (км/с)/Мпк

Когда астрофизик Эдвин Хаббл почти сто лет назад определил, что Вселенная равномерно расширяется во всех направлениях, это открытие стало настоящим сюрпризом. Потом, в середине 1990-х, выяснилась ещё одна неожиданная вещь: оказывается, Вселенная расширяется всё быстрее, то есть с ускорением. Причиной этого посчитали отталкивающие свойства вещества, названного «тёмной энергией».

Теперь c помощью космического телескопа Хаббла астрофизики НАСА определили, что Вселенная расширяется быстрее, чем ожидалось. Как трактовать это открытие, пока неясно, но постоянную Хаббла придётся пересмотреть.

Читать дальше →

+12

esetnod32 Jun 3 2016 at 15:51

Нежелательное ПО DNS Unlocker использует метод DNS hijack для обмана пользователей

6 min

12K

ESET NOD32 corporate blog

Наши специалисты технической поддержки фиксируют самые разные запросы пользователей. Один из таких запросов оказался весьма интересным для анализа. Ситуация заключалась в обнаруженной нами вредоносной активности в системе пользователя, которая проявилась в технике DNS hijack. Она используется для перенаправления DNS-запросов пользователя на специальные DNS-серверы. Особенность ситуации заключалась в том, что вредоносное ПО использовало для операции hijack специальный метод, который скрывал от глаз пользователя вредоносную активность.

Таким образом, пользователь не мог видеть настройки DNS-серверов в GUI-интерфейсе сетевых настроек. Кроме этого, там также будет указано, что система использует DHCP-протокол для получения настроек. Нежелательное приложение, которые выполняет подобные операции в системе, называется DNS Unlocker.

Читать дальше →

+11

f15 Jun 3 2016 at 16:17

Security Week 22: Microsoft против паролей, судебные неувязки с Tor, криптолокер атакует клиентов Amazon

5 min

16K

Information Security*«Лаборатория Касперского» corporate blog

Google хоронит пароли, а Microsoft — нет. Напомню, в предыдущем выпуске я рассказал про светлое будущее в виде проекта Google Abacus — спорную, но весьма прогрессивную систему идентификации пользователя по его поведению (aka я помню все твои трещинки). Почти одновременно к беседе о паролях присоединилась компания Microsoft, но выступила (новость), скажем так, с позиций традиционализма и ортодоксальности. Конкретно, пост в блоге разработчиков Active Directory посвящен борьбе не со всеми паролями, а только с плохими.

Microsoft можно понять: она работает на рынке корпоративного ПО, а там инновации приживаются убийственно медленно (мимо дрожащих истерзанных рук; да что у меня сегодня такое с песенными ассоциациями?!). Очевидно, что с абакусом или без него, с паролями мы будем иметь дело еще долго. Так вот, по словам представителя Microsoft, типовые подходы к обеспечению стойкости паролей, такие как требования к длине пароля, наличию спецсимволов и регулярной замене — не работают. Более того, они упрощают задачу взлома: огражденные со всех сторон заборчиками политик, пользователи задают и обновляют свои пароли крайне предсказуемым образом. Если, например, поставить забор повыше (задать порог минимум в 10-15 символов), сотрудники начинают повторять одно и то же слово несколько раз подряд. Не ок.

Как многолетний офисный труженик Ворда, не могу не согласиться. Браво! Но не уверен, что предлагаемое компанией решение порадует меня именно как сотрудника. Microsoft работает с огромным количеством учетных записей в куче пользовательских и корпоративных сервисов, и решила использовать информацию о том, как эти записи пытаются взломать (10 миллионов атак в день!). В результате мы получаем функцию Dynamically Banned Passwords. Будучи внедренной в корпоративном окружении, эта фича не позволит сотруднику задать пароль, про который точно известно, что он (1) слаб и что (2) злодеи уже пытались (возможно успешно) взломать такой же (или похожий) пароль где-то еще.

Читать дальше →

+9

VladNik Feb 27 2016 at 14:32

Профессор Готче: «Поведение «биг-фармы» соответствует критерию «организованная преступность»»

10 min

19K

Popular scienceBiotechnologiesMedical gadgetsHealth

Recovery Mode

(перевод on-line статьи “Daily Mail” от 23.02.2016)

Сэр Ричард Томпсон, экс-президент Королевского колледжа врачей бывший 21 год личным врачом королевы Великобритании, предупредил сегодня, что многие лекарственные средства являются менее эффективными, чем об этом думают. Он является одним из шести известных врачей, которые сегодня предупреждают о влиянии фармацевтических компаний на неоправданные назначения лекарств.

Эксперты, возглавляемые кардиологом национальной системы здравоохранения доктором Асимом Малхотрой, утверждают, что пациентам слишком часто выписывают бесполезные и даже вредные лекарства и процедуры, которые им не нужны. Они обвиняют государственную систему здравоохранения в неспособности противостоять фармацевтическим гигантам, которые продвигают лекарства только с целью получить от этого выгоду, а не с целью принести пользу.

Читать дальше →

+16

ru_crypt Oct 2 2015 at 14:50

Безопасное криптопрограммирование. Часть 1

5 min

26K

Information Security*Cryptography*Programming*

В данном посте мы бы хотели познакомить пользователей Хабра с базовыми правилами программирования криптографических алгоритмов. Этот набор правил под названием «Стандарт криптографического программирования» (“Cryptography coding standard”) был создан в 2013 году по инициативе одного из гуру современной криптографии Жана-Филиппа Омассона. Несмотря на то, что описанные в нем подходы хорошо известны тем, кто профессионально занимается разработкой систем защиты, новичкам и студентам, думаем, будет интересно ознакомиться с предлагаемым текстом, являющимся переводом набора правил с сайта cryptocoding.net.

Читать дальше →

+26

1cloud Oct 2 2015 at 17:00

Файловая система и Hadoop: Опыт Twitter (Часть 2)

2 min

9.6K

Development of mobile applications*Big Data*Development for e-commerce*1cloud.ru corporate blogHadoop*

Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:

Сегодня мы решили продолжить краткий разбор заметки команды инженеров Twitter о создании файловой системы для работы с кластерами Hadoop.

Читать дальше →

+8

timramone Oct 3 2015 at 14:11

40 ключевых концепций информационных технологий доступно и понятно

16 min

159K

Programming*Mindbox corporate blog

Translation

Представляю вашему вниманию перевод очень ёмкой, и в то же время достаточно краткой (для такого масштаба проблемы) статьи Карла Чео. Я решил, что очень хочу сделать её перевод практически сразу, как только начал читать, и очень рад, что в итоге сделал это.
Для того, чтобы сделать обучение более веселым и интересным, представляю вам перечень важных теорий и концепций информатики, объяснённых с помощью аналогий с минимальным количеством технических деталей. Это будет похоже на очень быстрый курс информатики для всех с целью просто дать вам общее представление об основных концепциях.

Важные замечания:

Пункты с неуказанным источником написаны мной самостоятельно. Поправьте меня, если вы заметите какие-то неточности. Предложите лучшую аналогию, если это возможно.
Заголовки ссылаются на соответствующие им статьи в Wikipedia. Пожалуйста, читайте эти статьи для более серьезных и детальных объяснений.
Аналогии — отличный способ объяснить материал, но они не идеальны. Если вы хотите по-настоящему понять перечисленные концепции, вам следует начать с фундаментальных азов и рассуждать, исходя из них.

Также зацените эту инфографику (вариант на русском), если вы просто начинающий программист.

Читать дальше →

+88

Spider55 May 14 2015 at 19:01

Как я начинал работать с nRF24LE или ещё один способ запрограммировать этот чип

3 min

31K

Programming microcontrollers*

Попали мне в руки чипы NRF24LE1E в модульном исполнении с маркировкой на пузе XL24LE1-D01.
Вот такие вот:

Взял я их на собственные эксперименты, но речь пойдёт не об этом. Выбор пал на этот чип, так как в нём уже есть свой процессор на базе 8051, что не может не радовать. Я бегло пролистал даташит, и вроде ничего не вызвало вопросов. Мол, получим — а там разберёмся. И вот модули у меня.

Читать дальше →

+20

Dootch Apr 14 2015 at 11:12

Обнаружение сигнала в шумах

3 min

35K

Global Positioning Systems*Mathematics*

По роду своей деятельности мне приходится осуществлять контроль различных параметров наземных импульсно-фазовых радионавигационных систем (ИФРНС) «Чайка» и Loran-C. В этой статье я хочу поделиться одним из методов обнаружения времени прихода импульса ИФРНС при наличии шумов. Метод применим во многих задачах поиска сигнала известной формы.

Читать дальше →

+27

man0xff Apr 14 2015 at 12:08

Некапча Mail.Ru – капча, которая не показывается

5 min

60K

Information Security*Website development*VK corporate blog

Привет, Хабр! Сегодня я хочу рассказать вам про наш относительно недавно созданный сервис капчи. Этот сервис отличается от аналогичных тем, что нашу капчу ~~никогда~~ чаще всего вообще не требуется разгадывать. Как известно, капча негативно влияет на конверсию — не все могут быстро ее разгадать, особенно если она неоправданно сложная, а часть пользователей уходят с ресурса. И я не знаю таких людей, которые любят ломать глаза и получают удовольствие от процесса разгадывания. Поэтому если избавить пользователя от необходимости вводить еще одно дополнительное поле, то это сделает его немножечко лояльнее.

^{Вряд ли кто-то сможет разгадать эту капчу :)}

Если в двух словах, то Некапча — это сервис интеллектуальной капчи, не требующий от человека прохождения проверки. Естественно, без дополнительной информации сервис не может ничего сказать о пользователе. Откуда же ее взять? Дело в том, что у Mail.Ru более 100 млн пользователей, причем большая часть из них авторизована. А это значит, что с запросом на наши домены передаются сессионные куки, по которым мы определяем пользователя, а затем достаем его профиль, статистику, спам-рейтинг и т.д. Вся эта информация подается на вход алгоритма-классификатора, и на выходе мы получаем предположение о том, кем является пользователь — человеком или спам-ботом.

Читать дальше →

+38

neiromancer Apr 14 2015 at 11:16

Сертификаты SSL, SHA-1 и nic.ru

1 min

15K

Information Security*

Cообщение полугодовой давности о том, что в ближайшем будущем MS & Google будут считать некоторые сертификаты серверов «недоверенными». Как следствие, в браузерах сервер будет не «зелёненьким», а «красненьким», что совсем не понравится клиентам.

www.symantec.com/connect/blogs/google-s-sha-1-deprecation-plan-chrome

В частности, к проблемным сертификатам относятся сертификаты серверов с подписью SHA-1/SHA-2 у котороых промежуточный сертификат содержит SHA-1 (но рутовый CA может содержать SHA-1).

Читать дальше →

+8

1