Pull to refresh
55
0

Пользователь

Send message

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

Reading time18 min
Views13K

Часть 1: Постановка задачи


Привет, Хабр! Я архитектор решений в компании CleverDATA. Сегодня я расскажу про то, как мы классифицируем большие объемы данных с использованием моделей, построенных с применением практически любой доступной библиотеки машинного обучения. В этой серии из двух статей мы рассмотрим следующие вопросы.

  • Как представить модель машинного обучения в виде сервиса (Model as a Service)?
  • Как физически выполняются задачи распределенной обработки больших объемов данных при помощи Apache Spark?
  • Какие проблемы возникают при взаимодействии Apache Spark с внешними сервисами?
  • Как при помощи библиотек akka-streams и akka-http, а также подхода Reactive Streams можно организовать эффективное взаимодействие Apache Spark с внешними сервисами?

Изначально я планировал написать одну статью, но так как объем материала оказался достаточно большим, я решил разбить ее на две части. Сегодня в первой части мы рассмотрим общую постановку задачи, а также основные проблемы, которые необходимо решить при реализации. Во второй части мы поговорим о практической реализации решения данной задачи с использованием подхода Reactive Streams.

Читать дальше →
Total votes 53: ↑53 and ↓0+53
Comments9

Ланитовские среды. Почему ЛАНИТ поверил в блокчейн

Reading time5 min
Views6.1K
В этой статье мы расскажем о внутреннем проекте для сотрудников группы ЛАНИТ — традиционных встречах с экспертами по актуальным технологическим темам, которые проходят в нашем центральном офисе по средам и называются соответственно «Своя среда». На одном из таких вечеров руководитель только что запущенного стартапа DTG Денис Реймер объяснил, почему группа ЛАНИТ видит перспективу в блокчейн-технологиях. Подробности — в нашем посте под катом.

Читать дальше →
Total votes 46: ↑39 and ↓7+32
Comments4

Информационные системы с понятийными моделями. Часть вторая

Reading time17 min
Views7.6K
В первой части статьи мы начали разговор о новом классе высокоуровневых моделей предметной области, названных понятийными. В отличие от других аналогичных моделей в понятийных моделях связи между понятиями сами являются понятиями, а модель строится на основе выявления и описания абстракций, послуживших образованию (определению) понятий предметной области. Это позволяет конечным пользователям строить и актуализировать модели предметной области путем простых и естественных операций создания, изменения и удаления понятий и их сущностей.

Здесь, во второй части, поговорим о том, как может быть реализована полнофункциональная информационная система, основанная на понятийном моделировании предметных областей. Теперь уже в деталях рассмотрим информационную систему LANCAD, которую в нашей компании “ИНСИСТЕМС” используют для организации проектной деятельности по разработке проектно-сметной документации для строительства.

Следует заметить, что появление информационной системы LANCAD явилось результатом реализации нескольких крупных проектов компании.

Читать дальше →
Total votes 39: ↑38 and ↓1+37
Comments19

Информационные системы с понятийными моделями. Часть первая

Reading time13 min
Views12K
Внедряя современные информационные системы, крупные компании рассчитывают быстрее принимать решения, обнаруживать скрытые для бизнеса резервы и возможности, анализировать накопленный опыт и выстраивать прогнозы на основе выявленных закономерностей. Однако реальная отдача от информационных систем часто оказывается значительно ниже, а сроки внедрения и затраты – выше ожидаемых. Причин может быть великое множество, в том числе и связанных с неэффективным управлением, человеческим фактором, устарелой инфраструктурой.

Существенные недостатки есть и у самих информационных систем. В этой статье я предлагаю поговорить не о традиционных – трёхслойных – АИС, а о системах с четырехслойной архитектурой, где новый четвертый слой – слой представления – реализует понятийную модель предметной области. Для актуализации модели при изменениях в предметной области не требуется программировать. Более того, как актуализация модели, так и прикладные задачи решаются посредством семантически инвариантных для всех предметных областей операций над сущностями понятий.

В итоге удается улучшить вычислительные, технологические и эксплуатационные характеристики информационных систем с понятийными моделями предметной области. Но об этом далее.

Читать дальше →
Total votes 35: ↑34 and ↓1+33
Comments17

Женские сети: кто делает за нас выбор?

Reading time10 min
Views27K
Взлет интереса к машинному обучению во многом связан с тем, что модели способны дать ощутимый прирост прибыли в областях, связанных с предсказанием поведения сложных систем. В частности, той сложной системой, чье поведение предсказывать выгодно, является человек. Обнаружить мошенничество на ранней стадии, выявить склонность клиентов к оттоку – эти задачи возникают регулярно и уже стали классическими в Data Science. Безусловно, их можно решать различными методами, в зависимости от пристрастий конкретного специалиста и от требований бизнеса.

У нас была возможность использовать нейронные сети для решения задачи по предсказанию поведения людей, а специфика области применения была связана с индустрией красоты. Основной аудиторией для “опытов” стали женщины. Мы по сути пришли к вопросу: может ли искусственная нейронная сеть понять настоящую нейронную сеть (человека) в той области, в которой даже сам человек еще не осознал своего поведения. Как мы ответили на этот вопрос и что у нас получилось в итоге, можно узнать далее.

Читать дальше →
Total votes 72: ↑61 and ↓11+50
Comments58

Инвентаризируй это, инвентаризируй то: SAM

Reading time8 min
Views9.4K
Удовольствие от уборки способен получить далеко не каждый, но и жить в бардаке невозможно. Вот и CIO приходится проводить инвентаризацию нажитого за годы оборудования и софта, чтобы не столкнуться с Error Code: 418 I’m a teapot.

Да, наверное, есть компании, которые держат свои угодья в полном порядке, ведь они давно озаботились этим вопросом, изучили методологию управления активами и взяли под контроль весь жизненный цикл ИТ-инфраструктуры и всего программного обеспечения ( cout << «УТОПИЯ!» << endl;). Не будем сейчас об этих тружениках. Если вы не из их числа, предлагаем разобраться со способами оптимизации процессов управления ИТ-активами. Поговорим про SAM Services и различные методы инвентаризации, а закруглиться мы бы хотели на сводной таблице с наиболее часто используемыми нами тулами и их фичами.

Как должна была выглядеть сцена пыток Ковача. Кадр из сериала Altered Carbon / «Видоизмененный углерод»
Читать дальше →
Total votes 39: ↑38 and ↓1+37
Comments19

Цифровая трансформация телекома, или как операторы «идут» в ИТ

Reading time11 min
Views164K
Традиционные телекоммуникационные операторы, включая сотовые компании, попали в очень неприятную ситуацию: доходы практически не растут, а трафик стремительно увеличивается. Эти «ножницы» могут существенно «порезать» их прибыль и даже поставить под угрозу существование на рынке. Чтобы избежать этого, не оказавшись всего лишь «трубой» для перекачки трафика, операторам необходимо провести глубокую трансформацию своей инфраструктуры и бизнеса в целом. Работая с сетевым и телекоммуникационным оборудованием, мы в СompTek проанализировали возможности трансформации операторов. Они неразрывно связаны с использованием самых современных ИТ-разработок и привлечением экспертизы ИТ-интеграторов.

Читать дальше →
Total votes 34: ↑32 and ↓2+30
Comments5

[Хабра-оффтоп] Maratona di Roma, или первый марафон для ИТ-шника

Reading time9 min
Views7K
В Риме 8 апреля 2018 года я пробежал свой первый марафон (время — 4:29.41). У нас очень спортивная компания (см. отчет о ИТ-чемпионате в Гонке героев), но очень многие друзья и коллеги, которые меня поздравляли, абсолютно не представляли себе, что такое марафон и как интерпретировать мой результат.

Наш диалог был примерно следующим (Д — друг, Я — я):

(Д): Ну че красавчик! Ты что-то там, говорят, пробежал?
(Я): Спасибо, да, марафон.
(Д): Ну ты не умничай, скажи сколько пробежал?
(Я): 42 км 195 метров, конечно же, за 4:30.
(Д): Ни фига себе пробежал 42 км за 4:30! Да ты просто мегамонстр!

Для меня эти вопросы даже сначала показались дикими, т.к. я уже погрузился в беговую тематику. Поэтому я решил написать небольшой отчет о своем первом марафоне, коротко рассказать, что это такое и трудно ли подготовиться к марафону обычному ИТ-шнику.

Читать дальше →
Total votes 56: ↑51 and ↓5+46
Comments41

ЦОД для технопарка: от «бетона» до сертификации Tier Facility

Reading time11 min
Views9.8K
При строительстве центра технического обеспечения одного из крупнейших российских технопарков я отвечал за инженерную инфраструктуру. Объект седьмым в России прошел сертификацию Tier Facility авторитетного международного института Uptime Institute. О том, чего нам это стоило, какие решения мы использовали и как проходили испытания ЦОД на соответствие международным стандартам, я и расскажу в этом фотопосте.


Total votes 39: ↑37 and ↓2+35
Comments11

Готовим проект в Sparx Enterprise Architect. Наш рецепт

Reading time9 min
Views71K
Дорогой Хабр, мы решили поделиться заметками и нашим базовым рецептом о приготовлении проектов в Sparx Enterprise Architect. Причем под проектом мы подразумеваем создание какой-либо информационной системы. Впереди вас ждет рассказ о том, как у нас все организовано – примеры диаграмм, структура проекта в Enterprise Architect, немного о требованиях, проектировании и постановках на разработку.

Источник
Читать дальше →
Total votes 30: ↑30 and ↓0+30
Comments15

19 корпораций, которые используют технологии блокчейн и распределенные реестры

Reading time7 min
Views16K
Сегодня все говорят о том, что в области блокчейн не хватает успешно реализованных проектов, реальных кейсов, которые могли бы стать вдохновляющим примером для компаний, вставших на путь цифровой трансформации. Хочу поделиться с вами переводом статьи именно о таких кейсах. Текст опубликован американской аналитической компанией CB Insights. Она копает в области прорывных цифровых технологий и знает все о стартапах, меняющих мир к лучшему (очень рекомендую следить за публикациями ее специалистов).


Читать дальше →
Total votes 41: ↑37 and ↓4+33
Comments32

Системы имитационного моделирования: выбираем подходящую

Reading time6 min
Views40K
Современные химико-технологические процессы столь сложны, что для их изменения приходится использовать не только аналитику, но и результаты имитационного моделирования. В данном случае необходимо работать с моделью физического объекта и именно на модели исследовать его свойства и поведение в любых ситуациях. Для этого существует много программных комплексов. Чтобы понять специфику такого программного обеспечения я собрал аналитическую информацию о системах, наиболее распространённых в мире и популярных по запросам в интернет-поисковиках. Результаты исследования – в этом обзоре. Он будет полезен проектировщикам, технологам и автоматчикам – всем тем, кто анализирует технологические процессы, строит системы управления ими, выполняет инженерные расчеты технологических аппаратов.


Читать дальше →
Total votes 33: ↑33 and ↓0+33
Comments19

#PostgreSQL. Ускоряем деплой в семь раз с помощью «многопоточки»

Reading time11 min
Views17K
Всем привет! Мы на проекте ГИС ЖКХ используем PostgreSQL и недавно столкнулись с проблемой долгого выполнения SQL скриптов из-за быстрого увеличения объема данных в БД. В феврале 2018 года на PGConf я рассказал, как мы решали эту проблему. Слайды презентации доступны на сайте конференции. Предлагаю вашему вниманию текст моего выступления.


Читать дальше →
Total votes 53: ↑52 and ↓1+51
Comments13

Как не сойти с ума в разработке систем управления нормативно-справочной информацией. Из истории наших проектов

Reading time8 min
Views16K
Занимаясь масштабными проектами автоматизации и создавая новые информационные системы, мы каждый раз сталкивались с необходимостью реализации подсистемы ведения справочников, классификаторов, реестров и других подобных объектов, составляющих нормативно-справочную информацию (НСИ) заказчика. За 15 лет работы в ЛАНИТ с системами управления НСИ жизнь подкидывала нам клиентов с самыми различными требованиями. И, конечно, на этих проектах возникали разные ситуации. Я расскажу о нескольких поучительных историях, которые с нами произошли. В статье вы найдете примеры, которые будут полезны многим, кто занимается разработкой программного обеспечения. Ну, а тем, кто работает непосредственно с НСИ, будет еще интереснее – своя рубашка ближе к телу.

За иллюстрации отдельное спасибо замечательному художнику Васе Ложкину.


Читать дальше →
Total votes 34: ↑33 and ↓1+32
Comments13

Обзор InfiniBox F2230

Reading time8 min
Views10K
Недавно компания “ОНЛАНТА” приобрела для своего корпоративного облака Oncloud.ru систему InfiniBox F2230 компании Infinidat. В интернете практически нет обзоров этой системы, поэтому мы решили устранить пробел. Сегодня мы постараемся максимально подробно рассказать вам об этой СХД.


Total votes 38: ↑37 and ↓1+36
Comments43

Как использовать геймификацию в аналитике

Reading time5 min
Views6.9K
Любая игра предполагает, что в ней есть сюжет, персонаж и действия, которые совершает персонаж для развития сюжета. Игры применяются повсеместно в образовании от детского сада до деловых игр на работе, всё это объясняется тем, что такой подход помогает легко и быстро усвоить материал. Но все мы знаем, что любые BI-системы нацелены на то, чтобы быстро и понятно донести до конечного пользователя большое количество информации, или так называемых ключевых показателей эффективности. Концепцию игры уже давно применяют в аналитике, только называют всё это «сторителлингом». Как же его применять в реальных жизненных ситуациях? Решает ли сторителлинг текущие проблемы возникающие при внедрении BI-систем?


Total votes 39: ↑36 and ↓3+33
Comments7

Что это такое – BPM, и как компании его строить

Reading time11 min
Views44K
Сейчас уже никто не станет оспаривать необходимость, полезность описания и регламентирования бизнес-процессов на предприятии. Существует очень большое количество инструментов для описания бизнес-процессов. В этой статье вы найдете их классификацию. Надеюсь, она поможет специалистам, которые занимаются процессными подходами в работе компаний, сориентироваться на BPM-рынке. Кроме того, я расскажу, какую практическую пользу инструменты BPM могут принести и как обстоят дела с их внедрением в России. В статье много диаграмм, и все они кликабельны.


Читать дальше →
Total votes 36: ↑31 and ↓5+26
Comments20

Как развернуть HD Wi-Fi для 45 тысяч болельщиков за 10 дней? Стадион «Спартака» в ожидании ЧМ-2018

Reading time10 min
Views24K
Нельзя просто взять и пригласить иностранные футбольные команды сыграть на стадионе в рамках Чемпионата мира. Стадион построен недавно и соответствует международным стандартам? Этого мало. Нужно пройти сертификацию FIFA. Международная федерация футбола, помимо прочего, контролирует свободный доступ болельщиков в Интернет. Итак, нам предстояло развернуть сети на трибунах домашнего стадиона футбольного клуба «Спартак» «Открытие Арена». Чтобы успеть к матчам Кубка Конфедераций, которые фактически стали репетицией ЧМ, у нас было чуть больше месяца. А непосредственно на установку точек доступа и отладку системы осталось 10 дней.

Скажу наперед, что в России тогда еще не было столь масштабных проектов оснащения стадионов Wi-Fi.

Читать дальше →
Total votes 53: ↑52 and ↓1+51
Comments49

«ВITАМИН РОСТА»: как ЛАНИТ привлекает молодежь и как молодым специалистам попасть в ЛАНИТ

Reading time10 min
Views13K
В этой статье я расскажу о том, как устроена работа с молодыми джедаями специалистами в группе компаний ЛАНИТ, и поделюсь итогами нашей специальной программы «ВITАМИН РОСТА», которой исполнился год. Приглашаю вас обсудить эффективность инструментов поиска, привлечения и погружения в проекты тех, кто только начинает свою карьеру в сфере информационных технологий.


Читать дальше →
Total votes 45: ↑37 and ↓8+29
Comments15

Год за три на Хабре. Делимся опытом ведения корпоративного блога

Reading time12 min
Views6.2K
Каждый из нас видел волнующие и торжественные моменты, когда, например, устанавливается связь с космонавтами или со спутником. Люди радостно вскидывают руки, искренне и тепло улыбаются, иногда обнимаются, особенно если событие значимое. Команда ЛАНИТ улыбалась, обнималась, вскрикивала и жала влажной от пота взволнованных рук мышкой кнопку «Опубликовать» 51 раз.  2 февраля исполняется год, как мы пришли на Хабр. Эмоции, опыт, находки, факапы, паника и много позитива — в нашей истории успеха под катом. Все это точно пригодится тем, кто хочет раскачать свой корпоративный блог на Хабре, но не знает, как.


Total votes 66: ↑60 and ↓6+54
Comments18

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity