На днях мы решили пообщаться c Дмитрием Бугайченко (dmitrybugaychenko), одним из наших преподавателей программы "Анализ данных на Scala", и обсудить с ним актуальные вопросы использования Scala в задачах Data Science и Data Engineering. Дмитрий является инженером-аналитиком в "Одноклассниках".

Big Data *
Большие данные и всё о них
Jupyter Notebook в Netflix
В последнее время Jupyter Notebook стал очень популярен среди специалистов Data Science, став де-факто стандартом для быстрого прототипирования и анализа данных. В Netflix, стараемся раздвинуть границы его возможностей еще дальше, переосмысливая то, чем может быть Notebook, кем может быть использован, и что они могут могут с ним делать. Мы вкладываем много сил, чтобы воплотить наше видение в реальность.
В данной статье мы хотим рассказать почему считаем что Jupyter Notebooks настолько привлекательным и что вдохновляет нас на этом пути. Кроме того, опишем компоненты нашей инфраструктуры и сделаем обзор новых способов использования Jupyter Notebook в Netflix.
Примечание от переводчика: осторожно, много текста и мало картинок
Что делать с людьми, которых заменят роботы?

В этой предновогодней публикации мы решили немного порассуждать о будущем в мире роботов и о роли человека в нем.
Предсказывать будущее в наши дни стало абсолютным must have среди экспертов. Когда технологии меняют мир настолько стремительно, очень хочется заглянуть хотя бы на несколько лет вперед. Цели разные. Потребителям — пофантазировать, восхититься и/или ужаснуться, бизнесам — скорректировать планы, политикам — продумать меры по сохранению спокойствия в социуме на случай «большого технологического шухера».
Проект хранилища на MS SQL Server, интеграция с 1С 7.7 и автоматизация разработки в SSDT

Речь пойдет о компании федерального уровня с большим числом филиалов и подфилиалов. Но, как обычно, все началось давным-давно с одного маленького магазина. С течением лет шло достаточно быстрое и стихийное развитие, появлялись филиалы, подразделения и прочие офисы, а ИТ-инфраструктуре не уделялось в те времена должного внимания, и это тоже частое явление. Конечно же, везде использовалась 1С77, без задела на какие-либо репликации и масштабирование, поэтому, сами понимаете, в конце пришли к тому, что был порожден спрут-франкенштейн с примотанными изолентой щупальцами — в каждом филиале автономный мутант, который с центральной базой обменивался в «наколеночном» режиме лишь несколькими справочниками, без которых ну вообще никак было нельзя, а остальное автономно. Какое-то время довольствовались копиями (десятки их!) филиальных баз в центральном офисе, но данные в них отставали на несколько дней.
Реальность же требует получать информацию более оперативно и гибко, а еще надо что-то с этим делать. Пересесть с одной учетной системы на другую при таких масштабах — то еще болото. Поэтому было решено сделать хранилище данных (ДХ), в которое стекалась бы информация из разных баз, чтобы впоследствии из этого ХД могли получать данные другие сервисы и аналитическая система в виде кубов, SSRS отчетов и протча.
Забегая вперед скажу, что переход на новую учетную систему почти уже случился и бОльшая часть проекта, описываемого здесь, будет выпилена в ближайшее время за ненадобностью. Жаль, конечно, но ничего не поделаешь.
Далее следует длинная статья, но прежде чем начнете читать, позвольте заметить, что ни в коем случае не выдаю это решение за эталон, однако может кто-то найдет для себя в ней что-то полезное.
Для чего кредитным организациям наука о данных

Демократизация данных
Доступ к Всемирной сети позволяет людям узнавать о новых продуктах, услугах, возможностях и контенте из любой точки планеты. Так, Индия стала самым активным потребителем мобильного интернета.
Крупные корпорации вынуждены считаться с такими изменениями. Они переводят свой бизнес в онлайн или обеспечивают там свое присутствие. Объем розничных онлайн-продаж в этом году вырос до 50 млрд долларов по сравнению с 19,7 млрд долларов в 2015 году. А статистика прошлого года показывает, что 82% запросов, связанных с электронной коммерцией, были отправлены с мобильных устройств.
Распространенность смартфонов
Персональные компьютеры и планшеты в Индии относятся к категории дорогих устройств, недоступных широким слоям населения. А смартфоны с поддержкой 4G в среднем стоят 7 долларов. Это привело к широкому распространению 4G-смартфонов в стране: их количество выросло с 47 миллионов в 2015 году до 218 миллионов в 2017 году. Согласно прогнозам, количество пользователей мобильного интернета также резко возрастет с 240 млн в 2016 году до 520 млн в 2020-м. Среднегодовой показатель роста при этом составит 21%.
Увеличение среднего показателя потребления данных
Запуск 4G сделал высокоскоростной интернет доступным для широких масс. Снижение стоимости обмена данными на 93% — с 3,7 долларов за 1 Гб до 0,26 долларов — сильно повлияло на поведение потребителей, которые «подсели» на интернет. По статистике, индийцы сегодня проводят за смартфоном около 3 часов в день.
Цифровой след
10 трюков для продвинутого дашбординга в Splunk. Часть 1

Добрый день!
Сегодня мы хотим поделиться с вами инсайдом с ежегодного масштабного мероприятия Splunk .conf18, которое проходило в начале октября. Splunk .conf – это то место, где эксперты и разработчики Splunk делятся своим опытом, разными фишками и полезными инструментами для работы.
В двух статьях мы расскажем о 10 лайфхаках для разработчиков дашбордов, которые были предложены на конференции. Почему говорим именно про это? Потому что чем лучше выглядит приложение, тем лучше воспринимается информация в нем. Для того, чтобы сделать действительно хорошие дашборды уже существует множество встроенных или легко интегрируемых инструментов, правда далеко не все знают, где и как их найти. Подробнее про них и как их использовать, смотрите под катом.
Как выявляют риски в госконтроле и зачем для этого машинное обучение

В предыдущей статье на тему государственного риск-менеджмента мы прошлись по основам: зачем государственным органам управлять рисками, где их искать и какие существуют подходы к оценке. Сегодня поговорим о процессе анализа рисков: как выявить причины их возникновения и обнаружить нарушителей.
Big Data — бро или не бро

Кажется, уже все привыкли, что в разговорах о больших данных, особенно если они философские, рано или поздно появится Оруэлловский суперзлодей Большой Брат — прямо как Гитлер во всех спорах в интернете. Организаторы не стали тянуть и обыграли штамп сразу в названии. Тревога — оправданная или нет — часть хайпа, что поделать.
4 года Data Science в Schibsted Media Group
В 2014-м году я присоединился к небольшой команде в Schibsted Media Group в качестве 6-го специалиста по Data Science в этой компании. С тех пор я поработал над многими начинаниями в области Data Science в организации, в которой теперь таких уже 40 с лишним человек. В этом посте я расскажу о некоторых вещах, о которых узнал за последние четыре года, сперва как специалист, а затем как менеджер Data Science.
Этот пост следует примеру Robert Chang и его отличной статьи «Doing Data Science in Twitter», которую я нашел очень ценной, когда впервые прочитал ее в 2015-м году. Цель моего собственного вклада ― поведать настолько же полезные мысли специалистам и менеджерам Data Science по всему миру.
Я поделил пост на две части:
- Часть I: Data Science в реальной жизни
- Часть II: Управление командой Data Science
Распределенная обработка графов со Spark GraphX

«Simplicity is prerequisite for reliability» by Edsger Dijkstra
Пролог
Графы — столь наглядная и проста для понимания структура данных, еще со времен Леонарда Эйлера заставляла ломать умы человечества над разнородными задачами, вроде того как можно пройти по всем семи мостам Кёнигсберга, не проходя ни по одному из них дважды или как разъездному посреднику, найти самый выгодный маршрут.
Лицензионная политика Oracle выталкивает аналитику на Hadoop
Как обмен данными влияет на качество рекомендаций
Мы уделяем особенное внимание проверке интеграции при подключении нового клиента к платформе и постоянно отслеживаем статус интеграции в процессе работы. Почему это критически важно? Потому что сбор данных — основа формирования качественных рекомендаций.

Работа рекомендательной системы строится на нескольких важных составляющих: сбор данных, их хранение, обработка, выдача рекомендаций и growth hacking. Плюс «железо» для обеспечения вычислительных мощностей алгоритмов и процесс верстки. Таким образом мы получаем как минимум 7 пунктов, от которых зависит качество рекомендаций, не говоря уже о дорогой команде аналитиков. Как внешний сервис, так и внутренняя система рекомендаций интернет-магазина, должны охватывать все эти пункты и качественно обеспечивать работу на всех этапах.
Как загрузить нестандартный лог в Splunk + логи Fortinet

Ближайшие события
Программа конференции Neurodata Lab и НИУ ИТМО по Emotion AI, Петербург, 30 марта
Регистрация доступна по ссылке.
Предварительная программа доступна в теле публикации.

Мониторинг эффективности работы IT-систем с помощью Splunk IT Service Intelligence

Вы знаете, насколько эффективно работают элементы вашей IT- инфраструктуры? Как они влияют друг на друга? Может быть, какой-нибудь элемент ухудшает работу системы в целом? Как понять, что это за элемент?
Как мы выстраивали инфраструктуру данных в Wish
Мало кто верил, что можно построить большой бизнес, продавая дешевые товары. Однако, используя данные, Wish смогли бросить вызов этим сомнениям. Аналитика данных всегда была у нас в крови.
Но когда наш бизнес стал расти огромными темпами, мы не были к этому готовы, обнаружилось множество проблем с аналитикой. Каждая команда внутри компании стала нуждаться в срочной поддержке в работе с данными и многое упускала из виду в своем поле деятельности. В то время наши аналитические возможности еще только зарождались и не могли удовлетворить все растущий спрос.
В данном посте я расскажу о том, какие уроки мы извлекли за это время, а также распишу верный путь для компаний, находящихся в поисках способов масштабирования их аналитических функций.

Кто такой Data Scientist — глазами работодателя
Сейчас всё сложилось таким образом, как когда-то история с продакт- и проджект-менеджментом: специалисты есть на рынке, у них уже достаточно устоявшаяся рыночная стоимость, существуют вакансии, но при этом не каждый знает, кто это такой и зачем этот человек вообще нужен бизнесу. Поэтому мы решили поговорить с компанией «Авито», HR-агентством «Spice IT» и компанией Storia.me, чтобы понять, каково развитие профессии на самом деле.

Взгляд компании Avito с позиции прямого нанимателя — рассказывает Александра Головина
«Потребность в специалистах data science очень велика и в дальнейшем будет только расти. Однако, возможностей для обучения тоже много: любой человек, который понимает, что ему не хватает академического образования, может пройти курсы и получить необходимую базу.
Вопрос, скорее, в том, кто и почему приходит в профессию. На собеседовании соискатели говорят, что интересуются машинным обучением, а когда начинаешь спрашивать почему, отвечают: «Это модно». И всё. Понимания, как применить знания, нет.
Анализ логов СКУД с помощью Splunk

Сегодня мы расскажем о том, как с помощью Splunk, о котором говорили ранее, можно получать аналитику по результатам деятельности СКУД, а также зачем это нужно.
Стоит ли использовать табличную модель SSAS?

Нельзя просто так взять и ответить на этот вопрос, не приняв во внимание целый ряд факторов.
Многие думают, что необходимо переходить на табличную модель, ибо она новее и лучше. Но часто это нецелесообразно или даже невозможно в принципе. Однако поговорим об этом чуть позже.
Многомерная модель
Многомерная база данных имеет определенную структуру и позволяет нам генерировать отчеты очень быстро. Когда-то, для создания многомерных баз данных, многомерная модель была единственным решением. Эта модель не менялась со времен SQL Server 2005. Если посмотреть что нового в каждом выпуске Analysis Services, то станет ясно, что большинство новшеств связано именно с табличной моделью.
Табличная модель
Табличная модель появилась в SQL Server 2012 и активно развивается, а каждая последующая версия включают новые возможности.
Табличная модель работает на другом движке (xVelocity) и она разработана для быстрого выполнения колоночных запросов, потому что использует колоночное хранение (многомерные модели используют строковое хранение), в дополнение к хорошему сжатию данных. Данные хранятся в оперативной памяти (режим in-memory), поэтому очень важно, чтобы на сервере было много памяти и очень быстрый процессор. Диски для табличной модели не так важны. Одним из основных преимуществ табличной модели является то, что некоторые запросы в ней работают быстрее (например, очень быстро работают с измерениями на основе distinct count) и она имеет высокую степень сжатия — 1/10 (ниже приведена ссылка с описанием принципа сжатия), в то время как в многомерной модели лишь 1/3. Степень сжатия указана примерная, разумеется, она может колебаться, в зависимости от данных.
Запуск регулярных задач на кластере или как подружить Apache Spark и Oozie
Давно уже витала в воздухе необходимость реализовать запуск регулярных Spark задач через Oozie, но всё руки не доходили и вот наконец свершилось. В этой статье хочу описать весь процесс, возможно она упростит Вам жизнь.
Вклад авторов
moat 815.0Aleron75 528.0Syurmakov 524.4alexanderkuk 501.03Dvideo 490.0i_shutov 488.0m31 483.2shukshinivan 460.0s_valuev 446.0o6CuFl2Q 445.0