Как стать автором
Поиск
Написать публикацию
Обновить
113.32

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

«Не вижу ни одного резона использовать Python для работы со Spark, кроме лени»

Время на прочтение6 мин
Количество просмотров9.9K

На днях мы решили пообщаться c Дмитрием Бугайченко (dmitrybugaychenko), одним из наших преподавателей программы "Анализ данных на Scala", и обсудить с ним актуальные вопросы использования Scala в задачах Data Science и Data Engineering. Дмитрий является инженером-аналитиком в "Одноклассниках".


image

Читать дальше →

Jupyter Notebook в Netflix

Время на прочтение12 мин
Количество просмотров12K

В последнее время Jupyter Notebook стал очень популярен среди специалистов Data Science, став де-факто стандартом для быстрого прототипирования и анализа данных. В Netflix, стараемся раздвинуть границы его возможностей еще дальше, переосмысливая то, чем может быть Notebook, кем может быть использован, и что они могут могут с ним делать. Мы вкладываем много сил, чтобы воплотить наше видение в реальность.


В данной статье мы хотим рассказать почему считаем что Jupyter Notebooks настолько привлекательным и что вдохновляет нас на этом пути. Кроме того, опишем компоненты нашей инфраструктуры и сделаем обзор новых способов использования Jupyter Notebook в Netflix.



Примечание от переводчика: осторожно, много текста и мало картинок

Читать дальше →

Что делать с людьми, которых заменят роботы?

Время на прочтение5 мин
Количество просмотров26K


В этой предновогодней публикации мы решили немного порассуждать о будущем в мире роботов и о роли человека в нем.

Предсказывать будущее в наши дни стало абсолютным must have среди экспертов. Когда технологии меняют мир настолько стремительно, очень хочется заглянуть хотя бы на несколько лет вперед. Цели разные. Потребителям — пофантазировать, восхититься и/или ужаснуться, бизнесам — скорректировать планы, политикам — продумать меры по сохранению спокойствия в социуме на случай «большого технологического шухера».
Читать дальше →

Проект хранилища на MS SQL Server, интеграция с 1С 7.7 и автоматизация разработки в SSDT

Время на прочтение22 мин
Количество просмотров9.3K
Время течет и скоро от этой разработки почти ничего не останется, а у меня все никак не находилось времени ее описать.



Речь пойдет о компании федерального уровня с большим числом филиалов и подфилиалов. Но, как обычно, все началось давным-давно с одного маленького магазина. С течением лет шло достаточно быстрое и стихийное развитие, появлялись филиалы, подразделения и прочие офисы, а ИТ-инфраструктуре не уделялось в те времена должного внимания, и это тоже частое явление. Конечно же, везде использовалась 1С77, без задела на какие-либо репликации и масштабирование, поэтому, сами понимаете, в конце пришли к тому, что был порожден спрут-франкенштейн с примотанными изолентой щупальцами — в каждом филиале автономный мутант, который с центральной базой обменивался в «наколеночном» режиме лишь несколькими справочниками, без которых ну вообще никак было нельзя, а остальное автономно. Какое-то время довольствовались копиями (десятки их!) филиальных баз в центральном офисе, но данные в них отставали на несколько дней.

Реальность же требует получать информацию более оперативно и гибко, а еще надо что-то с этим делать. Пересесть с одной учетной системы на другую при таких масштабах — то еще болото. Поэтому было решено сделать хранилище данных (ДХ), в которое стекалась бы информация из разных баз, чтобы впоследствии из этого ХД могли получать данные другие сервисы и аналитическая система в виде кубов, SSRS отчетов и протча.

Забегая вперед скажу, что переход на новую учетную систему почти уже случился и бОльшая часть проекта, описываемого здесь, будет выпилена в ближайшее время за ненадобностью. Жаль, конечно, но ничего не поделаешь.

Далее следует длинная статья, но прежде чем начнете читать, позвольте заметить, что ни в коем случае не выдаю это решение за эталон, однако может кто-то найдет для себя в ней что-то полезное.
Читать дальше →

Для чего кредитным организациям наука о данных

Время на прочтение5 мин
Количество просмотров3.7K
Автор материала на примере Индии рассматривает, какие выгоды для кредитных организаций несут цифровая революция, демократизация данных и анализ цифрового следа пользователей.


Демократизация данных


Доступ к Всемирной сети позволяет людям узнавать о новых продуктах, услугах, возможностях и контенте из любой точки планеты. Так, Индия стала самым активным потребителем мобильного интернета.

Количество мобильных абонентов в I квартале 2018 года

Крупные корпорации вынуждены считаться с такими изменениями. Они переводят свой бизнес в онлайн или обеспечивают там свое присутствие. Объем розничных онлайн-продаж в этом году вырос до 50 млрд долларов по сравнению с 19,7 млрд долларов в 2015 году. А статистика прошлого года показывает, что 82% запросов, связанных с электронной коммерцией, были отправлены с мобильных устройств.

Распространенность смартфонов


Персональные компьютеры и планшеты в Индии относятся к категории дорогих устройств, недоступных широким слоям населения. А смартфоны с поддержкой 4G в среднем стоят 7 долларов. Это привело к широкому распространению 4G-смартфонов в стране: их количество выросло с 47 миллионов в 2015 году до 218 миллионов в 2017 году. Согласно прогнозам, количество пользователей мобильного интернета также резко возрастет с 240 млн в 2016 году до 520 млн в 2020-м. Среднегодовой показатель роста при этом составит 21%.

Увеличение среднего показателя потребления данных


Запуск 4G сделал высокоскоростной интернет доступным для широких масс. Снижение стоимости обмена данными на 93% — с 3,7 долларов за 1 Гб до 0,26 долларов — сильно повлияло на поведение потребителей, которые «подсели» на интернет. По статистике, индийцы сегодня проводят за смартфоном около 3 часов в день.

Цифровой след

Читать дальше →

10 трюков для продвинутого дашбординга в Splunk. Часть 1

Время на прочтение8 мин
Количество просмотров7.7K


Добрый день!

Сегодня мы хотим поделиться с вами инсайдом с ежегодного масштабного мероприятия Splunk .conf18, которое проходило в начале октября. Splunk .conf – это то место, где эксперты и разработчики Splunk делятся своим опытом, разными фишками и полезными инструментами для работы.

В двух статьях мы расскажем о 10 лайфхаках для разработчиков дашбордов, которые были предложены на конференции. Почему говорим именно про это? Потому что чем лучше выглядит приложение, тем лучше воспринимается информация в нем. Для того, чтобы сделать действительно хорошие дашборды уже существует множество встроенных или легко интегрируемых инструментов, правда далеко не все знают, где и как их найти. Подробнее про них и как их использовать, смотрите под катом.
Читать дальше →

Как выявляют риски в госконтроле и зачем для этого машинное обучение

Время на прочтение8 мин
Количество просмотров4.1K


В предыдущей статье на тему государственного риск-менеджмента мы прошлись по основам: зачем государственным органам управлять рисками, где их искать и какие существуют подходы к оценке. Сегодня поговорим о процессе анализа рисков: как выявить причины их возникновения и обнаружить нарушителей.
Читать дальше →

Big Data — бро или не бро

Время на прочтение13 мин
Количество просмотров6.2K
В Москве прошла конференция Big Data, Meet Big Brother, организованная фондом Sistema_VC. Там было всякое: приехал израильский разработчик, который знает, как обрабатывать данные в сто раз быстрее всех. МТС сказал, что МТС умрет, если не станет IT компанией. Российские бизнесмены нагоняли тревогу, пытаясь ее развеять.



Кажется, уже все привыкли, что в разговорах о больших данных, особенно если они философские, рано или поздно появится Оруэлловский суперзлодей Большой Брат — прямо как Гитлер во всех спорах в интернете. Организаторы не стали тянуть и обыграли штамп сразу в названии. Тревога — оправданная или нет — часть хайпа, что поделать.
Читать дальше →

4 года Data Science в Schibsted Media Group

Время на прочтение17 мин
Количество просмотров6.3K

Секретные материалы


В 2014-м году я присоединился к небольшой команде в Schibsted Media Group в качестве 6-го специалиста по Data Science в этой компании. С тех пор я поработал над многими начинаниями в области Data Science в организации, в которой теперь таких уже 40 с лишним человек. В этом посте я расскажу о некоторых вещах, о которых узнал за последние четыре года, сперва как специалист, а затем как менеджер Data Science.


Этот пост следует примеру Robert Chang и его отличной статьи «Doing Data Science in Twitter», которую я нашел очень ценной, когда впервые прочитал ее в 2015-м году. Цель моего собственного вклада ― поведать настолько же полезные мысли специалистам и менеджерам Data Science по всему миру.


Я поделил пост на две части:


  • Часть I: Data Science в реальной жизни
  • Часть II: Управление командой Data Science
Читать дальше →

Распределенная обработка графов со Spark GraphX

Время на прочтение6 мин
Количество просмотров8.5K
image

«Simplicity is prerequisite for reliability» by Edsger Dijkstra

Пролог


Графы — столь наглядная и проста для понимания структура данных, еще со времен Леонарда Эйлера заставляла ломать умы человечества над разнородными задачами, вроде того как можно пройти по всем семи мостам Кёнигсберга, не проходя ни по одному из них дважды или как разъездному посреднику, найти самый выгодный маршрут.
Читать дальше →

Лицензионная политика Oracle выталкивает аналитику на Hadoop

Время на прочтение2 мин
Количество просмотров7.5K
Крупный бизнес и кровавый энтерпрайз уже давно нашли замену взрослым рсубд на задачах DWH и аналитики. DWH массово движется в сторону DataLake и Hadoop. Выглядит, что и небольшим компаниям уже нет особого смысла запускать аналитику на серьезной рсубд. С ростом кол-ва ядер доступных даже небольшому бизнесу пытаться лицензировать полноценную редакцию взрослой субд типа Oracle смысла мало. Standard редакция Oracle хоть и лицензируется по сокетам, но при этом вырезан важнейший функционал. Во первых в standard редакции нет partitioning
Читать дальше →

Как обмен данными влияет на качество рекомендаций

Время на прочтение7 мин
Количество просмотров3.1K
Привет, Хабр!

Мы уделяем особенное внимание проверке интеграции при подключении нового клиента к платформе и постоянно отслеживаем статус интеграции в процессе работы. Почему это критически важно? Потому что сбор данных — основа формирования качественных рекомендаций.



Работа рекомендательной системы строится на нескольких важных составляющих: сбор данных, их хранение, обработка, выдача рекомендаций и growth hacking. Плюс «железо» для обеспечения вычислительных мощностей алгоритмов и процесс верстки. Таким образом мы получаем как минимум 7 пунктов, от которых зависит качество рекомендаций, не говоря уже о дорогой команде аналитиков. Как внешний сервис, так и внутренняя система рекомендаций интернет-магазина, должны охватывать все эти пункты и качественно обеспечивать работу на всех этапах.
Читать дальше →

Как загрузить нестандартный лог в Splunk + логи Fortinet

Время на прочтение5 мин
Количество просмотров6.4K
Много ли мы генерируем данных, используя информационные системы каждый день? Огромное количество! Но знаем ли мы все возможности по работе с такими данными? Определенно, нет! В рамках этой статьи мы расскажем какие типы данных мы можем загружать для дальнейшего операционного анализа в Splunk, а также покажем как подключить загрузку логов Fortinet и логов нестандартной структуры, которые необходимо разделять на поля вручную.


Читать дальше →

Ближайшие события

Программа конференции Neurodata Lab и НИУ ИТМО по Emotion AI, Петербург, 30 марта

Время на прочтение2 мин
Количество просмотров1.7K
Напоминаем, что всего чуть более недели остается до конференции «Emotion AI: новые вызовы для науки и образования, новые возможности для бизнеса». Однодневное мероприятие, соорганизаторами которого являются Neurodata Lab LLC и НИУ ИТМО, состоится в пятницу, 30 марта, с 10 до 18 часов (ИТМО, Биржевая линия д. 14).

Регистрация доступна по ссылке.

Предварительная программа доступна в теле публикации.

image
Читать дальше →

Мониторинг эффективности работы IT-систем с помощью Splunk IT Service Intelligence

Время на прочтение4 мин
Количество просмотров4.9K
Ни для кого не секрет, что бизнес непрерывно стремится к повышению своей конкурентоспособности. Кажется, что проще всего это сделать через инновации, давайте повысим эффективность одного-двух-трех бизнес-процессов с помощью современной, высокотехнологичной системы и будет нам счастье. Эта схема работает до тех пор, пока сложность нашей IT-системы не начинает работать против нас.



Вы знаете, насколько эффективно работают элементы вашей IT- инфраструктуры? Как они влияют друг на друга? Может быть, какой-нибудь элемент ухудшает работу системы в целом? Как понять, что это за элемент?
Читать дальше →

Как мы выстраивали инфраструктуру данных в Wish

Время на прочтение13 мин
Количество просмотров4.7K
Я пришел в Wish 2,5 года назад, дела в компании шли отлично. Наше приложение было в топе в iOS и Android магазинах и продавало более 2 миллионов товаров в день.

Мало кто верил, что можно построить большой бизнес, продавая дешевые товары. Однако, используя данные, Wish смогли бросить вызов этим сомнениям. Аналитика данных всегда была у нас в крови.

Но когда наш бизнес стал расти огромными темпами, мы не были к этому готовы, обнаружилось множество проблем с аналитикой. Каждая команда внутри компании стала нуждаться в срочной поддержке в работе с данными и многое упускала из виду в своем поле деятельности. В то время наши аналитические возможности еще только зарождались и не могли удовлетворить все растущий спрос.

В данном посте я расскажу о том, какие уроки мы извлекли за это время, а также распишу верный путь для компаний, находящихся в поисках способов масштабирования их аналитических функций.


Читать дальше →

Кто такой Data Scientist — глазами работодателя

Время на прочтение6 мин
Количество просмотров28K
Ксения Суворова, директор по развитию Фонтанки.ру, и Андрей Мирошниченко, координатор офлайн-программы «Data Scientist», специально для блога Нетологии рассказали о профессии Data Scientist со стороны работодателя: какие специалисты требуются рынку, каких компетенций от них ждут и как происходит найм на работу.

Сейчас всё сложилось таким образом, как когда-то история с продакт- и проджект-менеджментом: специалисты есть на рынке, у них уже достаточно устоявшаяся рыночная стоимость, существуют вакансии, но при этом не каждый знает, кто это такой и зачем этот человек вообще нужен бизнесу. Поэтому мы решили поговорить с компанией «Авито», HR-агентством «Spice IT» и компанией Storia.me, чтобы понять, каково развитие профессии на самом деле.

image

Взгляд компании Avito с позиции прямого нанимателя — рассказывает Александра Головина


«Потребность в специалистах data science очень велика и в дальнейшем будет только расти. Однако, возможностей для обучения тоже много: любой человек, который понимает, что ему не хватает академического образования, может пройти курсы и получить необходимую базу.

Вопрос, скорее, в том, кто и почему приходит в профессию. На собеседовании соискатели говорят, что интересуются машинным обучением, а когда начинаешь спрашивать почему, отвечают: «Это модно». И всё. Понимания, как применить знания, нет.
Читать дальше →

Анализ логов СКУД с помощью Splunk

Время на прочтение3 мин
Количество просмотров6.9K
Если у Вас есть Система Контроля и Управления Доступом или, проще говоря, СКУД, но вы не знаете, как можно получить полезную информацию из данных, которые эта система генерирует, то эта статья будет полезна Вас.



Сегодня мы расскажем о том, как с помощью Splunk, о котором говорили ранее, можно получать аналитику по результатам деятельности СКУД, а также зачем это нужно.
Читать дальше →

Стоит ли использовать табличную модель SSAS?

Время на прочтение4 мин
Количество просмотров10K

Нельзя просто так взять и ответить на этот вопрос, не приняв во внимание целый ряд факторов.

Многие думают, что необходимо переходить на табличную модель, ибо она новее и лучше. Но часто это нецелесообразно или даже невозможно в принципе. Однако поговорим об этом чуть позже.

Многомерная модель


Многомерная база данных имеет определенную структуру и позволяет нам генерировать отчеты очень быстро. Когда-то, для создания многомерных баз данных, многомерная модель была единственным решением. Эта модель не менялась со времен SQL Server 2005. Если посмотреть что нового в каждом выпуске Analysis Services, то станет ясно, что большинство новшеств связано именно с табличной моделью.

Табличная модель


Табличная модель появилась в SQL Server 2012 и активно развивается, а каждая последующая версия включают новые возможности.

Табличная модель работает на другом движке (xVelocity) и она разработана для быстрого выполнения колоночных запросов, потому что использует колоночное хранение (многомерные модели используют строковое хранение), в дополнение к хорошему сжатию данных. Данные хранятся в оперативной памяти (режим in-memory), поэтому очень важно, чтобы на сервере было много памяти и очень быстрый процессор. Диски для табличной модели не так важны. Одним из основных преимуществ табличной модели является то, что некоторые запросы в ней работают быстрее (например, очень быстро работают с измерениями на основе distinct count) и она имеет высокую степень сжатия — 1/10 (ниже приведена ссылка с описанием принципа сжатия), в то время как в многомерной модели лишь 1/3. Степень сжатия указана примерная, разумеется, она может колебаться, в зависимости от данных.
Читать дальше →

Запуск регулярных задач на кластере или как подружить Apache Spark и Oozie

Время на прочтение7 мин
Количество просмотров15K


Давно уже витала в воздухе необходимость реализовать запуск регулярных Spark задач через Oozie, но всё руки не доходили и вот наконец свершилось. В этой статье хочу описать весь процесс, возможно она упростит Вам жизнь.

Читать дальше →

Вклад авторов