Как стать автором
Обновить

Cloudera митап про интерактивные SQL запросы к потоковым данным пройдет 27.04 в 16:00 МСК

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *


Cloudera Streaming Analytics предлагает SQL Stream Builder как сервис для создания непрерывных запросов к вашему потоку данных, используя SQL.

Конструктор SQL Stream Builder (SSB) — это комплексный интерфейс для создания заданий по обработке потоковых данных с контролем состояния данных с помощью SQL. Используя SQL, вы можете легко и просто создавать запросы, которые фильтруют, агрегируют, маршрутизируют и иным образом модифицируют потоки данных. SSB представляет собой интерфейс управления заданиями для компоновки и выполнения непрерывного SQL на потоках, а также для создания надежных API-интерфейсов для получения результатов.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 354
Комментарии 0

Оффер за 2 дня в X5: для System Analyst

Блог компании X5 Group Анализ и проектирование систем *Big Data *Аналитика мобильных приложений *Карьера в IT-индустрии

Приглашаем на Weekend Offer в X5 Group. Мы сокращаем дистанцию для системных аналитиков до двух дней: 20-го июня интервью, 21-го июня оффер.

Подать заявку

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 2K
Комментарии 0

«Аналитика продукта» для начинающих — новый бесплатный курс Нетологии

Блог компании Нетология Big Data *
Recovery mode

12 июля стартует новый бесплатный курс Нетологии по основам аналитики продукта. Курс ориентирован на тех, кто хочет попробовать себя в роли продуктового или маркетингового аналитика и расскажет о том, как как устроена маркетинговая и продуктовая аналитика проекта или продукта. Он подойдет, как для уже действующих маркетологов и продактов / проджектов, так и для тех, у кого еще нет бэкграунда в диджитал-сфере.

Программа состоит из 4 часовых лекций и заданий с самопроверкой. Студенты узнают, что такое data-driven подход и зачем компании его внедряют, поймут, как ставить маркетинговые цели и генерировать гипотезы, определят эффективность инвестиций в продукт и оценят вклад внедрения аналитики на примере существующих компаний. 

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.6K
Комментарии 0

Quadcode meetup (онлайн) про аналитику, дизайн, работу с командой и не только

Блог компании Quadcode Управление персоналом *Карьера в IT-индустрии Финансы в IT IT-компании

7 спикеров разных профессий и с разным опытом поделятся своими кейсами. Объединяет их работа в Quadcode. А рассказывать ребята будут про аналитику, Scrum, работу с людьми и дизайн. Участие бесплатное, но нужно зарегистрироваться.

Детали — под катом.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 497
Комментарии 0

Создаём интерактивные дашборды за две недели: бесплатный курс визуализации данных

Блог компании Нетология Визуализация данных Учебный процесс в IT Карьера в IT-индустрии

6 октября стартует курс «Визуализация данных: от скучных графиков к интерактивным дашбордам». Это шесть занятий, четыре из которых — практические, посвящённые конкретным инструментам. Курс-симулятор даст готовые навыки визуализации данных, которые можно будет сразу же применять в работе.

Что получится изучить →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.8K
Комментарии 0

Бесплатный курс-симулятор: введение в SQL

Блог компании Нетология SQL *Администрирование баз данных *Учебный процесс в IT Data Engineering *

С 15 октября начнётся курс Нетологии «Введение в SQL и работу с базой данных». На пяти занятиях студенты изучат реальный кейс магазина, которому нужно собрать данные, настроить быстрый поиск информации и сформировать отчёты. После каждого урока обязательна практика и домашнее задание для закрепления навыков.

Что будет на курсе →
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 3.7K
Комментарии 0

Go Digital | 16 декабря 14:40-17:10 онлайн

Блог компании Hewlett Packard Enterprise

В эпоху глобальной цифровизации данные стремительно становятся большими объемами данных. Насколько эффективно и безопасно они управляются в вашей организации? Какие существуют возможности использования оперативной аналитики данных и риски бездействия?

Регистрируйтесь и присоединяйтесь к онлайн мероприятию GO Digital Innovation for Corporations. Узнайте, как управлять, анализировать и защищать Big Data независимо от того, где они хранятся – от периферии до облака, и получите убедительное конкурентное преимущество.

Четверг, 16 декабря, 14:40-17:10 (МСК)
Сессия BIGDATA, Machine Learning и предиктивная аналитика

· Эксабайтная корпоративная платформа данных для ИИ и аналитики.

· Обеспечение глобального доступа к данным во всем предприятии.

· Возможности больших данных для монетизации.

Эффективный подход к задачам аналитики Больших Данных

Виталий Тукмаков. Ведущий консультант HPE Pointnext, Hewlett Packard Enterprise в России.

Раскрываем грани изумруда: аналитика в действии

Антон Федоров. Архитектор решений. Департамент инфраструктурных решений, Hewlett Packard Enterprise в России.

Участие бесплатное, необходима регистрация.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 194
Комментарии 0

Неделя занятий по работе с данными и другие бесплатные активности для начинающих аналитиков

Блог компании Нетология SQL *Учебный процесс в IT Карьера в IT-индустрии Data Engineering *

По статистике, в аналитику приходят чаще всего из смежных областей. Публикуем подборку бесплатных занятий и курсов для всех, кто присматривается к изучению Data Science и аналитике вообще.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 763
Комментарии 0

Аналитика в металлургии: онлайн-хакатон от «Северстали» и McKinsey

Блог компании Северсталь Python *Big Data *Хакатоны

Высокие технологии проникают во все отрасли бизнеса и промышленности, не исключая, конечно же, металлургию. Благодаря разным технологиям металлургические предприятия более эффективно используют ресурсы, мониторят качество продукции, улучшают показатели непрерывности процесса производства.

Но нет предела совершенству! И поэтому мы в ПАО «Северсталь» совместно с McKinsey и при поддержке Russian Hackers решили провести онлайн-хакатон для аналитиков и разработчиков в сфере поиска и анализа данных. Может быть, это как раз вы или ваши друзья?

Конечно, мы!
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 1.9K
Комментарии 1

«Айсберг вместо Оскара!» или как я пробовал освоить азы DataScience на kaggle

Учебный процесс в IT
Tutorial
В моей прошлой статье посвящённой освоению науки о данных (или по заграничному — Data Science) с абсолютного нуля (даже ниже чем -273 градуса по Кельвину) я обещал, что подготовлю материал о том, как я осваивал kaggle (буду писать с маленькой буквы, как у них на логотипе).

Для тех, кто так же, как и я только начинает знакомится с данным вопросом, поясню что как я понял kaggle это сайт, посвящённый соревнованиям и в некоторой степени обучению в области Data Science, где каждый может совершенно бесплатно и используя любые доступные инструменты, сделать прогноз по той или иной задаче.

Если вам интересно что же в итоге у меня из всего это вышло прошу под кат.

UPD: На свежую голову добавил небольшие пояснения про вкладку «данные» и про переобучение модели.


Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Просмотры 21K
Комментарии 3

«5П»: О качестве данных и распространенных ошибках при их сборе

Big Data *Управление проектами *Управление продуктом *Читальный зал
Recovery mode

Многие компании считают, что работают и принимают решения на основе данных, но часто это не так. Ведь для того чтобы управление велось на основе данных, их, эти самые данные, недостаточно только собрать и свести в статистику.

Намного важнее провести правильный анализ, а для этого они должны быть «чисты».
Разбираться в чистоте данных и в основных качественных параметрах я начну с этой статьи.
Для достоверной аналитики должны быть соблюдены все «П» данных: правильные, правильно собранные, собранные в правильной форме, в правильном месте и в правильное время.
Если один из параметров нарушен, это может сказаться на достоверности всей аналитики, а значит нужно понимать, на что важно обращать внимание при  работе с данными.
Читать дальше →
Всего голосов 12: ↑7 и ↓5 +2
Просмотры 7.3K
Комментарии 7

Анализ вакансий HeadHunter

Визуализация данных Веб-аналитика *


Однажды мне стало интересно, а что если попробовать проанализировать вакансии и составить по ним некоторые топы. Узнать кому больше всех платят, кто наиболее востребован и много чего еще.

Читать дальше →
Всего голосов 22: ↑19 и ↓3 +16
Просмотры 22K
Комментарии 15

Как мы искали признаки врачебных ошибок

Блог компании SAS Анализ и проектирование систем *Машинное обучение *Управление проектами *IT-компании


В 2006 году в голове моего тестя разорвалась аневризма и его свалил инсульт. К вечеру того дня он уже шутил и порывался ходить по больничной палате. Повторный инсульт, который случился под наблюдением врачей, его мозг не выдержал — тесть перестал разговаривать, ходить и узнавать родных. В другом госпитале его поставили на ноги, но из-за врачебной ошибки при первоначальном лечении он навсегда лишился речи, а его личность изменилась до неузнаваемости.

То, что с ним произошло, называется внутрибольничным инсультом и это один из маркеров (или иначе — триггеров) системных проблем в медицинской организации. Их нужно анализировать, чтобы снизить число предотвратимых врачебных ошибок в стационарах и повысить качество лечения пациентов.

В США этим вопросом озадачились в начале 2000-х. Массачусетский Institute for Healthcare Improvement (IHI) разработал методику IHI Global Trigger Tool for Measuring Adverse Events, которую затем внедрили передовые клиники США и Европы.

В 2016 году мы (российский офис SAS) попытались создать систему анализа медицинских триггеров по методике IHI в России. Расскажу, что из этого вышло.
Всего голосов 50: ↑50 и ↓0 +50
Просмотры 18K
Комментарии 60

Full stack Data analyst

Data Mining *Хранилища данных *Growth Hacking *Аналитика мобильных приложений *

"Анализ данных" часто организован так: вот у нас разработчики хранилища, а вот у нас аналитики. В DWH (data warehouse, хранилище) умеют SQL, а аналитики у нас умеют работать c экселем. Если нам нужно что-то проанализировать, то идете к аналитикам, а они идут за данными к DWH за данными. Вроде бы логично. И многие воспринимают, что это нормальное разделение труда. В этой статье я хочу донести мысль, что это разделение труда ошибочное и грандиозно снижает эффективность и производительность труда всего процесса анализа данных.


Типичный цикл работы по аналитической задаче выглядит так:


  1. Бизнес приходит с проблемой и просит получить ответ.
  2. Аналитики обсуждают с бизнесом, что надо сделать.
  3. Аналитики поняли, что от них хочет бизнес и понимают, что им примерно нужно в данных.
  4. Аналитики пишут запрос в DWH, чтобы получить данные.
  5. DWH берет запрос, читает, спрашивает, уточняет, извлекают данные, отдают.
  6. Аналитики понимают, что взяли не все или их неверно поняли, они пишут снова запрос в DWH, чтобы получить данные.
  7. DWH берет запрос, читает, спрашивает, уточняет, извлекают данные, отдают.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 9.1K
Комментарии 7

Сэмплирование и точность вычислений

Data Mining *Аналитика мобильных приложений *Управление продуктом *

Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.


Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.


В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 10K
Комментарии 4

Персонализируй это: как мы в QIWI работаем с рекомендациями

Блог компании QIWI Big Data *Машинное обучение *
Всем привет!

Меня зовут Лидия, я тимлид небольшой DataScience-команды в QIWI.

Мы с ребятами довольно часто сталкиваемся с задачей исследования потребностей клиентов, и в этом посте мне бы хотелось поделиться мыслями о том, как начать тему с сегментацией и какие подходы могут помочь разобраться в море неразмеченных данных.

Кого сейчас удивишь персонализацией? Отсутствие персональных предложений в продукте или сервисе уже кажется моветоном, и мы ждем те самые, отобранные только для нас, сливки везде – от ленты в Instagram до личного тарифного плана.

Однако, откуда берется тот самый контент или предложение? Если вы впервые погружаетесь в темные воды машинного обучения, то наверняка столкнетесь с вопросом – с чего начать и как выявить те самые интересы клиента. Чаще всего при наличии большой базы пользователей и отсутствии знаний об оных возникает желание пойти по двум популярным путям:

1. Разметить вручную выборку пользователей и обучить на ней модель, которая позволит определять принадлежность к этому классу или классам – в случае мультиклассового таргета.

Вариант неплохой, но на начальном этапе может заманить в ловушку – ведь мы еще не знаем, какие в принципе сегменты у нас есть и насколько они будут полезны для продвижения новых продуктовых фич, коммуникаций и прочего. Не говоря уже о том, что ручная разметка клиентов – дело достаточно затратное и иногда непростое, ведь чем больше у вас сервисов, тем большее количество данных нужно просмотреть для понимания, чем живет и дышит этот клиент. Большая вероятность, что получится нечто такое:



2. Обжегшись на варианте #1, часто выбирают вариант unsupervised-анализа без обучающей выборки.
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры 2K
Комментарии 12

Аналитик информационной безопасности – кто он такой? Погружение в профессию

Блог компании Varonis Systems Информационная безопасность *Big Data *
Перевод


Сегодня мы сделаем для вас обзор ежедневных обязанностей аналитика информационной безопасности. Его работа – это, по сути, постоянный анализ необработанных данных из
разнородных источников событий (информационной и сетевой) безопасности для поддержания (и желательно) повышения уровня безопасности организации. Это не всегда конкретные практические действия, но, как правило, они включают в себя агрегацию данных из многих возможных источников: журналы событий операционных систем, брандмауэров, маршрутизаторов, антивирусных сканеров и многое другое. Затем ему требуется объединить
или сопоставить их для получения набора данных, который может быть обработан с помощью соответствующих алгоритмов.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 14K
Комментарии 3

Структура Data Science-проекта с высоты птичьего полета

Data Mining *Big Data *
Из песочницы
Как узнать наверняка, что внутри у колобка?
Может, ты его проглотишь, а внутри него река?
© Таня Задорожная

Что такое Data Science сегодня, кажется, знают уже не только дети, но и домашние животные. Спроси любого котика, и он скажет: статистика, Python, R, BigData, машинное обучение, визуализация и много других слов, в зависимости от квалификации. Но не все котики, а также те, кто хочет стать специалистом по Data Science, знают, как именно устроен Data Science-проект, из каких этапов он состоит и как каждый из них влияет на конечный результат, насколько ресурсоемким является каждый из этапов проекта. Для ответа на эти вопросы как правило служит методология. Однако бОльшая часть обучающих курсов, посвященных Data Science, ничего не говорит о методологии, а просто более или менее последовательно раскрывает суть упомянутых выше технологий, а уж со структурой проекта каждый начинающий Data Scientist знакомится на собственном опыте (и граблях). Но лично я люблю ходить в лес с картой и компасом и мне нравится заранее представлять план маршрута, которым двигаешься. После некоторых поисков неплохую методологию мне удалось найти у IBM — известного производителя гайдов и методик по управлению чем угодно.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 8K
Комментарии 6

Как мы собирали данные по рекламным кампаниям с интернет-площадок (тернистый путь к продукту)

Блог компании dentsu russia Анализ и проектирование систем *Администрирование баз данных *Big Data *Интернет-маркетинг
Кажется, что сфера интернет-рекламы должна быть максимально технологичной и автоматизированной. Ещё бы, ведь там работают такие гиганты и эксперты в своём деле, как Яндекс, Mail.Ru, Google и Facebook. Но, как оказалось, нет предела совершенству и всегда есть что автоматизировать.

image
Источник

Коммуникационная группа Dentsu Aegis Network Russia — крупнейший игрок на рекламном digital рынке и активно инвестирует в технологии, пытаясь в оптимизировать и автоматизировать свои бизнес-процессы. Одной из нерешенных задач рынка интернет-рекламы стала задача сбора статистики по рекламным кампаниям с разных интернет-площадок. Решение этой задачи в итоге вылилось в создание продукта D1.Digital (читать как ДиВан), о разработке которого мы и хотим рассказать.
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 4.8K
Комментарии 3

Обнаружение пересекающихся сообществ в Instagram для определения интересов пользователей

Блог компании dentsu russia Big Data *Машинное обучение *Медийная реклама Социальные сети и сообщества
Сколько может рассказать о человеке профиль в соцсети? Фотографии, посты, комментарии, подписки – непаханное поле для анализа. Сегодня поговорим о том, как мы определяем интересы пользователей на основе их подписок в сети Instagram.

image
Источник
Читать дальше →
Всего голосов 19: ↑19 и ↓0 +19
Просмотры 15K
Комментарии 11