Как стать автором
Поиск
Написать публикацию
Обновить
76.15

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Amundsen — обнаружение данных на основе механизма метаданных от Lyft

Время на прочтение9 мин
Количество просмотров2.3K

В этой статье я хочу представить вам проект Amundsen, его цели и конечных пользователей. Чтобы узнать больше о его технической архитектуре, читайте следующую статью.

Для того чтобы повысить продуктивность дата-сайентистов и научных работников в Lyft, мы решили разработать приложение для обнаружения данных, построенное на основе механизма метаданных. С помощью проекта под кодовым названием Amundsen (в честь норвежского исследователя Роальда Амундсена) мы повышаем продуктивность пользователей наших данных, предоставляя интерфейс поиска данных, который выглядит примерно так:

Читать далее

Как мы готовили распределенный джойн на Spark Structured Streaming. Доклад с RamblerMeetup&Usermodel

Время на прочтение8 мин
Количество просмотров2.4K

История о том, как суточный ETL-контур карабкался в реалтайм.

В рамках AdTech-подразделения холдинга Rambler&Co выделено отдельное направление Usermodel, которое занимается анализом и сегментацией аудитории, а также повышением конверсий на площадках. Один из проектов этого направления –  Recommender (система рекомендаций), в котором искусственный интеллект подстраивается под интересы пользователей и из массы контента на площадке выбирает самые интересные новости и статьи персонально для каждого посетителя сайта.

Что вы узнаете из этой статьи?

• Зачем нам нужен Realtime-контур на Spark?

• Как правильно написать его так, чтобы он джойнил логи на лету?

• С какими подводными камнями можно столкнуться?

Читать далее

BeeTech 2021: обзор докладов big-data, искусcтвенный интеллект, IT-архитектура, QA, Back-End

Время на прочтение4 мин
Количество просмотров2.8K

Вчера я выложила первую часть видео с конференции BeeTech, которую мы проводили в апреле. Сегодня — доклады двух оставшихся стримов.

Здесь от построения QA-отдела с нуля и изменении IT-архитектуры до DIY-решений в системной интеграции и разработки прототипа военного робота при помощи компьютерного зрения.

Смотреть видео

Data Phoenix Digest — 08.07.2021

Время на прочтение3 мин
Количество просмотров782

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.

Также хочу пригласить всех 14 июля на долгожданный оффлайн митап одесского Open Data Science сообщества. На нем мы поговорим про управление данными и обнаружение объектов в реальном мире, а также вас ждет много живого общения, которого нам очень не хватало на карантине. Участие бесплатное, будет организована онлайн-трансляция. Детали и обязательная предварительная регистрация здесь.

Читать далее

Data Phoenix Digest — 01.07.2021

Время на прочтение2 мин
Количество просмотров845

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.

Читать далее

5 условий зарождения искуственного интеллекта в индустрии

Время на прочтение7 мин
Количество просмотров2.8K


Революция искусственного интеллекта не грядёт, она уже здесь и требует от компаний переосмысления бизнес-процессов, чтобы максимально использовать возможности искусственного интеллекта (ИИ) для расширения человеческих способностей.

Итак, у всех, кто интересуется современными технологиями, на слуху цифровизация, большие данные и проникновение искусственного интеллекта в разные области нашей жизни и деятельности. Ни для кого не секрет, что жизнь ИИ потихоньку зародилась вокруг нас: в наших карманах, сумках, машинах и домах, где «живут» наши гаджеты и различные электронные помощники. По словам ведущих специалистов в области искусственного интеллекта, эти технологии переживают сейчас третью волну, они наконец-то вырвались из исследовательских лабораторий и быстро становятся «ключевым элементом трансформации бизнеса» [1].
Читать дальше →

Оценка структуры кредитного портфеля с помощью R

Время на прочтение4 мин
Количество просмотров2.6K

В ходе обсуждений возникла «маленькая» задачка — построить динамику структуры кредитного портфеля (динамика кредитной карты, например). Есть важная специфика — необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения. Задачу решаем честно.


Рассматриваем как олимпиадную задачу. Никаких «кровавых энерпрайзов с корпоративными архитекторами» и педалинга кода, подход исключительно «сначала подумать». Не более одного экрана кода на прототип и никаких циклов (закладные для производительности и читаемости). Ниже приведен код на R с прототипом подхода.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Монтажный шкаф для ЦОД. Критерии выбора. Часть 2: оптимальная комплектация и возможности кастомизации

Время на прочтение3 мин
Количество просмотров5.2K

В предыдущей статье мы разбирались с оптимальными размерами монтажного шкафа и их зависимостью от условий эксплуатации. Но помимо высоты, ширины и глубины необходимо ориентироваться и в других параметрах, в том числе, аксессуарах и итоговой комплектации, а также особенностях поставки и сервисного обслуживания. Пустой шкаф не приносит какой-либо пользы, его задача быть удобным для устанавливаемого оборудования. Продуманность конструкции позволяет получить хорошие эксплуатационные параметры, не увеличивая габариты шкафа.

Читать далее

Контролируемое и неконтролируемое обучение: в чем разница?

Время на прочтение5 мин
Количество просмотров11K

В общих чертах рассмотрим два подхода к анализу и обработке данных — обучение контролируемое (с учителем) и неконтролируемое (без учителя). Основная разница в том, что в первом случае используются размеченные данные для помощи в прогнозировании, а во втором — нет. Но у обоих подходов есть более тонкие различия и ключевые области, в которых они превосходят друг друга.


 
Читать дальше →

Что такое Big data engineering, и как развиваться в этой сфере

Время на прочтение6 мин
Количество просмотров23K

Как отдельная профессия Big Data Engineering появилась довольно недавно. И даже крупные компании очень часто путают, чем занимается этот специалист, каковы его компетенции и зачем он вообще в организации.

Поэтому в сегодняшней статье, специально к старту нового потока курса по Data Engineering, мы разберёмся, кто такой Big Data Engineer, чем он занимается и чем отличается от Data Analyst и Data Scientist.  Этот гайд подойдёт людям, которые хотят работать с большими данными и присматриваются к профессии в целом. А также тем, кто просто хочет понять, чем занимаются инженеры данных.

Читать далее

Impala для Python-разработчика на примере определения фрода при анализе трафика в маркетинговой платформе

Время на прочтение9 мин
Количество просмотров3.6K

Python-приложения традиционно работают с реляционными БД. Для этого у них есть нужная инфраструктура, множество различных решений и практик. Но иногда приходится использовать другие решения для хранения и обработки данных. Для разработки ETL есть много специализированных инструментов. Но что делать, если есть python-приложение и не хочется разрабатывать какие-то еще сервисы для процессинга данных? Попробуем выделить фродовые эвенты из большого массива данных, хранящихся в Impala, и сделать конструктор отчетов по таким эвентам с помощью только обычного асинхронного веб-приложения на базе python/fastapi.

Читать далее

IT Service Health Monitoring средствами R. Взгляд под иным углом

Время на прочтение3 мин
Количество просмотров1.5K

Казалось бы тема давно исхоженная, пик инновационности OSS систем давно позади. Однако иногда бывают локальные жаркие всплески и бурные споры на эту тему. Можно ходить по торной вендорской дороге, а можно попробовать погрызть эту задачку с другого угла.


Ключевые слова: cmdb, multi-agent sumulation, monte-carlo, ml.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Популярность BPM в разных жанрах музыки. Python: анализ скорости исполнения 500 лучших песен

Время на прочтение9 мин
Количество просмотров25K

Несколько лет назад, занимался изучением теории музыки, продавал и писал аудио-инструментал. Изначально, процесс явно творческий, но вскоре, мой интерес к коммерческой части превысил и возник вопрос: «В каком же темпе создавать ритм музыки?». Поэтому, идея анализа крупной выборки лучших композиций, для определения популярного [часто: самого продаваемого] диапазона темпа исполнения, не покидала с тех пор…

Возможно, тебя заинтересует содержимое...

Ближайшие события

Как с помощью нейросети определить лучшую дату отправки email и повысить доход рассылки в 8,5 раз

Время на прочтение6 мин
Количество просмотров7K
Чтобы email-рассылка не затерялась во входящих, а клиенты чаще открывали письма и покупали, важно угадать правильное время отправки. С помощью нейросети мы проанализировали поведение клиентов и спрогнозировали дату отправки следующего email, чтобы порекомендовать клиенту товары в то время, когда он захочет их купить. Протестировали в зоомагазинах на рассылках с предложением повторной покупки и оценили результат с помощью AB-тестов. Получили следующие результаты:

в 23 раза
больше целевых отправок email с помощью нейросети по сравнению с триггером

в 8,5 раз
увеличился доход от email-рассылки по атрибуции last click

в 2 раза
уменьшился процент отписок

в 17 раз
выросло число открытий в абсолютном значении


Ниже поделимся опытом и расскажем:

  • почему решили использовать LSTM-модель нейросети для предсказания даты отправки email вместо алгоритма градиентного бустинга;
  • как устроена LSTM;
  • какие данные нейросеть использует для обучения;
  • какую архитектуру нейросети использовали и с какими сложностями столкнулись;
  • каких результатов достигли и как их оценивали.
Читать дальше →

Как использовать функцию UNNEST в Google BigQuery для анализа параметров событий Google Analytics

Время на прочтение6 мин
Количество просмотров16K

Сегодня я расскажу о том, как использовать функцию `UNNEST` в Google BigQuery для анализа параметров событий и свойств пользователей, которые вы получаете вместе с данными Google Analytics.

Читать далее

Умное планирование рекламы в подкастах. Как собрать базу слушателей и распознать аудиторию с помощью нейросети

Время на прочтение5 мин
Количество просмотров2.6K
Подкасты – канал, который активно развивается весь 2020 год. Растет объем аудитории, да и самих подкастов становится все больше. При этом единого аудиторного измерителя слушателей не существует, да и вообще с измерениями этого канала дела обстоят не очень. При этом взаимный интерес подкастеров и рекламодателей довольно высокий.

Мы в dentsu придумали Podcaster – аналитический инструмент для измерения аудитории подкастов и планирования рекламы в них. О том, как мы начали собирать данные и решили проблему распознавания аудитории, с какими трудностями столкнулись и что из этого вышло, рассказываем в этой статье.

image
Читать дальше →

Компромиссы для финансового и производственного блоков компании. «Производственные функции». Унификация линейки изделий

Время на прочтение8 мин
Количество просмотров1.5K


«Производственные функции» — это из учебников по экономикс и микроэкономическим моделям, которые ничего общего не имеют с практикой.

Сдать учебный курс и забыть… Прочитать о глобальных тенденциях и посмеяться…

Рассмотрим ситуации, когда «производственные функции» могут быть практически полезными и дают возможность существенно улучшить процессы планирования и управления.
Читать дальше →

Sibur Challenge 2020 — онлайн-чемпионат по анализу промышленных данных

Время на прочтение2 мин
Количество просмотров2.3K
Привет, Хабр!

Мы уже в третий раз запускаем чемпионат по Data Science совместно с сообществом экспертов и команд по искусственному интеллекту AI Community. В этом году соревнование пройдет полностью в онлайн, а призовой фонд составит 1 миллион рублей.

Главное о чемпионате:

  • Стартуем 21 ноября, собираем заявки до 13 декабря, победителей объявим 19 декабря
  • Решать кейсы можно индивидуально или с командой
  • Подать заявку могут все (вообще все, вне зависимости от опыта и места жительства), за исключением наших действующих сотрудников, увы
  • Призовой фонд — 1 000 000 рублей, а лучшие участники могут получить стажировки и вакансии.



Подробнее о задачах 2020 — под катом.
Читать дальше →

Почему незащищенные потребительские системы интернета вещей теперь представляет собой серьезную бизнес-проблему

Время на прочтение4 мин
Количество просмотров2.5K
Привет, хабровчане! Первый в России онлайн-курс IoT-разработчик стартует в OTUS уже в октябре. Прямо сейчас открыт набор на курс, в связи с чем мы традиционно делимся с вами переводом материала по теме.





С большой долей вероятности, в большинстве предприятий найдется хотя бы один сотрудник с уязвимым устройством. Для кибер-преступников достаточно и одного.



В потребительской сфере технология интернета вещей (Internet of Things — IoT) давно славится своей чрезвычайно халтурной секьюрностью.

Сегодня дома наводнены устройствами с подключением к интернету — будь то эспрессо-кофемашина с приложением или камера видеонаблюдения с подключением к Wi-Fi. По данным Statista, в 2020 году на бытовую электронику будет приходиться 63% всех установленных IoT устройств. Эти устройства могут собирать о своих пользователях данные, которые отправляются обратно поставщикам услуг, чтобы помочь улучшить их продукты. Производство этих устройств является прибыльным делом, и по мере роста спроса потребители все чаще покупают более дешевые устройства экономкласса. Проблема в том, что стандарты безопасности у них обычно довольно слабые.
Читать дальше →

Цифровая трансформация: полная свобода самовыражения

Время на прочтение16 мин
Количество просмотров5.8K
Коллеги, вы хорошо понимаете, что такое «цифровая экономика» и чем она отличается от того, что было десять или двадцать лет назад? Мне казалось, что понимаю, пока не появилось время проанализировать, что пишут об этом на просторах суверенного интернета в профессиональных и не очень СМИ. Оказалось, что на рынке основной ИТ-товар — «цифровая трансформация». Ее активно продают оптом или в розницу, т. е. частями по желанию: кому «большие данные», кому «бизнес-анализ», кому «искусственный интеллект».

В соответствии с объемами продаж много пишут. Проанализировал и добавились вопросы:

image alt
  • Пишут-то много, но каков профессиональный уровень этих текстов? Он вас удовлетворяет?
  • Новых слов много, но кто их понимает?
  • И, вообще, прогресс есть или нет? Где результат?
  • Если нет, то «кто виноват и что делать»?
  • Куда смотрит государство и что регулирует?
  • ГОСТов много, но кто их использует? И кто их пишет? И вообще, какой от них толк?
  • Не пора ли, если не точно определить основные понятия, то хотя бы прийти к консенсусу?

Даже знаю как: «практика – критерий истины».
Читать дальше →

Вклад авторов