Как стать автором
Обновить
60.09

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Docker для Data Scientist'a

Время на прочтение5 мин
Количество просмотров13K

Часто у начинающих Data Scientists возникает вопрос, как демонстрировать работу своих моделей другим людям. Банальный пример - прикрепить ссылку на гитхаб репозиторий в отклике на вакансию или показать свое “детище” знакомым со словами “смотрите, что умею”.

Читать далее

Открытый фреймворк CodeFlare сокращает время настройки, выполнения и масштабирования тестов ML моделей

Время на прочтение2 мин
Количество просмотров668
В начале июля IBM официально представила CodeFlare, фреймворк с открытым исходным кодом, который призван упростить интеграцию и обеспечить эффективное масштабирование рабочих процессов с большими данными и средствами искусственного интеллекта в гибридном облаке. CodeFlare создан на базе Ray, активно развивающегося фреймворка для применения в сфере машинного обучения. CodeFlare расширяет возможности Ray, добавляя в  него компоненты, которые помогут упростить масштабирование рабочих процессов.


Читать дальше →

DataScience Digest — 22.07.21

Время на прочтение2 мин
Количество просмотров1.2K

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Читать далее

История длиною в год: как мы на Greenplum 6 (DWH) мигрировали

Время на прочтение5 мин
Количество просмотров3.2K

Привет, Хабр! Сегодня расскажем о том, почему и как мы решили мигрировать на Greenplum шестой версии с Greenplum пятой версии. Сразу скажем, что мы каждый день обрабатываем огромное количество данных — шутка ли, у одного из наших клиентов 80 млн пользователей, из которых каждый день активны до 90 тысяч из 178 стран.

Читать далее

Как и зачем мы сделали Spark-коннектор к Greenplum

Время на прочтение5 мин
Количество просмотров7.9K

Всем привет! Меня зовут Андрей, я работаю системным архитектором в Arenadata. В этой статье расскажу, как и зачем мы сделали свой инструмент для обмена данными между Arenadata DB (аналитическая MPP-СУБД на базе Greenplum) и фреймворком для распределенной обработки данных Apache Spark (входит в экосистему Arenadata Hadoop).

Читать далее

Платформы анализа данных: что они умеют и как понять, нужны ли они вашему бизнесу

Время на прочтение7 мин
Количество просмотров6K

Рынок ИТ- продуктов переполнен предложениями платформенных решений для анализа больших данных: их обсуждают, рекомендуют и внедряют, но всем ли они необходимы? Алексей Ершов, эксперт по продуктам Factory5 (входит в группу Ctrl2GO), ответил на главные вопросы об аналитических платформах для ИТ-директоров, менеджеров проектов и других участников data science инициатив на предприятиях.

Этот материал — первая обзорная статья из цикла публикаций о платформах анализа данных.

Читать далее

12 ключевых направлений для развития IoT-технологий. Часть 1

Время на прочтение6 мин
Количество просмотров3.2K

Интернет вещей (IoT) — новая реальность, которая уже не кажется социальным и технологическим чудом. Но умные лампочки и роботы-пылесосы уже мало кого удивляют. Настоящие возможности IoT раскрываются в сфере анализа больших данных или при использовании алгоритмов искусственного интеллекта.


По данным IDC, собственные стратегии цифровизации уже выстроили 2/3 компаний из списка Global 2000, а безусловными лидерами в этой области являются Сингапур, Китай, Новая Зеландия, Дания и Южная Корея. Что касается РФ, по оценке IDC, более 50% российских компаний освоят IoT-технологии до конца 2021 года.


Одним из драйверов роста затрат на IoT (которые вырастут на 11,3% в 2021-2024 годах, согласно прогнозу IDC) будет рост потребностей:


  • в подключенных к интернету устройствах для дистанционного контроля и управления;
  • в сценариях использования искусственного интеллекта для мониторинга поведения людей.

Развитие IoT стимулирует развитие концепции Digital First, в рамках которой каждый бизнес должен быть максимально развит в интернет-среде. Это значительно расширяет возможности взаимодействия между сторонами различных процессов, позволяя осуществлять автоматизацию доставки покупок, онлайн-обучение и даже трудоустройство в удаленном формате.

smart_city.jpg


Читать дальше →

Как мы анализировали на хакатоне схемы севооборота

Время на прочтение6 мин
Количество просмотров2.2K

Привет, Хабр! Периодически мы делаем посты о проектах наших студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online — подразделения SkillFactory по работе с университетами, эти проекты создаются на внутренних хакатонах. Ребята уже за неделю собирали датасеты по коммерческим объектам, музыкальным трекам, вакансиям и даже котикам, пробовали кластеризовать транспорт и побеждали букмекеров с помощью ИИ. Сегодня делимся новым учебным проектом наших студентов об анализе схем севооборота. Далее речь идёт от лица команды.

Читать далее

Эволюция данных: от больших к бесконечным

Время на прочтение10 мин
Количество просмотров2.8K

“Блиц, блиц, скорость без границ!” - помните этого очень смешного и очень н-е-е-е-с-п-е-ш-н-о-г-о ленивца по имени Блиц из мультфильма Зверополис? Он всплывает в памяти всякий раз, когда мы сталкиваемся с чьей-то медленной работой или реакцией. На самом деле Блицу требовалось всего 10 секунд на каждую фразу или операцию. Согласитесь, 10 секунд - не так уж и много. В реальной жизни нам часто приходится ждать куда дольше и ожидание выглядит совсем не так смешно. Ждать - неприятно и очень дорого. 

В этой статье хочется поговорить о том, почему нам вообще приходится ждать, как перестать ждать и какой интересный мир открывается, если жить со скоростью реальности. Точнее, поговорим о технологиях, которые и определяют время ожидания: скорость обработки данных, выдачи предсказаний и принятия решений.

Читать далее

Хранилище комплексных данных о клиентах и его синхронизация с Hubspot при помощи BigQuery, dbt, Looker и Hightouch

Время на прочтение6 мин
Количество просмотров1.3K

Компания Rittman Analytics — партнер по внедрению сегментного подхода в маркетинге. С помощью сервисов Segment Personas и Segment Connections мы соединяем все элементы цифрового маркетинга и формируем единую картину взаимодействия с клиентами и посетителями для задействованных цифровых каналов.

Платформы клиентских данных, такие как Segment Personas, позволяют эффективно собирать подробную историю взаимодействия с существующими и перспективными клиентами. Эти данные можно комбинировать с информацией о сделках и другими сведениями, которые мы сохраняем о клиентах, когда они заходят на наш сайт со своими учетными данными или выражают интерес к предлагаемому нами новому продукту или услуге.

Используя данные о клиентах из Segment Personas, мы снабжаем свою службу чат-ботов Intercom информацией о проекте, реализуемом нами для клиента, а также о его предпочтениях и интересах, чтобы сделать взаимодействие с ним более релевантным и эффективным и повысить вероятность успешного результата.

Читать далее

Обзор Databrick. Что облачный продукт может дать начинающим специалистам

Время на прочтение5 мин
Количество просмотров20K

Добрый день, уважаемые читатели! Данная публикация посвящена Databricks и она получилась не совсем обычный по двум причинам.

Во-первых, в ней не будут обсуждаться типичные вопросы: целесообразность перевода всех сервисов и служб компаний в облако, возможные ошибки при такой миграции, стоимость использования сервиса, правовые аспекты хранения данных не на территории РФ. Это темы сложные, дискуссионные и без указания конкретных цифр и бизнес-факторов их сложно полноценно раскрыть в статье. Поэтому я решил посмотреть на Databricks под другим углом и заострить внимание читателей на таком аспекте: что может дать изучение инструмента аналитику данных.

Во-вторых, чтобы обзор продукта был максимально комплексным и технически взвешенным я с самого начала планировал написать материал в соавторстве с инженером данных и специалистом в сфере data science. В таком случае была бы возможность донести до читателей концепцию Delta Lake и рассказать о нюансах машинного обучения. Но предложение не нашло отклика в сердцах коллег по цеху, поэтому итоговый результат получился в стиле: “Я художник - я так вижу!”) Это была преамбула, а теперь настало время познакомиться поближе с Databricks.

Читать далее

Ломай дату полностью: сравниваем подходы к качеству данных у крупных компаний (Lyft, Shopify) на Data Quality Meetup

Время на прочтение9 мин
Количество просмотров2.9K

Привет, Хабр! Современный высокотехнологичный бизнес немыслим без глубокой аналитики и отработки гипотез с помощью ML. Однако это накладывает особые требования на качество данных: все мы знаем, что ерунда на входе = ерунда на выходе. Прекрасно понимая, что стоит на кону у большого бизнеса, мы организовали большой митап, посвящённый подходам к качеству данных в больших компаниях уровня Lyft и Shopify. 

Митап был интересен как приглашёнными спикерами, представителями крупных проектов, делающих свой бизнес на анализе больших данных, так и охватом тем. Мы поговорили о том, как предотвратить повреждение данных (потому что «не ломать проще, чем чинить»), о том, как быть, когда информация есть, но пользователи ей не доверяют, как тестировать данные не на динамических моделях, а на подменённых «в воздухе» статических данных и, наконец, как показывать пользователям фейковые данные, чтобы узнать, чего люди хотят на самом деле.

Далее краткий пересказ докладов Datafold, Lyft, Shopify и HealthJoy. Текст будет интересен в первую очередь дата-инженерам и тем, кто обеспечивает хранение, предоставление и тестирование данных.

Заходите

Потоковый захват изменений из PostgreSQL/MySQL с помощью Apache Flink

Время на прочтение18 мин
Количество просмотров20K

Привет! Сегодня мы поговорим и попробуем на практике реализацию паттерна Change Data Capture (далее – CDC) в Apache Flink. 

Статья разделена на несколько частей: в первой мы рассмотрим теоретические основы Change Data Capture, варианты реализации и сферы применения. Во второй – обратимся к особенностям CDC-коннекторов экосистемы Apache Flink, а также выделим самые интересные фичи (а заодно и немного расскажем об Apache Flink для тех, кто раньше с ним не сталкивался). В третьей части – перейдем к практике, закатаем рукава и реализуем несложный сценарий захвата изменений из WAL PostgreSQL, приправленный объединениями, агрегацией, стеком ELK и целым кластером Flink, правда в миниатюре.

Читать далее

Ближайшие события

Интеграционные тесты для Хранилища Данных – Настраиваем Slim CI для DWH

Время на прочтение9 мин
Количество просмотров2.4K

Привет! На связи Артемий – Analytics Engineer из Wheely.

В условиях постоянно растущей сложности аналитических инструментов и распределенной команды не просто возможно, но и необходимо повышать скорость поставки (T2M) и качество (Quality) выводимого в продуктив функционала. Фокус сегодняшней публикации – внедрение практик интеграционного тестирования с учетом современного аналитического стека.

С практическими примерами и рекомендациями будут рассмотрены следующие аспекты:

– Специфика аналитических приложений и пространство для DevOps практик

– Рецепт для внедрения Continuous Integration шаг за шагом

– Slim CI: оптимизируем и ускоряем процессы

Велком под кат, если словосочетания Continuous Integration, Integration Testing, Time to Market вызывают у вас здоровый энтузиазм и интерес.

Поехали!

Платформа данных в Леруа Мерлен. Part 2. Обновления 2021 года: Flink и Superset

Время на прочтение11 мин
Количество просмотров13K

Всем привет!

«Данные – это новая нефть» – вам наверняка доводилось уже не раз слышать эту фразу. Впервые в 2006 году эту идею озвучил математик Клайв Хамби в своем блоге, но с тех пор она не потеряла популярности и сейчас её можно услышать почти из каждого утюга. Особую актуальность это выражение приобрело с внедрением технологий обработки больших данных: Hadoop, MapReduce, Spark, Flink, Anaconda (Jupyter), MLFlow, Kubeflow и далее множество других названий, похожих на имена покемонов. В этой статье мы хотели бы рассказать, какие из них мы выбрали в 2021 году в Леруа Мерлен Россия для своей платформы данных. Эта статья является продолжением нашей первой статьи о платформе –  Платформа данных в Леруа Мерлен – 2 года, сотни источников и более 2.000 пользователей.

Читать далее

DataScience Digest — 15.07.21

Время на прочтение2 мин
Количество просмотров1.5K

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Читать далее
Тебя заморозили, чтобы разбудить в будущем. Здорово? Ты тоже так думал, пока не проснулся и не увидел, что вокруг одни роботы. И они не очень-то рады человеку: у них и так безработица, кризис, цены на гелий-3 растут, а тут ещё и ты из прошлого понаехал. Но ты программист, а программисты не сдаются! Вместе с Академией больших данных MADE от Mail.ru Group мы подготовили задачи, с которыми не справились местные ИИ. Готов решить их и доказать, что человека не заменить? Тогда вперёд! В будущем всё же есть один плюс: все документы и медосмотр тут делает ИИ. Занимает это считанные секунды, и никакой бюрократии. Вот и новая работа… Ты заглядываешь через плечо коллеги-робота и от удивления чуть не роняешь нанокружку. Да это же код на Python! Что ж, хоть какие-то человеческие ценности вечны!
Ладно, где там задачи? Подайте их сюда!

Что такое базовые методы компрессии нейронных сетей и где этому учат

Время на прочтение8 мин
Количество просмотров7.7K

Сегодня нейросетевые подходы составляют большую часть решений задач в области компьютерного зрения, но при этом работа инженеров в этой области не ограничивается обучением state-of-the-art архитектур на своих данных. Часто такие задачи требуют анализа видео или фотографий в режиме реального времени или с минимальной задержкой на конечных устройствах без возможности горизонтального масштабирования. Это может быть редактирование фотографий на смартфонах или же анализ качества продукции на производстве с помощью микрокомпьютеров. 

Но даже если у нас есть возможность использовать облачную инфраструктуру, затраты на нее довольно внушительны, и хочется иметь возможность их снизить.

Для того чтобы решать задачи компьютерного зрения эффективно, применяются методы оптимизации моделей нейронных сетей, или по-другому - компрессия. 

Мы можем оптимизировать следующие показатели:

Узнать про оптимизацию!

Hadoop или MongoDB: что использовать для Big Data?

Время на прочтение7 мин
Количество просмотров8K

Ни одно обсуждение Big Data не будет полным без упоминания Hadoop и MongoDB: двух наиболее популярных инструментов, доступных сегодня. Из-за обилия информации по ним, в том числе об их преимуществах и недостатках, не всегда легко сделать правильный выбор. Каждый из них силен в своей области, но что подойдет вам и вашей организации? Эта статья поможет сделать правильный выбор.

Читать далее
Если вы попытаетесь найти перевод термина Data Scientist на русский язык, то, скорее всего, увидите что-то вроде «аналитик базы данных», или «специалист по анализу данных», или даже «программист-аналитик». По сути это логическая ловушка, потому что, в зависимости от ситуации, это могут быть как один человек, так и три разных отдела. Мы со Сбером решили расставить точки над «i» в этой теме и узнать, как именно вы представляете себе работу Data Scientist’а. Понять, как всё устроено конкретно у вас на рабочем месте, и выяснить, какие роли могут скрываться за общим термином Data Science. Результаты опроса мы подведём в отдельном посте, так что следите за обновлениями.
А пока поехали!

Работа

Data Scientist
70 вакансий