Как стать автором
Поиск
Написать публикацию
Обновить
82.08

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

АБ тесты и подводные камни при их автоматизации

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров10K

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

Читать далее

Data Mesh – ячеистые топологии для работы с данными

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.4K

Из каких соображений можно хранить данные в виде ячеистой сети


image

Во всех организациях, где мне доводилось работать, всегда понимали важность данных. Поэтому я видел, что руководство либо заинтересовано, либо прямо планирует создать платформу нового поколения для обращения с этими данными. Как правило, ставится цель перейти от сильно связанных интерфейсов и вариабельных потоков данных к целостной архитектуре, которая позволяла бы аккуратно связать всю экосистему. Речь идёт о распределённой облачной ячеистой топологии (data mesh), где данные можно группировать в зависимости от их предметной области, трактовать “данные как продукт,” организуя в каждой предметной области конвейерную обработку собственных данных. Такой подход отличается от перекачки данных (data plumbing), практикуемой на традиционных (монолитных) платформах, которые, как правило, отличаются сильной связанностью данных. Из-за этого зачастую замедляется поглощение, хранение, преобразование и потребление данных из централизованного озера или хаба.

Такая смена парадигмы в распределённой архитектуре данных сопряжена с некоторыми нюансами и требует учитывать факторы, которые связаны в основном со зрелостью организации, имеющимися навыками, структурой организации, предрасположенностью к риску, размерами организации и динамикой её развития. С учётом всех этих нюансов и соображений могут использоваться различные варианты ячеистой топологии.
Читать дальше →

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Время на прочтение7 мин
Количество просмотров21K

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

Читать далее

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Время на прочтение22 мин
Количество просмотров12K

Привет, Хабр! Легендарная команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем опасном бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.

Читать далее

Сложности MVP или как мы смотрели 40000 видео

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.4K

MVP, он же Minimal Viable Product, представляет собой базовую (ванильную) версию продукта и содержит только самый необходимый функционал. По сути это пробник, который служит для оценки рисков и оправданности вложений в полноразмерный продукт. MVP может иметь разный вид: пробный образец, тестовая партия, или уже готовый продукт, но с урезанным функционалом.

MVP - это отдельный вид искусства, где нужно за короткое время доказать, что ты можешь предложить бизнесу решение, которое поможет достичь поставленных продуктовых целей, за оправданную цену. Это своего рода спидран большого проекта. Про такой MVP как раз и пойдет наш разговор.

Читать далее

Медленно меняющиеся измерения (SCDs) в эпоху облачного хранилища данных

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6K

Как работать с медленно меняющимися измерениями при использовании облачного хранилища данных?

В этом вопросе скрывается довольно много ответов, поэтому давайте сделаем паузу.

Читать далее

Меч из озера: итоги сезона больших данных

Время на прочтение9 мин
Количество просмотров13K

…Из Data Lake вынырнула прекрасная дева и протянула Артуру меч, и на том мече рунической вязью было начертано «Big Data». «Пусть он служит тебе верой и правдой, пронзая тьму незнания и проливая свет на самые неочевидные закономерности», — торжественно произнесла Владычица Озера. Король Артур преклонил колени и принял меч из рук девы. Затем оседлал коня и направился в сторону ближайшего дата-центра.

Сезон больших данных на Хабре подошёл к концу. Сегодня мы поговорим о том, какими знаниями вооружили нас авторы сезона, раздадим ценные артефакты, а заодно — побеседуем о перспективах больших данных с авторами сезона и экспертами Газпромбанка.

Читать далее

Кейс внедрение Dbt в «Детском мире»

Уровень сложностиСложный
Время на прочтение3 мин
Количество просмотров5.5K

Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире. 

На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.

Читать далее

Все DETRы мира: denoising queries и positive anchors. Часть 2

Время на прочтение12 мин
Количество просмотров2.4K

В прошлой части мы поговорили про эволюцию DETR. А это значит, что сегодня самая пора поговорить про другие варианты исполнения архитектуры и их нюансы.

Материал для ТГ-канала “Варим ML”

Читать далее

Кластеризация текста в PySpark

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров10K

Привет, Хабр!

На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.

Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.

Узнать больше о кластеризации текста

Все DETRы мира: выкидываем и возвращаем энкоры. Часть 1

Уровень сложностиСложный
Время на прочтение22 мин
Количество просмотров7.2K

Материал для ТГ-канала “Варим ML”

Я - большой фанат задачи детекции, она мне нравится по всем критериям. Она самая интересная концептуально - одновременно нужно и искать объекты, и определять их тип. Классификация целых изображений скучновата и не так часто применима на практике (по крайней мере в медицине), а сегментация мне кажется нудноватой - ну их, эти конкретные пиксели. Ещё статьи про детекцию - самые интересные для меня в техническом плане. Мне нравится разбираться в разных видах архитектур - anchor-based и anchor-free, one-stage и multi-stage, а ещё я очень люблю разные крутые идеи, которые улучшают тот или иной компонент детекционного пайплайна - например, PISA для умного взвешивания разных сэмплов в лоссе, Precise RoIPooling и Deformable RoIPooling для более точного и хитрого пулинга фичей, D2Det для декаплинга задач локализации и классификации, SoftNMS для замены традиционного NMS.

В 2020 году вышла крутая статья про новую архитектуру для детекции - DETR. Она меня очень вдохновила, и я тут же бросился впиливать её в проект Маммография (ММГ), тем более что код был с виду очень простой. После недели мучений я не смог выжать ничего адекватного - обучалось ужасно, долго и предиктило в основном фигню. Возможно, я где-то набаговал, но возиться дольше не хотелось.

Тем не менее, все три года идея всё-таки впилить DETR преследовала меня по пятам, тем более что за это время вышло несколько десятков статей, тем или иным образом улучшающим оригинальную архитектуру. И вот, в один прекрасный день я зачем-то решил прочитать вообще все статьи про DETRы, а заодно попробовать несколько вариаций в ММГ. Задача оказалась слегка сложнее, чем я ожидал…

Читать далее

Спринт с Visiology: 10 дней от подготовки данных до дашборда

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1K

Привет, друзья! На следующей неделе, 15 мая, мы начинаем спринт-интенсив по работе с платформой Visiology. За 10 дней я планирую показать и рассказать все основное о платформе. Если вы задумывались о знакомстве с Visiology или в вашей компании как раз рассматривают варианты перехода на российский BI, новый спринт — отличная возможность составить представление и уже получить первичную экспертизу по платформе. Все подробности — под катом.

Хочу сделать свой дашборд!

Как мы создавали техкомьюнити

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.3K

Мы – команда DataOffice Ростелекома. Мы занимаемся всеми большими данными нашей большой компании. Собираем данные из сотен систем источников, внедряем современные технологии, создаем собственные продукты для работы с данными и, конечно, используем технологии искусственного интеллекта.

Для того, чтобы заниматься большими данными такой большой компании нам нужна большая команда. У нас команда больше 300 человек и все они занимаются разными проектами, работают с разными технологиями, но все любят данные и очень любознательные.

Как мы создавали техкомьюнити

Ближайшие события

Нейронная сеть для распознавания образов с TensorFlow: как с ней работать

Время на прочтение7 мин
Количество просмотров22K

Привет, Хабр! В сегодняшней статье хотим поделиться опытом, как можно начать использовать TensorFlow в целях распознавания образов. Напомним, что TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигающая качества человеческого восприятия.

Цель статьи — привлечь этот инструмент для распознавания боковых зубов (маляров) на рентгеновских снимках с использованием нейронной сети. Для того чтобы этого достичь, нужно выполнить несколько важных этапов, о чём и поговорим под катом.

Читать далее

Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь

Время на прочтение9 мин
Количество просмотров5.8K

Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.

Читать далее

Видео с Kolesa Conf: ML-доклад про видеоаналитику и продуктовый доклад про «убивашку» проектов

Время на прочтение2 мин
Количество просмотров942

Привет! 8 октября наши ребята участвовали в Kolesa Conf — конференции, объединяющей IT-сообщество Казахстана. От нас было два доклада: один в стриме Management, второй в стриме Data. Коллеги из  Kolesa Group уже поделились записями с конференции, видео с выступлений спикеров из Beeline под катом. 

Смотреть видео

Dagster | Туториал

Время на прочтение9 мин
Количество просмотров17K

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

Как убрать посторонние шумы с фото документов с помощью PyTorch

Время на прочтение9 мин
Количество просмотров7K

Привет, Хабр!

При автоматизации работы с документацией иногда приходится иметь дело со сканами плохого качества. Особенно удручает ситуация, при которой вместо сканированного документа предоставляется фото с телефона.

В области обработки документов существует целый ряд задач, которые решаются с помощью машинного обучения. С примерным списком можно ознакомиться в данной статье. В этом руководстве я предлагаю решение проблемы различных помех на фото документа, которые могут возникнуть при плохом качестве съемки или плохом качестве самого документа.

Читать далее

Логистическая регрессия с помощью tidymodels

Время на прочтение9 мин
Количество просмотров2.7K

В последнее время я публикую заметки, которые демонстрируют работу с пакетом tidymodels . Я разбираю как простые, так и более сложными модели. Сегодняшняя заметка подойдет тем, кто только начинает свое знакомство с пакетом tidymodels

Читать далее

Связь GreenPlum и PostgreSQL

Время на прочтение5 мин
Количество просмотров16K

GreenPlum — популярное решение для масштабных аналитических систем и в небольших стартапах, и в крупных корпорациях. Оно предлагает понятный пользователям синтаксис ANSI SQL, хорошо ложится на облачный ландшафт, позволяет обучать и применять модели машинного обучения, а ещё поддерживает реляционную СУБД PostgreSQL. В статье поговорим, как связаны GreenPlum и PostgreSQL, разберём их сходства и отличия. 

Читать далее

Вклад авторов