Как стать автором
Обновить
134.68

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Методы расширения атрибутивного состава таблиц БД

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров629

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили?

Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве.

Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

Читать далее

Новости

Со скоростью кометы: ускоряем Spark без переписывания кода

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.8K

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

Читать далее

Тайные сообщества товаров: обзор графовых методов

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1.1K

Привет, Хабр! На связи команда матчинга и группировки из ecom.tech. Наша команда решает задачи поиска, группировки и сортировки товаров, с помощью алгоритмов машинного обучения. Например, такие алгоритмы объединяют товары от разных продавцов в одной карточке, что дает покупателям возможность сэкономить время и деньги. 

Сегодня мы расскажем, как исследовали алгоритмы community detection для группировки товаров, с какими проблемами столкнулись и при чём тут матчинг. Статья будет полезна всем, кто работает с большими объемами данных и ищет способы оптимизировать операции с этими данными. Поехали!

Читать далее

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров712

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Если данные новая нефть, то почему за нее не готовы платить?

Как измерить ценность внедрения аналитики?

Читать далее

Истории

Текстовая трансляция ArenaDAY 2025

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров776

Хабр, привет! И добро пожаловать на прямую текстовую трансляцию конференции ArenaDAY 2025! Да, сегодня на официальном сайте идёт прямая видеотрансляция мероприятия, но мы решили провести ещё и текстовую — специально для тех, кто не может смотреть онлайн. Следите за обновлениями: мы оперативно публикуем самые интересные моменты, главные тезисы выступлений и цитаты спикеров!

Читать далее

Оффлайн А/Б тесты в ресторанах фастфуда. Часть 2: Анализ и интерпретация результатов A/B-тестов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров738

В первой части «Планирование и верификация оффлайн A/B-тестов» мы разобрали, как подготовить данные и убедиться, что группы для эксперимента сопоставимы. Мы провели тщательную верификацию: сравнили метрики, проверили распределения и постарались исключить искажения ещё до старта.

Теперь — самое важное.
Во второй части речь пойдёт о том, как анализировать полученные данные и не ошибиться с выводами. Мы обсудим методы, позволяющие скорректировать влияние внешних факторов, научимся контролировать ошибки первого и второго рода, выбирать подходящий статистический критерий и оценивать надёжность результатов.

Если первая часть была про чистоту эксперимента, то вторая — про силу аргументов.

Читать далее

Оффлайн А/Б тесты в ресторанах фастфуда. Часть 1: Планирование и верификация оффлайн A/B-тестов

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров809

Привет! Меня зовут Елена Малая, я занимаюсь оффлайн A/B-тестами в Бургер Кинг Россия.

В последнее время всё больше пишут про оффлайн-эксперименты — и это здорово. Но мне часто не хватало материалов, приближённых к реальности: когда данных мало, шум высокий, а каждый тест — как разведоперация.

Эта статья — о том, как я выстраивала методологию A/B-тестирования в условиях оффлайн-ритейла. Она для тех, кто работает с данными не в идеальном вакууме, а на земле — в ресторанах, ритейле, логистике.

Здесь не будет учебных формул — только рабочие подходы, предостережения и лайфхаки, собранные через тесты, ошибки и (маленькие) победы. Если вы, как и я, когда-то поняли, что "по книжке" оно не взлетает — welcome.

Читать далее

Оцени, прежде чем доверять: как сделать AI-агента полезным

Время на прочтение7 мин
Количество просмотров1.2K

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.

Читать далее

Свайп, дофамин, иллюзия выбора: как сервисы превратили любовь в цифровую рулетку

Время на прочтение7 мин
Количество просмотров1.2K

Современные сервисы знакомств оптимизированы не для создания пар, а для монетизации одиночества через манипуляцию дофаминовыми циклами. Конфликт интересов между пользователями и платформами усугубляется архаичными социальными стереотипами и отсутствием платформ использующих современных технологии для поиска (хотя вроде и есть ML, скоринг, кластеризация..) И в таргетинге работают уже в весь рост. Там это выгодно. А выгодно ли сервисам?

Читать далее

Как в Lamoda Tech меняли главную страницу, создавали облако тегов и поднимали метрики поиска. Материалы с DS Meetup

Время на прочтение2 мин
Количество просмотров756

Публикуем материалы с митапа по Data Science, который прошел 15 апреля.

В офисе Lamoda Tech мы делились свежими кейсами о том, как использовать большие данные и сделать шопинг ещё более приятным и улучшить UX. Рассказали, как поднимаем метрики поиска по самым нестандартным запросам, персонализируем рекомендации на примере главной страницы, а также создаём облако тегов и разметку отзывов для более точного выбора товаров.

Читать далее

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров261

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей.

Читать далее

Self-Service BI: как сделать, чтобы он полетел

Уровень сложностиПростой
Время на прочтение29 мин
Количество просмотров1.5K

«Спасение утопающих — дело рук самих утопающих». Иногда это звучит не так уж и плохо.

Привет, Хабр! Меня зовут Юлий Гольдберг, работаю в GlowByte (занимаюсь платформами данных, BI, аналитическими решениями больше 20 лет). Сегодня хочу поделиться некоторыми наблюдениями о том, про что нужно не забывать, чтобы Self‑Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием.

Читать далее

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

Время на прочтение11 мин
Количество просмотров3.9K

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.

Читать далее

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
5 июня
Конференция TechRec AI&HR 2025
МоскваОнлайн
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область

Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.3K

Привет! Если после заголовка вы решили, что это очередная статья в стиле «Топ-10 способов ускорить Pandas», то не торопитесь с выводами. Вместо топов и подборок предлагаю взглянуть на бенчмарки скорости и потребления памяти в зависимости от характеристик датафрейма и убедиться, что часть советов из статей по ускорению могут оказаться даже вредными. Разберём, какой из способов ускорения нужно пробовать в разных ситуациях, как это зависит от размера датафрейма и как ведёт себя в реальном проекте.

Читать далее

Анализ данных: от EDA до Tinder-битвы графиков

Время на прочтение6 мин
Количество просмотров1.4K

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.

Читать далее

Цифровой двойник: не просто копия, а твой персональный баг-репорт реального мира

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров1.7K

Пока одни обсуждают метавселенные и ИИ, инженеры и разработчики уже строят цифровых двойников — виртуальных клонов реальных объектов, систем и людей. Эта статья — попытка разобраться без прикрас и с примерами, как устроена такая технология, какие инструменты сейчас в ходу, с чем сталкиваются разработчики, и где всё это реально применяется — от предсказания отказов турбин до мониторинга состояния коров в Новой Зеландии.

Читать далее

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

Время на прочтение7 мин
Количество просмотров3K

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании.

Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

Читать далее

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Уровень сложностиСложный
Время на прочтение17 мин
Количество просмотров2.2K

Привет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark.

Читать далее

Optuna: находим лучшие настройки для моделей без головной боли

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров599

Если вы уже пробовали обучать модели, то знаете: выбрал не тот гиперпараметр — получил плохой результат. А перебирать их вручную или даже с помощью GridSearchCV из scikit-learn — долго, муторно и не всегда эффективно. Поэтому сегодня поговорим о том, как заставить компьютер делать эту скучную работу за нас. 

В этом поможет Optuna — библиотека для автоматической оптимизации гиперпараметров. Она умнее простого перебора и часто находит отличные комбинации параметров гораздо быстрее.

Читать далее

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Время на прочтение11 мин
Количество просмотров1.3K

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще.

В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink (стримить из Kafka банально, а так заодно пощупаем документоориентированную БД). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7.

В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо?

Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

Читать далее
1
23 ...

Работа

Data Scientist
46 вакансий