Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

saigina_m 18 апр в 12:56

Как в Lamoda Tech меняли главную страницу, создавали облако тегов и поднимали метрики поиска. Материалы с DS Meetup

2 мин

1.3K

Блог компании Lamoda TechBig Data *

Публикуем материалы с митапа по Data Science, который прошел 15 апреля.

В офисе Lamoda Tech мы делились свежими кейсами о том, как использовать большие данные и сделать шопинг ещё более приятным и улучшить UX. Рассказали, как поднимаем метрики поиска по самым нестандартным запросам, персонализируем рекомендации на примере главной страницы, а также создаём облако тегов и разметку отзывов для более точного выбора товаров.

aufklarer 18 апр в 08:44

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Средний

8 мин

577

Natural Language Processing * Big Data * Scala * Распределённые системы * Искусственный интеллект

Обзор

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей.

JuliBerg 17 апр в 17:34

Self-Service BI: как сделать, чтобы он полетел

Простой

29 мин

2.4K

Блог компании GlowByteBig Data *

Обзор

✏️ Технотекст 7

«Спасение утопающих — дело рук самих утопающих». Иногда это звучит не так уж и плохо.

Привет, Хабр! Меня зовут Юлий Гольдберг, работаю в GlowByte (занимаюсь платформами данных, BI, аналитическими решениями больше 20 лет). Сегодня хочу поделиться некоторыми наблюдениями о том, про что нужно не забывать, чтобы Self‑Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием.

+11

qlever 17 апр в 12:42

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

11 мин

Системное администрирование * Big Data * Хранение данных * DevOps *

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.

digitaljay 17 апр в 10:25

Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Простой

8 мин

10K

Блог компании Точка БанкPython * Big Data *

Привет! Если после заголовка вы решили, что это очередная статья в стиле «Топ-10 способов ускорить Pandas», то не торопитесь с выводами. Вместо топов и подборок предлагаю взглянуть на бенчмарки скорости и потребления памяти в зависимости от характеристик датафрейма и убедиться, что часть советов из статей по ускорению могут оказаться даже вредными. Разберём, какой из способов ускорения нужно пробовать в разных ситуациях, как это зависит от размера датафрейма и как ведёт себя в реальном проекте.

+30

MaximML 17 апр в 08:00

Анализ данных: от EDA до Tinder-битвы графиков

6 мин

1.9K

Блог компании МТСВизуализация данных * Машинное обучение * Big Data * Учебный процесс в IT

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.

+20

psushin 16 апр в 11:00

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

7 мин

4.3K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании ЯндексBig Data * Высоконагруженные системы * Open source *

Роадмэп

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании.

Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

+34

confident_action 16 апр в 05:00

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Сложный

17 мин

6.4K

Data Engineering * Big Data *

Туториал

Привет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark.

skillfactory_school 15 апр в 13:13

Optuna: находим лучшие настройки для моделей без головной боли

Простой

9 мин

2.2K

Блог компании SkillfactoryBig Data *

Обзор

Если вы уже пробовали обучать модели, то знаете: выбрал не тот гиперпараметр — получил плохой результат. А перебирать их вручную или даже с помощью GridSearchCV из scikit-learn — долго, муторно и не всегда эффективно. Поэтому сегодня поговорим о том, как заставить компьютер делать эту скучную работу за нас.

В этом поможет Optuna — библиотека для автоматической оптимизации гиперпараметров. Она умнее простого перебора и часто находит отличные комбинации параметров гораздо быстрее.

Kami-sama322 15 апр в 12:48

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

11 мин

1.9K

Блог компании МТСBig Data * Kubernetes * PostgreSQL * MongoDB *

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще.

В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink (стримить из Kafka банально, а так заодно пощупаем документоориентированную БД). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7.

В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо?

Так вот, это не наш путь! Данное руководство будет полезно тем, кто ~~такой же извращенец~~ хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

+21

Virron 15 апр в 10:16

Погружение в ClickHouse: делаем первые и успешные шаги

Простой

6 мин

15K

SQL * Big Data * Хранение данных * Data Engineering *

Из песочницы

Привет! Меня зовут Андрей Дорожкин, и я руковожу командой администрации баз данных в Hybrid. В этом материале я поделюсь опытом работы с ClickHouse — колоночной БД, разработанной специально для аналитических запросов, которая позволяет получать результаты в разы быстрее традиционных решений. Также я подсвечу, как устроен этот продукт, чем он отличается от реляционных баз данных, и в каких сценариях его использование может дать бизнесу реальное преимущество.

Пара слов о компании Hybrid. Мы — независимая AdTech-экосистема с собственным стеком технологий и решений для любых рекламных целей. Развиваем собственные технологии благодаря in-house отделу разработки, который каждый день работает над их улучшением. ClickHouse — инструмент, который мы выбираем для хранения данных за высокую скорость обработки запросов, эффективное сжатие данных и масштабируемость.

Amarik 15 апр в 09:16

Спецификация формата RTTM: полное техническое описание

Простой

8 мин

787

Big Data * Natural Language Processing * Машинное обучение * Программирование * IT-стандарты *

Из песочницы

RTTM — это формат, в котором каждое событие в аудио точно знает своё место.
Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме.

В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio, NVIDIA NeMo, DScore и другие.

Узнать больше про RTTM!

mark-rtb 15 апр в 07:30

Книги для Team Lead DS: от менеджмента к стратегии

Средний

3 мин

3.5K

Блог компании Ozon БанкBig Data * Машинное обучение * Профессиональная литература * Карьера в IT-индустрии

Мнение

Привет! Меня зовут Марк Паненко, я Chief Data Science в Ozon Банке. Это завершающая статья цикла о книгах для Data Science. Ранее мы обсуждали комиксы и нейросети для новичков, принципы для мидлов, профессиональную разработку, а сегодня поговорим об управлении командами. Материал основан на эпизодах подкаста Data Breakfast — в нём мы разбираем кейсы из реальной практики.

+16

EVRAZ 15 апр в 07:00

Эксгаустеры и где они обитают: о новой разработке рассказывает эксперт ЕВРАЗа

Простой

7 мин

1.7K

Блог компании ЕВРАЗПромышленное программирование * Big Data *

Кейс

Исключить аварийные остановки на производстве и прогнозировать время, когда агрегаты нуждаются в ремонте, — такие цели успешно реализовала команда ЕВРАЗа. Для этого на агломерационной фабрике внедрили автоматизированную систему, причем не отличающуюся особой сложностью. Как она работает, расскажу я, Python Backend разработчик компании Ольга Седова.

Kumantsev 14 апр в 10:02

Что такое конвейер данных? И почему вы должны это знать

4 мин

10K

Big Data * Python * Анализ и проектирование систем * Изучение языковПрограммирование *

Из песочницы

Конвейер данных (Data Pipeline) - это последовательность шагов для обработки данных. Если данные еще не присутствуют в платформе данных, они поступают в начале конвейера. Затем конвейер обрабатывает данные через ряд этапов, где выход каждого этапа становится входом следующего. Этот процесс продолжается до тех пор, пока конвейер не будет завершен. В некоторых случаях независимые этапы могут выполняться одновременно.

vasilypupkin 12 апр в 20:24

Проект Колхоз — светлое будущее своими руками

Средний

5 мин

16K

Умный домDIY или Сделай самBig Data * Open source * Инженерные системы *

Обзор

🤖 Колхоз — это не только про тракторы. Это про мозги. И автоматизацию. В этой статье покажу, как мы собрали платформу для управления чем угодно — от теплицы до котельной — на базе ESP32.

Прикоснуться

+35

190

PaaLadin 11 апр в 17:53

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

Простой

5 мин

24K

Big Data * Информационная безопасность * Хранение данных * Машинное обучение * Социальные сети

Кейс

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на «закрытый» профиль ВКонтакте где он был опубликован. А также где‑то хранит всю эту информацию без моего разрешения, но при допросе — уходит в несознанку...

Нырнуть в мусорку от Яндекса...

+122

215

MaxRokatansky 11 апр в 16:39

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Средний

13 мин

4.6K

Блог компании OTUSSQL * Big Data * Хранение данных *

Перевод

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Luxms 10 апр в 13:44

Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код

11 мин

1.2K

Блог компании Luxms BIBig Data * Визуализация данных * Анализ и проектирование систем *

Мнение

В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных. Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения.

Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут.

В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код.

Kristina_v_IT 10 апр в 08:28

Как мы сделали одну большую песочницу для всех аналитиков

7 мин

Блог компании РСХБ.цифра (Россельхозбанк)Python * PostgreSQL * Big Data * Хранение данных *

Кейс

В мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда РСХБ.Цифра, в которой я, Кристина Проскурина, руковожу управлением бизнес-анализа данных, а Алексей Кошевой, руководитель отдела развития витрин данных «РСХБ-Интех», руководит разработкой аналитической отчетности и платформы по исследованию данных. В этой статье мы расскажем, как наша команда разработала единую песочницу для аналитиков, которая объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы.

К песочнице

+16

1 2 ...

17 18

20 21 ...

204 205

Big Data *

Как в Lamoda Tech меняли главную страницу, создавали облако тегов и поднимали метрики поиска. Материалы с DS Meetup

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Self-Service BI: как сделать, чтобы он полетел

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Анализ данных: от EDA до Tinder-битвы графиков

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Optuna: находим лучшие настройки для моделей без головной боли

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Погружение в ClickHouse: делаем первые и успешные шаги

Спецификация формата RTTM: полное техническое описание

Книги для Team Lead DS: от менеджмента к стратегии

Ближайшие события

Эксгаустеры и где они обитают: о новой разработке рассказывает эксперт ЕВРАЗа

Что такое конвейер данных? И почему вы должны это знать

Проект Колхоз — светлое будущее своими руками

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код

Как мы сделали одну большую песочницу для всех аналитиков

Вклад авторов