Все потоки

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

@Ivan_ya 5 сен в 14:29

Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов

Простой

5 мин

5.3K

Блог компании ВТБBig Data * Python * Базы данных *

Статья рассказывает о том, как банк строит единый цифровой профиль клиента, используя графы и эмбеддинги. Вы узнаете, как разрозненные данные о транзакциях, связях и балансах превращаются в мощный инструмент для анализа и прогнозирования. Разберем, почему классических табличных подходов недостаточно и как графы помогают выявлять скрытые связи между клиентами, как клиенты «превращаются в слова» и на чем измеряется успех. Статья будет полезна data scientist’ам, ML-инженерам и всем, кто интересуется практическим применением графовых методов и машинного обучения в крупном бизнесе.

Читать далее

+4

@qlever 5 сен в 12:10

Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

14 мин

7.5K

Data Engineering * Big Data * Хранение данных * Анализ и проектирование систем * Базы данных *

Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.

Читать далее

+7

@AlexanderZolotykh 5 сен в 10:06

Три сказа о построении RAG: От выбора модели до форматирования базы знаний

Средний

5 мин

8K

Блог компании ВкусВиллИскусственный интеллектМашинное обучение * Big Data * Системы связи *

Кейс

Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.

ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.

Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).

Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:

Читать далее

+12

@MariMokieva 5 сен в 09:00

Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов

2 мин

3.4K

Блог компании Wildberries & RussМашинное обучение * Big Data * Конференции

Репортаж

Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.

В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :-)

Читать далее

+2

@itisdanil 5 сен в 06:25

Как за год вырастить персонализацию на главной: эволюция рекомендаций в fashion ecom

Средний

14 мин

5K

Блог компании Lamoda TechМашинное обучение * Разработка под e-commerce * Big Data *

Кейс

Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.

Читать далее

+1

@badcasedaily1 4 сен в 18:03

Arrow Flight + ADBC: как гонять десятки ГБ/с между сервисами без REST

Простой

9 мин

7.1K

Блог компании OTUSBig Data * Базы данных *

Обзор

Привет, Хабр!

Когда делаешь сервисы на C++ и вокруг летает много данных, в какой-то момент понимаешь простую вещь: REST хорош для управления сущностями, но плохо подходит для потока колонок в десятки гигабайт в секунду. Переносить фреймы по сто миллионов строк через JSON и спотыкаться об сериализацию — не наш путь. В статье рассмотрим как собрать транспорт данных на Apache Arrow Flight и где встраивается ADBC, чтобы между сервисами гонять таблицы почти на скорости сети и не городить зоопарк драйверов.

Читать далее

+9

@badcasedaily1 4 сен в 13:19

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Средний

11 мин

5.2K

Блог компании OTUSApache * Программирование * Big Data * Data Engineering *

Обзор

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.

Читать далее

+6

@Dingzhibo 4 сен в 11:00

Вывести EdTech из кризиса: сыграет ли ставка на AI

10 мин

7.1K

Блог компании SelectelМашинное обучение * Data Engineering * Управление проектами * Big Data *

Привет, Хабр! Наверняка вы помните успех онлайн-школ во время пандемии — тогда каждый или кого-то учил, или чему-то учился. Однако за пять лет технологии шагнули вперед, а EdTech остался на том же уровне — и это привело к упадку. Зачем платить за курс, если нейросеть может научить чему угодно бесплатно (хоть к качеству обучения и возникают очевидные вопросики)?

В онлайн-школе IBLS смогли превратить ML из конкурента в союзника, и с его помощью осовременить процесс обучения для всех участников. Как это получилось — рассказываю под катом.

Читать далее

+43

@kucev 4 сен в 11:00

Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI

5 мин

3.4K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.

От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.

Читать далее

-3

@ESilantyeva 4 сен в 10:31

«Таргетинг Портал»: как мы сделали рекламные кампании проще и эффективнее

Средний

4 мин

4.3K

Блог компании Lenta techИнтернет-маркетинг * Веб-аналитика * Data Engineering * Big Data *

Кейс

Привет, Habr! Меня зовут Катя, я продакт-менеджер BigData в «Группе Лента» и отвечаю за развитие цифровых продуктов в направлении монетизации данных. В статье расскажу, как нам удалось уйти от Excel-файлов и ручного согласования сегментов к автоматизированному порталу, с помощью которого рекламные агентства теперь сами собирают нужные им сегменты и выгружают их в MyTarget.

Читать далее

+3

@Azunyasha 2 сен в 13:00

Универсальные модели в видеоаналитике: единый фундамент для множества задач

Средний

8 мин

5K

Блог компании Wildberries & RussИскусственный интеллектBig Data * Машинное обучение *

Кейс

Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ.

Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.

Читать далее

+4

@PhoenixLi 2 сен в 09:30

Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения

Сложный

11 мин

4K

Big Data * Распределённые системы * SQL * $mol *

Аналитика

Как StarRocks добивается высокой производительности JOIN-запросов в аналитических нагрузках. В материале — практическая кухня оптимизатора: какие типы JOIN эффективнее и когда их стоит конвертировать (например, CROSS→INNER, OUTER→INNER при NULL‑отвергающих предикатах), как работает predicate pushdown, извлечение предикатов из OR, вывод эквивалентностей и pushdown LIMIT. Разбираем Join Reorder для многотабличных запросов (Left‑Deep, Exhaustive, Greedy, DPsub), модель стоимости (CPU*(Row(L)+Row(R))+Memory*Row(R)) и выбор лучшего плана.

На уровне распределённого исполнения — MPP‑архитектура, свойства распределения (Distribution Property) и узлы Exchange; пять базовых планов: Shuffle, Broadcast, Bucket Shuffle, Colocate и экспериментальный Replicate Join. Плюс Global Runtime Filter (Min/Max, IN, Bloom) для ранней фильтрации на Scan. Даем практические принципы: используйте более быстрые типы JOIN, стройте хеш по малой таблице, в многоJOINовых запросах сперва выполняйте высокоселективные соединения, сокращайте объём данных и сетевой трафик. Материал для инженеров данных, DBA, разработчиков OLAP и всех, кто проектирует производительные SQL‑планы.

Читать далее

+1

@badcasedaily1 1 сен в 16:55

Обзор UDTF в PySpark

Средний

8 мин

7.8K

Блог компании OTUSPython * Высоконагруженные системы * Big Data * Data Engineering *

Обзор

Привет, Хабр!

Сегодня разберём фичу из PySpark — UDTF. Если раньше мы писали UDF и UDAF, то UDTF — это про функцию, которая запускается в секции FROM запроса и возвращает как бы несколько строк для каждой входной записи. Звучит круто.

UDTFs пригодятся, когда на один входной объект нужно получить множество выходных строк. Простой пример: у нас есть строка текста и мы хотим разделить её на слова так, чтобы каждое слово вышло отдельной строкой. Со стандартным UDF такое не сделать (он возвращает одно значение, например конкатенацию или длину). Но UDTF может делать цикл yield внутри и выдавать сколько угодно строк. Итак, приступим к делу.

Читать далее

+8

@kucev 1 сен в 11:00

Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

6 мин

4.3K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели.

Исследование проведено в рамках программы Anthropic Fellows. Эта статья также опубликована в блоге Anthropic Alignment Science.

Читать далее

0

@andrew_brdk 1 сен в 07:27

Реализация А/Б-тестов

22 мин

4.5K

Веб-аналитика * Веб-разработка * Статистика в ITBig Data * Аналитика мобильных приложений *

Туториал

Для А/Б-тестов в вебе показаны случайный выбор групп, хэширование, логика на бэкэнде и фронтэнде, логирование событий, одновременные эксперименты и админка. Примеры демонстрируют реализацию А/Б-тестов и устройство платформ экспериментов.

0

@Zotovaa 31 авг в 15:55

ML — курсы vs реальность: Где же обещанные цветочки и единороги?

Простой

6 мин

8.9K

Big Data * Data Engineering * IT-инфраструктура * R * TensorFlow *

Мнение

Привет, хабр! 👋

Позвольте представиться: я - Настя, Data Scientist и TeamLead в одной вполне себе серьезной компании (когда чистишь данные в 3 ночи, чувствуешь себя совсем не серьезно, но это детали). Веду свой скромный телеграм-канальчик, где делюсь болью, радостью и абсурдом нашей необъятной профессии. И вот сегодня хочу вынести на ваш суд тему, которая не дает спать спокойно не только мне, но и многим моим коллегам.

Помните тот трепетный момент, когда вы только начинали свой путь в Data Science? Я — очень хорошо. Картинка была радужной: ты — повелитель нейросетей, твои модели творят магию, а бизнес-задачи падают к ногам, поверженные точностью в 99.9% (ну или хотя бы 97%).

Курсы, будь то знаменитые онлайн-платформы или университетские программы, учат нас прекрасному: бустинги, метрики, градиентный спуск, SVM, k-means, сверточные слои... Это наш фундамент, наш джентельменский набор. И да, именно за этим набором охотятся 90% рекрутеров на собеседованиях. Создается стойкое ощущение, что я и интервьюер одновременно загуглили «Топ-50 вопросов на DS собеседовании» и теперь ритуально их отрабатываем. Ну, must have, что уж тут.

Но потом ты выходишь из уютного мира clean data и идеальных датасетов в дикие джунгли реального проекта. И здесь начинается магия настоящей работы. Та самая, про которую не снимают вдохновляющие ролики. А порой многие именно тут и бросают этот, казалось бы увлекательный и перспективный карьерный путь в мир ML...

Читать и обсудить...

+5

@murad_arfanian 29 авг в 15:25

Как мы мигрировали на новый шардированный кластер ClickHouse

Простой

11 мин

8.9K

Блог компании Ozon TechBig Data * Data Engineering *

Кейс

Всем привет! Меня зовут Мурад Арфанян, я разработчик информационных систем в Ozon Tech. Наша команда работает с данными жизненного цикла товаров в логистике. Объём продаж растет стремительными темпами и нешардированный ClickHouse уже не справляется с постоянно увеличивающимися потоками данных. Чтобы решить эту задачу, мы построили шардированный кластер, преодолев на пути несколько интересных технических вызовов. В этой статье я расскажу о нашем опыте и решениях, которые помогли масштабировать систему и обеспечить стабильную работу при росте нагрузки.

Читать далее

+34

@svsemyonov 29 авг в 13:37

Библиотека OutboxML от Страхового Дома ВСК

Средний

7 мин

5.4K

Блог компании Страховой Дом ВСКМашинное обучение * Big Data * Python * Open source *

Туториал

Хабр, привет!

Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.

Первый вопрос, который может задать себе читатель, знакомый с темой современного машинного обучения:
«Почему бы не взять одну из десятков (если не сотен) открытых AutoML-библиотек?»

Ответ прост: мы не стремились создать ещё один «стандартный» проект AutoML. Наша цель — сфокусироваться на вещах, которые редко встречаются в готовых решениях:

Читать далее

+3

@Vassssily 29 авг в 12:27

Критерий Кендалла W: Почему рейтинги BI друг другу противоречат, и что с этим делать?

Средний

4 мин

4.8K

Математика * Статистика в ITВизуализация данных * Big Data *

Мнение

Привет, Хабр! Сегодня я хочу рассказать о применении одного из интересных методов работы со статистическими данными — расчета коэффициента конкордации, который также называют коэффициентом Кендалла W. Он помог нам упростить выбор BI-платформы на замену многострадальному Qlik, который сегодня вообще непонятно как продлевать. Под катом — куча BI-систем, наши попытки усреднить результаты рейтингов…и г-н Кендалл с его методом 100-летней давности.

Читать далее

+13

@Andrey_Biryukov 28 авг в 13:49

Разбираемся с ReplacingMergeTree в ClickHouse

6 мин

6.1K

Блог компании OTUSБазы данных * Big Data *

Перевод

В мире систем обработки данных редко встречаются инструменты, которые одновременно просты в использовании и решают болезненные задачи архитекторов и инженеров. ReplacingMergeTree в ClickHouse — один из таких случаев. Этот движок берёт на себя рутину по дедупликации и обновлению строк, позволяя хранить только актуальные версии данных без лишних костылей. Как он работает на практике, зачем нужен ORDER BY, чем помогает столбец version и какие подводные камни могут ждать при проектировании — разбираем в статье.

Читать далее

+9

1 2 ...

9

10 11 ...