Big Data *

Большие данные и всё о них

Статьи Посты Новости Авторы Компании

feanoref 15 часов назад

Зачем компаниям ML? Разбираемся на примере Netflix

Простой

10 мин

5.1K

Блог компании SelectelBig Data*Машинное обучение*Научно-популярноеIT-компании

Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.

Читать дальше →

+29

DataSecrets 3 мая в 18:14

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Средний

5 мин

24K

Python*Big Data*Машинное обучение*Искусственный интеллект

Обзор

На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.

Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.

+69

nmzgnv 23 апр в 11:34

Векторные базы данных: простым языком про устройство и принцип работы

Простой

11 мин

11K

Блог компании ТочкаOpen source*Big Data*Хранение данных*Искусственный интеллект

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

+35

s_valuev 22 апр в 13:38

Языковой процессор LPU, GenAI в FinOps и инструменты для анализа данных

Средний

6 мин

1.8K

Блог компании SelectelBig Data*Машинное обучение*Искусственный интеллектIT-компании

Дайджест

Привет, Хабр! Возвращаюсь с новым выпуском полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Подробнее — под катом. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать дальше →

+35

alexrzntsv 3 апр в 10:00

AutoML на практике — как делать автоматизацию, а не её иллюзию

Средний

15 мин

8.8K

Блог компании Альфа-БанкПрограммирование*Big Data*Машинное обучение*

Кейс

Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработать с нуля собственный AutoML в Альфа-Банке.

Когда количество ML-моделей в компании исчисляется сотнями, процессы десятками, а фичи тысячами, вопрос «а нужен ли нам AutoML?» уже не стоит. Стоит другой вопрос - как сделать AutoML так, чтобы он был действительно полезен и им реально хотелось пользоваться?

В этом посте я подробно освещу путь создания нашего AutoML-сервиса: расскажу обо всех препятствиях, которые мы преодолели, и поделюсь инсайтами, полученными в ходе работы. Вместе мы пройдем полный путь практического AutoML - начиная от его первоначальной идеи и мотивации, и заканчивая текущими успехами и планами на будущее.

+32

SmirnovValeriy 1 апр в 10:03

ANNA – сервис для автоматической разработки нейронных сетей

Простой

10 мин

7.6K

Блог компании Альфа-БанкBig Data*Машинное обучение*

Кейс

Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.

Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.

Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.

+31

s_valuev 6 мар в 11:30

Ликбез по Data Governance, защита LLM, рейтинг BI-инструментов и другие новинки в мире ML и DA

Средний

7 мин

2.8K

Блог компании SelectelBig Data*Машинное обучение*Искусственный интеллектIT-компании

Дайджест

Привет, Хабр! После перерыва возвращаюсь с новым выпуском полезных материалов, которые помогут лучше разобраться в ML, AI и дата-аналитике. Сегодня в программе — эволюция СУБД, миграция с Apache Druid на ClickHouse и подходы к экономии ресурсов для инфраструктуры. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать дальше →

+25

nike_ilin 18 фев в 09:30

7 направлений оптимизации ClickHouse, которые помогают в BI

Средний

12 мин

10K

Блог компании VisiologyBig Data*Визуализация данных*Хранение данных*Хранилища данных*

Кейс

Из песочницы

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации.

А что там с оптимизацией ClickHouse?

+25

nike_ilin 18 фев в 09:30

7 направлений оптимизации ClickHouse, которые помогают в BI

Средний

12 мин

10K

Блог компании VisiologyBig Data*Визуализация данных*Хранение данных*Хранилища данных*

Кейс

Из песочницы

А что там с оптимизацией ClickHouse?

+25

ivantipow 7 фев в 09:59

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

14 мин

22K

Блог компании Ozon TechData Mining*Алгоритмы*Big Data*Машинное обучение*

Кейс

✏️ Технотекст 2023

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.

+127

shemik7 1 фев в 17:55

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Средний

7 мин

3.8K

Блог компании SelectelАнализ и проектирование систем*Big Data*Хранение данных*

Мнение

✏️ Технотекст 2023

Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.

У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.

Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно но…

Читать дальше →

+35

ITSumma 1 фев в 11:53

Как проводят оценку качества данных в Airbnb

Простой

9 мин

2.3K

Блог компании ITSummaBig Data*Управление сообществом*DevOps*Статистика в IT

Кейс

Перевод

Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.

Читать дальше →

+28

s_valuev 31 янв в 18:01

Годовой дайджест по аналитике и ML за 2023

Средний

5 мин

4.8K

Блог компании SelectelBig Data*Искусственный интеллект

Дайджест

Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мегадайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.

Читать дальше →

+34

nmakarova 25 янв в 16:07

Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров

Простой

11 мин

5.5K

Блог компании CDEKАнализ и проектирование систем*Big Data*Машинное обучение*

Кейс

✏️ Технотекст 2023

Привет, Хабр! Меня зовут Наталья Макарова, я ведущий разработчик команды геоданных в CDEK. В этой статье расскажу, как мы с помощью ML решили проблему, не дававшую нашей компании перейти на автоматическую маршрутизацию курьеров.

Мы умеем отслеживать прохождение грузом всей транспортной цепочки, включая промежуточные склады. Но посылку нужно ставить на конкретный маршрут до того, как весь груз придет на склад доставки. И даже до того, как он попадет в ERP‑систему СDEK (посылки оформят в офисах). То есть задача такая: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут!

+35

matyunin_as 18 янв в 14:01

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

10 мин

3.4K

Блог компании VKBig Data*Машинное обучение*Kubernetes*

Сегодня Spark — отраслевой стандарт среди инструментов обработки данных. Его часто используют в связке с Hadoop, однако Hadoop не очень подходит для работы в облаке. Альтернативой может быть Kubernetes, однако самостоятельно его настраивать и конфигурировать очень сложно. Чтобы упростить ситуацию и помочь пользоваться всеми преимуществами технологий, не сталкиваясь с трудностями, мы сделали в VK Cloud Spark в Kubernetes. Для работы с ним не нужна глубокая экспертиза в K8s.

Меня зовут Алексей Матюнин, я ведущий программист команды разработки ML Platform в компании VK Cloud. Расскажу, почему мы решили делать Spark в Kubernetes, с какими сложностями столкнулись и как их обходили, а также что получили в итоге.

Материал подготовлен по мотивам моего выступления на конференции VK Data Meetup.

Читать дальше →

+25

savrus_pub 18 янв в 10:00

Улучшаем динамические таблицы YTsaurus с помощью алгоритмов

17 мин

4.3K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureАлгоритмы*Big Data*Хранение данных*

✏️ Технотекст 2023

Динамические таблицы в YTsaurus занимают заметное место во внутренней инфраструктуре Яндекса. В них можно хранить огромные массивы данных, и читать их можно настолько быстро, что многие сервисы Яндекса используют YTsaurus при построении ответа внешним пользователям.

Всё это звучит здорово, но стоять на месте никак нельзя. Поэтому мы постоянно работаем над всякого рода улучшениями и оптимизациями. Зачастую новые фичи хранят под капотом не самую тривиальную идею. И сегодня я хочу рассказать о нескольких таких улучшениях, которые мы затащили в виде новых фич в последнем релизе.

В этой статье разберёмся, как работает xor-фильтр, в чём особенность чанкового хеш-индекса и как overload controller повышает стабильность работы. Все примеры разберём на примере YTsaurus, но они будут полезны любому разработчику СУБД.

+34

tagir_analyzes 15 янв в 17:14

Визуализация статистики о том, что и так все знают

Простой

7 мин

14K

Блог компании Альфа-БанкData Mining*Big Data*Визуализация данных*Аналитика мобильных приложений*

Аналитика

✏️ Технотекст 2023

Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям.

Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.

+28

s_valuev 29 дек 2023 в 13:40

«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

Средний

7 мин

3.5K

Блог компании SelectelIT-инфраструктура*Big Data*Машинное обучение*Искусственный интеллект

Дайджест

Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать дальше →

+27

qed1337 14 дек 2023 в 12:48

Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц

8 мин

2.8K

Блог компании VKBig Data*Машинное обучение*

Есть два подхода к работе с машинным обучением (Machine Learning, ML): быть человеком-оркестром и задействовать «зоопарк технологий» для каждого этапа, или работать с готовым набором инфраструктурных решений, который позволяет выстроить MLOps-конвейер в рамках одной платформы. Для реализации первого подхода нужны senior-специалисты и большие ресурсы, для второго достаточно найти сервис с нужным набором возможностей.

Меня зовут Станислав Кипрюшин, я ведущий программист в VK Cloud. В этой статье на примере Cloud ML Platform мы разберём, как создать MLOps-конвейер для обучения моделей и построения сервиса распознавания лиц.

Читать дальше →

+25

cleverdata_team 12 дек 2023 в 10:01

MDM и CDP: различия систем. Как сделать выбор

Простой

7 мин

3.2K

Блог компании ГК ЛАНИТBig Data*Терминология ITХранение данных*Интернет-маркетинг*

Любой компании, которая стремится сохранить конкурентоспособность на рынке, необходимо создание «золотой записи» (профиля) клиента во внутренних базах. Для этого многие используют системы управления мастер-данными (MDM, master data management), но сталкиваются с рядом проблем, другие – применяют CDP-платформы (Customer Data Platform), которые также имеют свои недостатки. А теперь представьте, если от каждого из решений можно было взять лишь лучшее, оставив за бортом все слабые стороны. Как это сделать – в новой статье CleverData под катом.

+31

2 3 ...

25 26

Big Data *

Зачем компаниям ML? Разбираемся на примере Netflix

Новости

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Векторные базы данных: простым языком про устройство и принцип работы

Языковой процессор LPU, GenAI в FinOps и инструменты для анализа данных

Истории

AutoML на практике — как делать автоматизацию, а не её иллюзию

ANNA – сервис для автоматической разработки нейронных сетей

Ликбез по Data Governance, защита LLM, рейтинг BI-инструментов и другие новинки в мире ML и DA

7 направлений оптимизации ClickHouse, которые помогают в BI

7 направлений оптимизации ClickHouse, которые помогают в BI

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Как проводят оценку качества данных в Airbnb

Годовой дайджест по аналитике и ML за 2023

Ближайшие события

Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

Улучшаем динамические таблицы YTsaurus с помощью алгоритмов

Визуализация статистики о том, что и так все знают

«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц

MDM и CDP: различия систем. Как сделать выбор

Вклад авторов

Работа