Big Data *

Большие данные и всё о них

Статьи Посты Новости Авторы Компании

socialgraph 7 янв в 13:50

VK плачет, Social Graph смеется, Telegram наблюдает

Простой

9 мин

14K

Информационная безопасность*Open source*ВКонтакте API*Big Data*Социальные сети и сообщества

Из песочницы

Скажи мне кто твой друг, и я скажу кто ты

Вы наткнулись на необычный проектик, который изучает дружеские коллективы, группы конкретного пользователя или группы профилей с помощью социального графа связей.

Зачем всё это? Изначально по приколу, но надеюсь, вы тут с благими намерениями

Что было дальше?

+17

ds_blondie 3 янв в 16:02

Мой краш-тест чемпионата: Победа в Data Science треке

Простой

6 мин

6.4K

Big Data*ХакатоныМашинное обучение*Карьера в IT-индустрииИнтервью

Из песочницы

Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.

svtDanny 2 янв в 10:58

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Простой

5 мин

2.4K

Apache*Big Data*Хранение данных*Data Engineering*

Кейс

Перевод

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

s_valuev 29 дек 2023 в 13:40

«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

Средний

7 мин

3.5K

Блог компании SelectelIT-инфраструктура*Big Data*Машинное обучение*Искусственный интеллект

Дайджест

Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать дальше →

+27

olegbunin 28 дек 2023 в 12:13

Особенности машинного обучения в нефтегазовой отрасли

13 мин

3.3K

Блог компании Конференции Олега Бунина (Онтико)Big Data*Машинное обучение*Искусственный интеллект

Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас.

Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...

aizakharov94 27 дек 2023 в 13:35

Успешный опыт участия в Data Science хакатонах

Простой

37 мин

4.4K

Big Data*Хакатоны

В статье я хочу поделиться успешным командным и личным опытом участия в хакатонах и ML соревнованиях. На примере 13-ти соревнований, по итогу которых мы победили или оказывались на призовых местах, я рассажу о практических советах для будущих участников.

На личном опыте я убедился, что не всегда для победы требуются сложные алгоритмы, мощное железо или большой опыт в индустрии. Иногда 5-6 строчек кода и немного смекалки достаточно, чтобы получить топ-1 решение. Я расскажу вам про не очевидные, на первый взгляд, но довольно простые решения, а также раскрою некоторые интересные моменты хакатонской кухни, которые, надеюсь, вдохновят вас на участие.

Статья будет полезна будущим участникам соревнований и data science специалистам, которые смогут применить описанные решения и практические советы в реальных задачах.

Syurmakov 26 дек 2023 в 19:15

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало зимы

Простой

2 мин

2.4K

Data Mining*Big Data*Машинное обучение*РобототехникаИскусственный интеллект

Дайджест

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:

Читать дайджест

+11

kucev 20 дек 2023 в 12:05

Разметка данных в 2023 году: текущие тренды и требования будущего

6 мин

2.5K

Data Mining*Big Data*Машинное обучение*Искусственный интеллектData Engineering*

Перевод

Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.

Читать дальше →

Varfalamei 20 дек 2023 в 08:16

fsspec и вообще зачем оно нам нужно

Средний

4 мин

3.2K

Python*Big Data*Google Cloud Platform*Data Engineering*

Из песочницы

Привет! Сегодня я расскажу вам про fsspec, его киллер фичи и почему он является незаменимым инструментом любого python разработчика.

kucev 19 дек 2023 в 12:18

Заблуждения о семантической сегментации

4 мин

1.5K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.

Читать дальше →

andkaymakov 19 дек 2023 в 11:18

Расчетная архитектура платформы для A/B-тестов Mail.Ru

Средний

9 мин

3.2K

Блог компании VKBig Data*Data Engineering*

Кейс

Привет Хабр! Меня зовут Андрей Каймаков, я работаю в продуктовой аналитике Mail.ru в VK. Сейчас практически каждая IT-компания (да и не только IT) знает про A/B-тесты и понимает важность проверки новых фичей с помощью этого метода. Когда фичей становится много, то A/B-тесты начинают занимать значительное время в работе команд. Чтобы автоматизировать эти процессы создаются платформы для проведения A/B-тестов. Мы разрабатываем свою систему с 2017 года, а недавно сильно ее обновили. Хочу вместе со своим коллегой разработчиком Андреем Чубаркиным поделиться опытом и инсайтами, которые мы обнаружили в ходе этого проекта.

+23

Dilemma 19 дек 2023 в 10:33

Фреймворк для дизайна A/B-теста

11 мин

2.9K

Big Data*Математика*Аналитика мобильных приложений*Статистика в IT

Сегодня мы рассмотрим простой базовый фреймворк для дизайна сплит-теста, который можно удобно использовать продуктовым аналитикам в своей работе. Разберем использование этого фреймворка, его теоретическую и математическую основу, и также поговорим о продуктовых аспектах заведения A/B-тестов — когда продакту и аналитику заводить A/B-тест не нужно. Вам понадобятся: представления о продуктовых метриках, знания python, первичные представления о математической статистике и чуточку воображения.

chillote 19 дек 2023 в 10:04

Методы балансировки в А/Б тестировании

14 мин

4.3K

Блог компании X5 TechData Mining*Big Data*Машинное обучение*

Обзор

✏️ Технотекст 2023

Привет, Хабр! Как часто вы думаете о балансе? Балансе вселенной, личной жизни и работы, балансе БЖУ в своем рационе или балансе в банке. Мы в команде ad-hoc X5 Tech не только думаем о балансе, но и сталкиваемся с ним в работе. Сегодня поговорим о балансировке при анализе причинности. Это важный инструмент статистики, который помогает нам выяснить, как одни величины влияют на другие. Балансировка здесь — это способ убрать ошибки, которые могут возникнуть из-за разных распределений переменных в разных группах. Расскажем о различных методах балансировки, об их работе, преимуществах и недостатках каждого. Также затронем проблемы и ограничения, связанные с балансировкой. Запасайтесь чаем, мы начинаем!

aabzel 18 дек 2023 в 21:47

Зачем Программисту Микроконтроллеров Математическая Статистика? (или так ли хороши UWB трансиверы?)

Простой

5 мин

6.9K

Беспроводные технологии*C*Big Data*Математика*Программирование микроконтроллеров*

Туториал

Настал день, когда мне для работы программистом микроконтроллеров наконец пригодилась математическая статистика из ВУЗ(овского) курса по теории вероятностей.

Есть очень интересная технология для автоматического радиоизмерения расстояния. Технология основана на UWB трансиверах. Позволяет измерять время пролёта радиоволны.

В этом тексте написал как я исследовал измерения расстояния, при помощи ASICа UWB трансивера DWM1000.

+12

Rikimaru22 18 дек 2023 в 18:09

Automate the boring stuff with Julia

Средний

4 мин

Программирование*Big Data*Julia*DevOps*Data Engineering*

Мнение

Считается, что Julia – это нишевый язык созданный для лабораторий, научных симуляций и HPC. Хотя на самом деле благородя свой экспрессивности и динамизму Julia можно и нужно использовать для автоматизации и скриптинга. Давайте на паре простых примеров посмотрим как Julia можно использовать для решения рутинных задач.

Triumfrus 18 дек 2023 в 12:08

Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке

7 мин

3.8K

Блог компании VKBig Data*Машинное обучение*

Создание ML-модели — сложный и ресурсоёмкий во всех смыслах процесс. Но часто выкатка сервиса на основе модели в прод оказывается ещё сложнее: требует подготовки платформы, выделения ресурсов, настройки программных интерфейсов для передачи данных из модели конечному пользователю. В таких условиях рациональнее разворачивать решения в облаках, особенно если можно использовать сервисы для полного цикла ML-разработки.

Привет, Хабр. Нас зовут Александр Кузьмичёв и Александр Казначеев. Мы пилотируем проект «ML-сервис по оттоку». В этой статье мы поделимся нашим опытом разработки модели и выкатки её в прод с помощью Cloud ML Platform.

Читать дальше →

+21

maratyv 16 дек 2023 в 21:24

АБ тесты и подводные камни при их автоматизации

Средний

14 мин

6.9K

Python*Big Data*Аналитика мобильных приложений*Статистика в IT

Из песочницы

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

kucev 15 дек 2023 в 13:43

Разметка данных: неочевидные затраты на голосовые технологии

9 мин

988

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Перевод

В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью зависят от ручной транскрипции всех обучающих фрагментов, однако затраты на связанное с этой методикой аннотирование данных оказываются очень высокими.

Эта проблема применения ручного труда также влияет и на Natural Language Understanding (NLU) — компонент, получающий текстовое описание пользовательского ввода и извлекающий из него структурированные данные (например, запросы действий и сущности), которые позволяют системе понимать человеческий язык. [Ссылка] Например, в некоторых задачах NLU (например, в Named Entity Recognition, распознавании именованных сущностей) требуется присвоение метки каждому слову во фразе, чтобы система поняла, что это слово означает в пользовательском вводе.

Читать дальше →

qed1337 14 дек 2023 в 12:48

Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц

8 мин

2.8K

Блог компании VKBig Data*Машинное обучение*

Есть два подхода к работе с машинным обучением (Machine Learning, ML): быть человеком-оркестром и задействовать «зоопарк технологий» для каждого этапа, или работать с готовым набором инфраструктурных решений, который позволяет выстроить MLOps-конвейер в рамках одной платформы. Для реализации первого подхода нужны senior-специалисты и большие ресурсы, для второго достаточно найти сервис с нужным набором возможностей.

Меня зовут Станислав Кипрюшин, я ведущий программист в VK Cloud. В этой статье на примере Cloud ML Platform мы разберём, как создать MLOps-конвейер для обучения моделей и построения сервиса распознавания лиц.

Читать дальше →

+25

Dilemma 13 дек 2023 в 17:34

RFM-сегментация в оптимизации CRM-стратегий

12 мин

1.9K

Big Data*Математика*Аналитика мобильных приложений*Статистика в IT

Туториал

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов питания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.

1 2 ...

6 7

9 10 ...

164 165

Big Data *

VK плачет, Social Graph смеется, Telegram наблюдает

Мой краш-тест чемпионата: Победа в Data Science треке

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

Истории

Особенности машинного обучения в нефтегазовой отрасли

Успешный опыт участия в Data Science хакатонах

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало зимы

Разметка данных в 2023 году: текущие тренды и требования будущего

fsspec и вообще зачем оно нам нужно

Заблуждения о семантической сегментации

Расчетная архитектура платформы для A/B-тестов Mail.Ru

Фреймворк для дизайна A/B-теста

Методы балансировки в А/Б тестировании

Ближайшие события

Зачем Программисту Микроконтроллеров Математическая Статистика? (или так ли хороши UWB трансиверы?)

Automate the boring stuff with Julia

Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке

АБ тесты и подводные камни при их автоматизации

Разметка данных: неочевидные затраты на голосовые технологии

Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц

RFM-сегментация в оптимизации CRM-стратегий

Вклад авторов

Работа