Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

Ivan_ds 21 апр 2022 в 09:37

Эволюция рекомендаций ресторанов в Delivery Club. Часть 2

10 мин

3.3K

Блог компании Delivery Club TechBig Data*Машинное обучение*Управление e-commerce*Data Engineering*

Всем привет! Это вторая часть статьи об изменении подхода к рекомендациям в Delivery Club. В первой части я подробно описал текущие проблемы нашей рекомендательной системы: локально оптимальный баланс exploitation и cold start, а также недостаточно развитый механизм exploration. А также рассказал, как мы решали проблему exploitation через карусель «Вы заказывали», а проблему cold start — через карусель популярных фастфуд-ресторанов.

+14

khavan 21 апр 2022 в 09:06

Machine Learning много не бывает: отчёт с ML-митапа

1 мин

3.3K

Блог компании Ozon TechBig Data*Машинное обучение*КонференцииData Engineering*

Выкладываем запись с прошедшего Ozon Tech ML Meetup: были рады поделиться опытом с коллегами из Яндекс Маркета, AliExpress Россия, Циан и увидеть гостей оффлайн, как в старые-добрые времена.

Под катом найдете запись докладов:

• Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop,

• Го обсудим: продакшен ML на Golang,

• Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса,

• Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру.

После докладов на круглом столе обсудили процессы и роли в ML-командах крупных IT-компаний.

Запись под катом

+15

BansheeRotary 21 апр 2022 в 09:02

Visiology предложила специальные лицензии для миграции с других BI-платформ

3 мин

2.3K

Блог компании VisiologyBig Data*Визуализация данных*СофтОблачные сервисы*

Еще в марте 2022 года мы столкнулись с проблемой наших потенциальных клиентов. Потребность в миграции на российскую BI-платформу создала дополнительную финансовую нагрузку на компании. На прошлой неделе мы представили новую линейку тарифов, которые облегчают процесс перехода. Этот пост — для тех, кто уже рассматривает Visiology в качестве альтернативной BI платформы, а под катом — подробности о стоимости лицензий Visiology, с учетом своего рода Trade-In.

+12

brucewayneorjustahror 20 апр 2022 в 09:59

Умный город Ташкент: как Visiology BI и Геоинтеллект помогли создать современный ситуационный центр

9 мин

8.2K

Блог компании VisiologyBig Data*Геоинформационные сервисы*Анализ и проектирование систем*Визуализация данных*

Привет, Хабр! Меня зовут Ахрор, и я занимаю должность управляющего проектами в Департаменте Цифрового Развития Ташкента. Сегодня я хочу рассказать вам о том, как мы создавали систему управления Smart City для столицы Узбекистана на базе российских решений — ПО для бизнес-аналитики и визуализации Visiology и платформы “Геоинтеллект”. Новая система объединила более 60 ведомств и стала основой для работы диспетчерского ситуационного центра. В этом посте я подробно расскажу о том, как создавалась и проектировалась платформа, а также о том, какие возможности Геоинтеллекта и Visiology мы использовали.

+25

Olga_Mokshina 20 апр 2022 в 08:07

Четыре хитрости в работе с пайплайнами данных, о которых знают не все

4 мин

Блог компании VKBig Data*Хранение данных*

Перевод

Dust-n-Rust by Spiritofdarkness

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью с советами, которые касаются общих понятий работы с пайплайнами. Неважно, какую систему управления рабочими процессами вы используете, эти идеи можно применять везде. Сам автор пользуется Apache Airflow и приводит примеры кода на ее основе.

Эта статья будет полезна не только дата-инженерам, но и дата-сайентистам, так как хороший дата-сайентист тоже понимает принципы работы пайплайнов данных.

Читать дальше →

+13

kucev 19 апр 2022 в 08:31

Датацентрический и моделецентрический подходы в машинном обучении

12 мин

5.9K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.

Читать дальше →

kzzzr 18 апр 2022 в 12:44

Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect

9 мин

2.4K

Блог компании OTUSData Engineering*Big Data*

Привет от Technology Enthusiast! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.

Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:

• Требования и ожидаемые результаты

• Функциональные возможности

• Сценарии использования и бизнес-ценность

• Планы развития, продвинутое моделирование и BI

JuliBerg 18 апр 2022 в 07:00

BI заместитель: Как сейчас быстро и недорого зарезервировать BI

8 мин

2.3K

Блог компании GlowByteАналитика мобильных приложений*Машинное обучение*Big Data*

Статья о том, как в нынешних условиях снизить критичность влияния санкций и прочих катаклизмов на пользователей данных в компании.

Читать далее про способ резервирования BI

scolfield 15 апр 2022 в 09:01

ИИ для прогнозирования тренда стоимости Bitcoin на данных Twitter. ч.1

9 мин

15K

Python*X API*Big Data*Искусственный интеллект

В этой статье я расскажу о первой серии экспериментов для проверки гипотезы влияния данных Twitter на тренд стоимости Bitcoin. Цель не угадать ценник, а предсказать рост, убывание или относительную неизменность цены

KayserSW 13 апр 2022 в 17:56

Совместные конфиденциальные вычисления на пальцах

5 мин

4.6K

Data Mining*Big Data*Хранение данных*

В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться ?

Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:

kzzzr 13 апр 2022 в 15:13

Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

7 мин

6.6K

Блог компании OTUSBig Data*Data Engineering*

Итак, Вы работаете с Большими Данными:

– Обработка этих данных требует значительного времени (и затрат ?).

– Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты.

– Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты.

Statzilla 13 апр 2022 в 10:41

Как посчитать ROMI и оптимизировать бюджет, если сквозная аналитика не работает?

4 мин

4.1K

Медийная реклама*Машинное обучение*Контекстная реклама*Интернет-маркетинг*Big Data*

Из песочницы

Marketing Mix Modeling - это метод, который позволяет проанализировать вашу маркетинговую стратегию при использовании вами нескольких рекламных каналов. Цель МММ - количественно оценить влияние отдельных рекламных каналов на продажи и составить модель оптимального бюджета на каждый канал для максимизации ROI.

При этом помимо данных об используемых рекламных каналах и проведенных маркетинговых кампаниях также учитываются такие факторы как сезонность, макроэкономические показатели, цена продаж и т д - всё, что влияет на продажи без учета маркетинга. При анализе моделируется отложенный эффект рекламных кампаний и снижение этого эффекта во времени.

Olga_Mokshina 13 апр 2022 в 08:04

Как дата-сайентистам эффективно сотрудничать с дата-инженерами

5 мин

2.4K

Блог компании VKХранение данных*Big Data*

Перевод

Junkyard Blues by Papaya-Style

Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.

Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами.

Читать дальше →

+14

Listen1991 12 апр 2022 в 06:41

Могут ли российские дашборды стать альтернативой Qlik/Tableau/PowerBI?

4 мин

5.5K

Блог компании VisiologyBig Data*Визуализация данных*

Привет, Хабр! Меня зовут Максим Губин, и я работаю в компании Visiology. Недавно к нам поступил интересный запрос, и мне с коллегами пришлось сделать демонстрационный дашборд для российского сообщества BI-специалистов. Интересно, что визуализация была сделана не под конкретного заказчика, но зато она позволила специалистам оценить, смогут ли они работать с другой BI-системой, если нужно будет сменить ПО.

Да, многие компании сегодня рассматривают альтернативные BI-системы, но специалисты продолжают сомневаться в удобстве и функциональности российских продуктов и open-source решений. В этом посте я расскажу о демонстрации возможностей отечественных платформ для сообщества российских BI-специалистов (Russian BI Chat), а также покажу, как выглядит интерактивный дашборд от Visiology. Этот пост будет интересен тем, кто рассматривает различные варианты внедрения BI-инструментов, включая российские и open-source системы.

expdxx 8 апр 2022 в 10:04

Как собрать отчет в Google Data Studio быстро и просто

9 мин

18K

Big Data*Google Cloud Platform*

Туториал

Осенью 2021 года я задумался о бесплатных инструментах аналитики и построения отчетности, доступных простым пользователям. В том или ином виде можно использовать Power BI или Tableau, но почему бы не попробовать что-то более простое?

Небольшой дисклеймер: датасет, о котором далее пойдет речь, был загружен осенью 2021 года. Сейчас датасет другой, возможно более чистый. Загружать новые данные счел нерациональным, поскольку серия постов будет про простейшие визуализации, а не про актуальные исследования или сложные диаграммы. И нет, это не подробная методичка по возможностям GDS, это только общий обзор решения и разбор одного кейса.

Нас интересует только сторона работы обычного аналитика, насколько это возможно (и насколько я себе это представляю), поэтому я буду стараться искать самые простые пути решения проблемы. Понимаю, что некоторые методы вроде использования промежуточной базы данных не выглядят простыми для кого-то, но с тем же успехом можно использовать таблицы от Google. У меня БД просто была под рукой, да и выстроить полноценный ETL-процесс без неё не выйдет.

DELTA37 8 апр 2022 в 08:34

Разметка именованных сущностей в Label Studio

5 мин

22K

Машинное обучение*Data Mining*Big Data*

Туториал

В предыдущей статье мы уже подробно рассмотрели процесс разметки семантической сегментации в CVAT. Сейчас я подробнее расскажу по NER-разметку в другом популярном open source инструменте Label Studio

Предупреждаю, статья в первую очередь направлена на новичков, которые делают первые шаги в разметке данных. Как и в прошлый раз мы шаг за шагом пройдем путь от установки и настройки проекта до экспорта уже размеченного датасета.

В процессе будем подробнее останавливаться на нюансах связанных с извлечением именованных сущностей и рекомендациях из личного опыта.

Посмотрим, что у тебя там...

kmoseenk 7 апр 2022 в 14:23

17 лучших инструментов и технологий для работы с большими данными, о которых нужно знать в 2022 году

14 мин

44K

Блог компании OTUSBig Data*

Перевод

Мир больших данных становится только еще больше. Организации всех мастей производят огромное количество данных из года в год, и находят все больше способов использовать их для улучшения работы, лучшего понимания клиентов, более быстрой доставки продукции и снижения затрат, а также для других целей. Кроме того, руководители компаний, стремящиеся быстрее получить отдачу от данных, ищут возможности анализа в режиме реального времени.

Все это стимулирует значительные инвестиции в инструменты и технологии работы с большими данными. В своем отчете за август 2021 года компания IDC, занимающаяся исследованием рынка, оценила ожидаемые мировые расходы на системы больших данных и аналитики в $215,7 млрд в 2021 году, что на 10,1% больше, чем в прошлом году. Она также прогнозирует, что расходы будут расти на 12,8% в год до 2025 года.

T1_Analytics 7 апр 2022 в 11:02

Монетизация данных. Зачем Большой Брат следит за нами?

13 мин

9.8K

Блог компании Холдинг Т1Управление проектами*IT-компанииBig Data*

2021-й год стал первым годом, когда крупные компании начали понимать на практике, зачем же они следят за пользователями. До этого бигдата была инструментом поиска вещей, которые можно было сделать и статичными правилами, а вот сейчас наконец-то стала полезной принципиально иначе.

Теперь можно получать обработку информации в реальном времени (и реагировать гибко и сразу на те же действия на сайте или в приложении), в агрегации данных (теперь банк знает, где вы живёте, какие у вас были диагнозы по чекам из аптеки и какие интернет-магазины вы предпочитаете по адресам посещаемых сайтов, от стратегического альянса с провайдером или сотовым оператором) и так далее.

Читать дальше →

+13

Olga_Mokshina 6 апр 2022 в 08:04

Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных

7 мин

12K

Блог компании VKBig Data*Хранение данных*

Перевод

Lake Berryessa by chateaugrief

Выбор формата хранения данных при создании Data Lake влияет на производительность озера, удобство его использования и совместимость с другими инструментами.

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью — сравнение трех форматов данных: Apache Hudi, Apache Iceberg и Delta Lake. Посмотрим, какие в них применяются подходы к производительности обновлений, параллелизму и совместимости, и разберем, какой формат больше подойдет под ваши задачи.

Читать дальше →

+16

DELTA37 5 апр 2022 в 16:09

Семантическая сегментация изображений в CVAT

5 мин

6.1K

Big Data*Data Engineering*

Туториал

Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.

Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.

На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.

Ну посмотрим, что там у тебя...

-2

1 2 ...

70 71

73 74 ...

191 192

Big Data *

Эволюция рекомендаций ресторанов в Delivery Club. Часть 2

Machine Learning много не бывает: отчёт с ML-митапа

Visiology предложила специальные лицензии для миграции с других BI-платформ

Умный город Ташкент: как Visiology BI и Геоинтеллект помогли создать современный ситуационный центр

Четыре хитрости в работе с пайплайнами данных, о которых знают не все

Датацентрический и моделецентрический подходы в машинном обучении

Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect

BI заместитель: Как сейчас быстро и недорого зарезервировать BI

ИИ для прогнозирования тренда стоимости Bitcoin на данных Twitter. ч.1

Совместные конфиденциальные вычисления на пальцах

Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

Как посчитать ROMI и оптимизировать бюджет, если сквозная аналитика не работает?

Как дата-сайентистам эффективно сотрудничать с дата-инженерами

Ближайшие события

Могут ли российские дашборды стать альтернативой Qlik/Tableau/PowerBI?

Как собрать отчет в Google Data Studio быстро и просто

Разметка именованных сущностей в Label Studio

17 лучших инструментов и технологий для работы с большими данными, о которых нужно знать в 2022 году

Монетизация данных. Зачем Большой Брат следит за нами?

Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных

Семантическая сегментация изображений в CVAT

Вклад авторов