Обновить
74.98

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Где поучиться BI этой осенью бесплатно
Где поучиться BI этой осенью бесплатно

Сентябрь в самом разгаре! Последние теплые дни четвертого месяца лета. То самое время, когда на улице жарко, а в цифровом пространстве всё просто кипит! Сегодня небольшой информационный пост о том, где можно сейчас бесплатно поучиться премудростям BI.

  1. Пиксы запустили Цифровой триатлон. Каждую неделю идет трек по одной из платформ. На этой неделе экватор по PIX BI. Много экспертов, много мнений, весь контент очень сильно связан с ex Qlik тусовкой. Клиенты, эксперты, организаторы - все когда то занимались, внедряли, обучали Qlik. Такое импортозамещение даже получается. https://triathlon.pix.ru Информацию кидают в группу в телеге: https://t.me/BI_PIX_Chat Плюс компания анонсировала БЕСПЛАТНУЮ персональную редакцию своей платформы. Надеемся это не разводняк! 

  2. Коллеги из Глобайт привезли Азиатский вариант марафона. Ретрит по теме Fine Bi. Вся информационная поддержка идет в группе https://t.me/FineBIChat в разбивке по темам. Много интересного, новые фичи, опыт клиентов. Классика марафонов от Дата Йога.

  3. AW запустили на наш взгляд тяжелую, но очень интересную историю для конкретной группы продвинутых аналитиков. Все подробности в группе https://t.me/awcommunity такой марафон, который перетекает в хакатон и заканчивается собственной конференцией в Москве. 

Отличная возможность попробовать три разных блюда, не выходя из дома! Вперед к новым знаниям!

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Чем занимается BI в финтехе

Привет, меня зовут Саша Матвеев, я руковожу департаментом аналитики данных в ЮMoney. Кратко расскажу о трёх наших самых крупных ML-проектах.👌

В чём между ними разница? ↓
В чём между ними разница?

BI-разработчик занимается поставкой данных как IT-cервис. Он предоставляет данные, доступные для анализа и упакованные в аналитические продукты. Аналитик данных извлекает смыслы из данных, полученных от BI-разработчиков, и обрабатывает их.

Наши ML-проекты:

●  Прогноз LTV кошельков. В продуктовой аналитике есть важный показатель — LTV: сколько денег принесёт пользователь за всё время, пока пользуется продуктом. Мы стараемся понять это как можно раньше — на основе нескольких месяцев использования предсказываем, сколько дохода принесёт пользователь за один и два года. Это помогает определить, какой пользователь перед нами, и принимать решения.

●  Предсказание оттока кошельков и мерчантов. Иногда пользователи «замирают» — не делают никаких действий после того, как завели кошелёк или подключили магазин к ЮKassa. BI помогает продуктовым командам спрогнозировать поведение таких пользователей.

●  Классификация сайта мерчанта при бординге в ЮKassa. К ЮKassa ежедневно подключаются новые магазины (мерчанты), а наши менеджеры решают, к какой категории их отнести. Чтобы ускорить выход всех магазинов в платежи, нам нужен был      механизм, который может определить группу мерчанта без участия менеджера. Команда BI создала ML-классификатор, который умеет делать это быстро, что позволяет магазинам быстрее подключаться к ЮKassa.

Теги:
Всего голосов 3: ↑2 и ↓1+5
Комментарии0

Этой осенью Okko приглашает тебя провести вечер в компании экспертов в области работы с данными в развлекательных продуктах и сервисах: KION, Иви, START и ВК Музыка. Митап пройдет в гибридном формате: офлайн в Stand Up Store и онлайн.

https://okko-2024.timepad.ru/event/3010295/

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Простой способ конвертации файлов JSON в CSV через Python

Для конвертации файлов JSON в CSV через Python существует удобный способ с использованием библиотеки pandas.

Если у вас еще не установлена библиотека pandas, установите ее с помощью pip:

pip install pandas

Далее напишем функцию, которая будет принимать на вход путь к JSON файлу и имя выходного CSV файла. Эта функция выполнит преобразование с помощью pandas.

import pandas as pd


def json_to_csv(input_file, output_file):
    try:
        # Прочитайте JSON файл в DataFrame
        df = pd.read_json(input_file)
        
        # Сохраните DataFrame в CSV файл с кодировкой UTF-8
        df.to_csv(output_file, index=False, encoding='utf-8')
        print(f"JSON файл успешно преобразован в CSV и сохранен как {output_file}")
    except Exception as e:
        print(f"Произошла ошибка при преобразовании: {e}")

        
# Пример использования функции
json_to_csv('input.json', 'output.csv')

Теперь, вызвав функцию json_to_csv с нужными параметрами, вы сможете легко преобразовать JSON файл в CSV файл.

Если вам была полезна эта информация, подписывайтесь, ставьте лайки и оставляйте комментарии!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии1

Приглашаем на новый бесплатный вебинар «Обработка потоков данных».

На вебинаре рассмотрим вопросы, связанные с созданием и обработкой потоков данных. А также познакомимся с Kafka и Spark Structured Streaming.

📅 Дата: 18.07.2024

⏰ Время: 17:00-19:30 (Мск)

На вебинаре:

✔️ Знакомство с Kafka

✔️ Передача сообщений

✔️ Чтение сообщений

✔️ Spark Structured Streaming

✔️ Окна в потоке

✔️ Соединения потоков 

✔️ Контроль времени

👨‍🎓 Спикер: Заигрин Вадим — опытный специалист  в области BigData.

⚡️Зарегистрироваться на вебинар⚡️

Вебинар относится к курсу «Современные подходы к управлению данными». Курс представляет обзор современных способов хранения данных, в том числе хранилищ ключ-значение, документно-ориентированных и потоковых систем управления базами данных, систем распределенного хранения и обработки данных. 

Старт новой группы — 5 августа. Оставить заявку на обучение можно по ссылке.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

💬 Привет всем, давно меня не было в уличных гонках! Кстати у меня есть телеграм канал, а вчера вышла статья на Хабр про графы в рексисе. Сегодня я хочу поделиться с вами подборкой книг, которые читал или читаю сам в течении последних 3 месяцец. Приятного чтения!

➡️ Recommender System Handbook Third Edition - Francesco Ricci, Lior Rokach, Bracha Shapira.
Эта книга – настоящая библия для всех, кто хочет понять, как работают рекомендательные системы. Авторы раскрывают все аспекты, от базовых алгоритмов до продвинутых техник, делая ее незаменимой как для новичков, так и для опытных профессионалов.

➡️ Machine Learning System Design Interview - Ali Aminian, Alex Xu.
Если вы готовитесь к интервью на позицию RecSys ML-инженера, то эта книга – ваш верный спутник. В ней собраны ключевые концепции и вопросы, которые помогут вам набрать базовое понимание по дизайну рекомендаций или поиска.

➡️ Machine Learning System Design With end-to-end examples - Valerii Babushkin, Arseny Kravchenko.
Практическое руководство, полное примеров от начала до конца, поможет вам научиться строить системы машинного обучения, особенно спасибо авторам за дизайн документы, которые я так люблю.

➡️ The Minimum Description Length Principle - Peter D Grunwald.
Эта книга глубоко погружает в теорию минимальной длины, который играет важную роль в статистическом моделировании и машинном обучении. Если вы любите копаться в основах и понять почему вообще машинное обучение работает — welcome.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Развертывание локальной версии нейросети LLaMA с использованием Docker

Привет! В этом руководстве я покажу, как в несколько команд развернуть локальную версию нейросети LLaMA на вашем компьютере или сервере (работает на Windows, macOS и любых дистрибутивах Linux).

Шаг 1: Установка Docker

Для начала, установите Docker. Новичкам рекомендуется установить Docker Desktop.

Шаг 2: Запуск Docker контейнера

Откройте консоль и выполните следующую команду:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Эта команда развернет локальный образ llama, который будет работать исключительно на вашем процессоре. Также существует вариант использования Nvidia GPU, с инструкциями можно ознакомиться здесь.

Шаг 3: Запуск языковой модели

Для запуска самой модели выполните команду:

docker exec -it ollama ollama run llama3:8b

Эта команда загрузит и запустит языковую модель llama3:8b (4.7GB). Также доступна более крупная версия llama3, 70b (40GB). Вы можете запускать и другие модели, список которых доступен здесь.

Чтобы запустить другую модель, используйте команду:

docker exec -it ollama ollama run model_name:tag

Интеграция в проекты

Использование языковой модели в таком формате может показаться неудобным. Более интересно интегрировать ее в свои проекты, например, в Telegram-бота с использованием Python.

Если вам интересно, как это сделать, подписывайтесь на меня. В следующем посте я покажу, как использовать локальную нейросеть (llama3) в Python проектах, включая создание Telegram-бота.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как ИИ-помощники захватывают мир.

Помните, как на прошедшем в мае Google I/O 2024 не было представлено ни одного нового устройства? Основной темой стал ИИ от Google – Gemini, мультимодальная LLM, эволюционировавшая из Bard.

И вот вышла новость: появление в сервисах от Google чат-бота на базе Gemini.

Российские сервисы не отстают от "корпорации добра".

У Яндекса подобный ассистент уже встроен в браузер и доступен всем желающим, зовется Нейро. Базируется на базе YaGPT2, который уже интегрирован в Алису, и скоро будет присутствовать во всех сервисах ИТ-гиганта.

Ключевой тренд – отказ от классических поисковиков, как устаревшего интерфейса взаимодействия с конечным пользователем, и полное его замещение интеллектуальным помощником по любым вопросам: от поиска информации, генерации мыслей, картинок до взаимодействия с физическим миром. IoT, умные устройства, заказы\доставки еды, такси, билетов.

Как все это повлияет на энтерпрайз-сегмент?

Cвязь вполне очевидная: популяризация носимых устройств и ассистентов в решении различных бытовых задач неминуемо создаст потребность в аналогичных сервисах и для решения рабочих вопросов.

Цифровые помощники грядут, и совсем скоро решения бизнес-задач на базе ИИ будут такими же обыденными, как оплата покупок по лицу. 

Ряд таких решений завтрашнего дня доступны уже сегодня. Об одним из них, умном BI-ассистенте, поговорим 4 июля на вебинаре “Сокращаем путь от данных к бизнес-решениям до секунд”.

Зарегистрироваться можно тут.

Теги:
Всего голосов 6: ↑4 и ↓2+4
Комментарии0

Наш вебинар, посвященный взаимодействию между Spark и Greenplum, прошел уже 2 недели назад. Но его запись останется с вами навечно! По крайней мере, пока не отключат всё электричество на планете.

? Посмотреть запись можно по ссылке: https://youtu.be/zIYUKB5960w

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Совместно с Игорем Котенковым подготовили для себя и для вас Бинго-карточку на предстоящую трансляции OpenAI, чтоб было интереснее наблюдать!


Что именно покажут на презентации не уточнялось, но по словам Sam. A.:
`not gpt-5, not a search engine, but we've been hard at work on some new stuff we think people will love! feels like magic to me`

В твиттере много отсылок к слову "magic" и слухов по поводу голосового помощника, модели связанной со звуком.

В своем канале я оставлю короткую выдержку новостей и о какой магии говорят в openai!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Подборка статей для Research MLE


Не так давно я для себя понял, насколько важно читать научные статьи в ML, но сталкиваешься с тем что только 20% статей дадут тебе 80% результата. В своем Notion я собрал небольшую подборку самых интересных и полезных статей по LLM и RecSys. (которая кстати пополняется)

NLP:
Там есть как классические статейки от w2v, attention, transformers, gpt, gpt2, ...
Так и популярные или не так давно вышедших peft, llama, reft

RecSys:
Стараюсь пополнять интересными статейками от топовых лабораторий Meta, Deezer, Spotify, Netflix, X, ... Или годными статья из NIPS или ACM

На некоторые из этих статей я собираюсь писать обзорчики на Habr, кстати недавно вот написал про персонализированный Cold Start в Deezer. Про некоторые я выложу просто Summary в свой телеграм канал или сделаю конспект в Notion.

Если вдруг вам захочется пополнить этот банк статей, то можете закинуть свои идеи вот сюда.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

??‍?Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

? Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
? С какими вызовами мы столкнулись при написании коннектора и как их решили.
? Цифры и результаты: что у нас получилось в итоге.
? Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

??Регистрация на вебинар доступна по ссылке зашитой в это предложение??

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз

Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мб/с на один сегмент Greenplum. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк. 

Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность, — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Свежие релизы наших продуктов и полезный контент в нашем ТГ-канале!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Ближайшие события

Приглашаем вас на вебинар, посвященный Apache Kafka – одной из самых популярных систем обработки потоков данных. Он будет интересен тем, кто интересуется разработкой программного обеспечения, архитектурой распределенных систем или просто хочет узнать больше о Kafka.

Содержание вебинара:
•  архитектура Apache Kafka;
•  ключевые сценарии использования;
•  работа с Kafka при помощи консольных клиентов;
•  написание базового клиента на языке программирования Java.

Дата: 29.02.2024
Время: 18:00 по МСК

Спикер вебинара: Михаил Благов – эксперт в области обработки данных и Big Data, тимлид с опытом работы более 10, из них 5 в области обработки данных и Big Data (Hadoop, Kafka, Spark).

Регистрация по ссылке.

Теги:
Рейтинг0
Комментарии0

Запускаем бесплатный курс по работе с Managed Service for Greenplum

Наша образовательная программа по работе с данными пополнилась курсом Managed Service for Greenplum на платформе Яндекс Практикум. Обучение рассчитано на Data-архитекторов, DevOps-инженеров, разработчиков и администраторов баз данных.

В курсе семь модулей. Вводные лекции дают общее представление о Greenplum и показывают, для каких задач он подходит. Вторая половина курса помогает решить более сложные прикладные задачи. Например, можно узнать, как проводить диагностику запросов, использовать разные опции хранения данных, загружать и выгружать данные с помощью внешних таблиц.

Курс научит:

  • создавать инсталляцию Greenplum на облачной платформе и работать с ней;

  • использовать особенности СУБД для эффективной работы с Managed Greenplum;

  • правильно писать и оптимизировать запросы с учетом специфики Greenplum;

  • разбираться в архитектуре Greenplum;

  • проектировать оптимальную физическую модель данных.

О программе:

  • Обучение рассчитано на 50–80 часов.

  • Курс состоит из двух частей: теории с закреплением в коротких квизах и самостоятельных практических заданий. Обе части не привязаны к расписанию — можно учиться когда угодно.

  • Все материалы доступны бесплатно.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0
BI Прожарка 2024
BI Прожарка 2024

Мы решили запустить проект по очистке BI игроков от лишнего маркетинга. Мы не будем глубоко расписывать плюсы платформ и наличие фичей, постараемся сосредоточиться на минусах с точки зрения бизнес-пользователя, ИТ сотрудника и безопасника.

Наша цель - акцентировать внимание вендоров на закрытие этих минусов. Рынок должен получать качественный отечественный продукт в понятные рынку сроки.

В наше поле зрение в этом году попадут такие платформы, как: Форсайт, Luxms, Alfa BI, Analytics Workspace, PIX BI, Visiology 3, Insight, Yandex DL, Modus.

Графика выпуска постов у нас не будет, мы постараемся делать один обзор в месяц, может быть чаще. Сейчас в нашей команде есть достаточное количество экспертов, которые знают эти продукты и/или имеют доступ к экспертам, которые очень хорошо знают эти платформы изнутри. Естественно, все это DataBanksy, никаких имен, только выводы и факты.

Как мы будем собирать информацию? Митапы, конференции, вебинары, телеграмм каналы, общение с клиентами, личный опыт, отзывы в интернет, мнения конкурентов, мнения экспертов, рейтинги и т. п. Источников достаточно для того, чтобы сделать определенные выводы. Можно написать нам и прислать свою точку зрения, мы постараемся ее учесть. Ну и контрольная закупка, будте готовы к этому господа вендоры?

Материальное вознаграждение нам не интересно. Наша цель - сделать мир BI прозрачным для Вас! Проведем очистку данных о вендорах 2024!

3, 2, 1 начинаем…

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0
Если бы Гартнер стал русским…февраль 2024
Если бы Гартнер стал русским…февраль 2024

Мы уже писали большой текст про рейтинги и наше отношение к ним, но начало года стало очень горячим, начали обсуждать свежие рейтинги от интернет изданий и частных экспертов, выпускать подкасты и зазывать на круглые столы ( «везде инфа сотка конечно же»). И мы решили дать рынку свою картину на сегодня, ответив на вопрос - как выглядел бы Гартнер в России в 2024 году.

Естественно мы понижаем планку для всех участников, чтобы соблюсти масштаб. Пока никто даже близко не приблизился к лидерам по Гартнеру, но работы проделали действительно много. По лидерам в нашей версии можем точно сказать, что у них иксы в скорости разработки продукта. У них отличный агрессивный маркетинг! Главное, чтобы вся эта гонка не превратилась в грязную игру, когда клиентам начинают лить дезу про конкурента.

Мы выделяем 4 платформы лидера на сегодня: Модус, Визиолоджи ( извините ребята, но пока только 2 версия!), PIX BI и дедушку Форсайт. Считаем, что к ним может ворваться AW в обозримой перспективе, Барс со своими историческими заходами в рынок точно найдет пару знатных клиентов и ребята раскроют свой потенциал.

Догоняет лидеров Яндекс DL, но пока там свой сегмент рынка с моделью аля Гугл. Люкс мс и Альфу относим в сектор Визионеров. Первые идут больше путем замены оракла. Вторые работаю с крупным бизнесом, кстати в годовом отчете от люксов ни одного нового имени не прозвучало. Жаль.

Остальные платформы пока в нишевых. Надо больше витаминов кушать в этом году им.

Осенью посмотрим, что изменится в рынке!

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Хабр, привет!

Хотим напомнить, что сегодня в 11:00 МСК у нас пройдет вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора». Расскажем, как правильно собирать и удалять мусор в реляционных СУБД вообще и в Greenplum в частности.

?‍? Спикеры:

Алексей Пономаревский, ведущий администратор БД ITSumma
Иван Хозяинов, руководитель направления больших данных ITSumma

? О чём:

Вакуумирование данных и для чего оно нужно
Инструменты и специфика вакуумирования в Greenplum
Мониторинг раздутых таблиц и стратегии вакуумирования
Решения и практики, которые минимизируют возможные проблемы

Регистрация: https://clck.ru/38NWH7

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Доброго времени суток, сообщество Хабра!

На днях вышла статья, где мной проводился анализ задач через API Codewars. Для тех, кто не успел ознакомиться, можно пройти по ссылке: https://habr.com/ru/articles/783326/

В данной статье был проведён опрос, результаты которого определили, что сообщество желает посмотреть решение задачи в GitHub.

Поэтому сюда прикрепляю ссылку GitHub репозитория с анализом статистических данных CodeWars: https://github.com/Dess1996/CodeWarsStat/blob/main/Katas.ipynb

Благодарю всех, кто принял участие в опросе.

До новых встреч!

Теги:
Рейтинг0
Комментарии0

Свежие рейтинги платформ BI или это что-то новое?

Несколько дней назад наша команда увидела интересный, назовем это словом «слив», в одном из профильных телеграмм каналов. Речь идет о круге Громова и о ее части, связанной с выполнением вендорами конкретного технического задания. Судя по картинке, есть те кто справился с задачей на 5+, а есть те, кто вроде бы входит в топ 5 платформ, но при этом задачу решил на троечку. Как такое возможно? Науке пока неизвестно, пока есть только цифры!

Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ
Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ

Попробуем в этом позже разобраться. А пока очень интересная расстановка сил. Не увидели ребят из Яндекс и огорчились сильно низкой позицией Визиолоджи, неужели рисковали и делали пилот на сыроватой третьей версии? С другой стороны радует готовность платформ и уровень команд от PIX, Альфа и Cubisio.

Попробуем позже получить доступ к полному отчету и посмотрим, какова расстановка в самом круге! Всех с наступающими длинными праздниками!

Теги:
Рейтинг0
Комментарии0

Вклад авторов