Обновить
79.5

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Data Ocean Nova. Next-gen платформа данных класса Lakehouse.

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Data Lakehouse (Gemeni AI Generated)
Data Lakehouse (Gemeni AI Generated)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство

Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве

MeetUP делится на два блока:
1️⃣ Технологии и 2️⃣ Бизнес. Мы ждем специалистов обоих треков!

А вас ждут:

🟢выступления практикующих AI-инженеров
🟢инструменты создания GenAI-приложений
🟢актуальные стратегии на рынке и реальные кейсы МегаФона, Яндекс Крауд, JSA Group и SberDevices

Узнать расписание и зарегистрироваться

Количество мест ограничено!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Хабр, привет!

Зовём вас встретиться и поговорить про Data Build Tool.

8 октября, то есть завтра вечером, соберёмся с Николаем Марковым, Data Platform Lead в Altenar, и Евгением Ермаковым, руководителем платформы данных в Toloka, и вместе обсудим:

➡ Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
➡ Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
➡ Как разные компании и команды применяют DBT для решения задач Data Governance?

Поговорим про особенности DBT, его преимущества, потенциальные сложности и ограничения, а также — про реальный опыт использования DBT в Toloka.

⭐ Когда: завтра, 8 октября в 19:00 мск
⭐ Регистрация — через бота.

Приходите!

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии1

Больше чем Pandas: библиотеки подготовки данных для ML-моделей

А завтра, 24 сентября, зовём вас на открытый вебинар с Владимиром Бугаевским, тимлидом команды Поиска в Купере.

Встретимся и вместе разберём:

→ на что стоит обратить внимание для эффективной работы с данными;
→ форматы работы с данными и их особенности;
→ фреймворки pandas, swifter, polars, dask и cudf.

Будем не только слушать, но сразу ещё и делать — для этого все участники получат доступ к jupyter-ноутбукам.

🖍 24 сентября в 19:00 мск
🖍 Регистрация — в нашем боте

Приходите!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0
Где поучиться BI этой осенью бесплатно
Где поучиться BI этой осенью бесплатно

Сентябрь в самом разгаре! Последние теплые дни четвертого месяца лета. То самое время, когда на улице жарко, а в цифровом пространстве всё просто кипит! Сегодня небольшой информационный пост о том, где можно сейчас бесплатно поучиться премудростям BI.

  1. Пиксы запустили Цифровой триатлон. Каждую неделю идет трек по одной из платформ. На этой неделе экватор по PIX BI. Много экспертов, много мнений, весь контент очень сильно связан с ex Qlik тусовкой. Клиенты, эксперты, организаторы - все когда то занимались, внедряли, обучали Qlik. Такое импортозамещение даже получается. https://triathlon.pix.ru Информацию кидают в группу в телеге: https://t.me/BI_PIX_Chat Плюс компания анонсировала БЕСПЛАТНУЮ персональную редакцию своей платформы. Надеемся это не разводняк! 

  2. Коллеги из Глобайт привезли Азиатский вариант марафона. Ретрит по теме Fine Bi. Вся информационная поддержка идет в группе https://t.me/FineBIChat в разбивке по темам. Много интересного, новые фичи, опыт клиентов. Классика марафонов от Дата Йога.

  3. AW запустили на наш взгляд тяжелую, но очень интересную историю для конкретной группы продвинутых аналитиков. Все подробности в группе https://t.me/awcommunity такой марафон, который перетекает в хакатон и заканчивается собственной конференцией в Москве. 

Отличная возможность попробовать три разных блюда, не выходя из дома! Вперед к новым знаниям!

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Чем занимается BI в финтехе

Привет, меня зовут Саша Матвеев, я руковожу департаментом аналитики данных в ЮMoney. Кратко расскажу о трёх наших самых крупных ML-проектах.👌

В чём между ними разница? ↓
В чём между ними разница?

BI-разработчик занимается поставкой данных как IT-cервис. Он предоставляет данные, доступные для анализа и упакованные в аналитические продукты. Аналитик данных извлекает смыслы из данных, полученных от BI-разработчиков, и обрабатывает их.

Наши ML-проекты:

●  Прогноз LTV кошельков. В продуктовой аналитике есть важный показатель — LTV: сколько денег принесёт пользователь за всё время, пока пользуется продуктом. Мы стараемся понять это как можно раньше — на основе нескольких месяцев использования предсказываем, сколько дохода принесёт пользователь за один и два года. Это помогает определить, какой пользователь перед нами, и принимать решения.

●  Предсказание оттока кошельков и мерчантов. Иногда пользователи «замирают» — не делают никаких действий после того, как завели кошелёк или подключили магазин к ЮKassa. BI помогает продуктовым командам спрогнозировать поведение таких пользователей.

●  Классификация сайта мерчанта при бординге в ЮKassa. К ЮKassa ежедневно подключаются новые магазины (мерчанты), а наши менеджеры решают, к какой категории их отнести. Чтобы ускорить выход всех магазинов в платежи, нам нужен был      механизм, который может определить группу мерчанта без участия менеджера. Команда BI создала ML-классификатор, который умеет делать это быстро, что позволяет магазинам быстрее подключаться к ЮKassa.

Теги:
Всего голосов 3: ↑2 и ↓1+5
Комментарии0

Этой осенью Okko приглашает тебя провести вечер в компании экспертов в области работы с данными в развлекательных продуктах и сервисах: KION, Иви, START и ВК Музыка. Митап пройдет в гибридном формате: офлайн в Stand Up Store и онлайн.

https://okko-2024.timepad.ru/event/3010295/

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Простой способ конвертации файлов JSON в CSV через Python

Для конвертации файлов JSON в CSV через Python существует удобный способ с использованием библиотеки pandas.

Если у вас еще не установлена библиотека pandas, установите ее с помощью pip:

pip install pandas

Далее напишем функцию, которая будет принимать на вход путь к JSON файлу и имя выходного CSV файла. Эта функция выполнит преобразование с помощью pandas.

import pandas as pd


def json_to_csv(input_file, output_file):
    try:
        # Прочитайте JSON файл в DataFrame
        df = pd.read_json(input_file)
        
        # Сохраните DataFrame в CSV файл с кодировкой UTF-8
        df.to_csv(output_file, index=False, encoding='utf-8')
        print(f"JSON файл успешно преобразован в CSV и сохранен как {output_file}")
    except Exception as e:
        print(f"Произошла ошибка при преобразовании: {e}")

        
# Пример использования функции
json_to_csv('input.json', 'output.csv')

Теперь, вызвав функцию json_to_csv с нужными параметрами, вы сможете легко преобразовать JSON файл в CSV файл.

Если вам была полезна эта информация, подписывайтесь, ставьте лайки и оставляйте комментарии!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии1

Приглашаем на новый бесплатный вебинар «Обработка потоков данных».

На вебинаре рассмотрим вопросы, связанные с созданием и обработкой потоков данных. А также познакомимся с Kafka и Spark Structured Streaming.

📅 Дата: 18.07.2024

⏰ Время: 17:00-19:30 (Мск)

На вебинаре:

✔️ Знакомство с Kafka

✔️ Передача сообщений

✔️ Чтение сообщений

✔️ Spark Structured Streaming

✔️ Окна в потоке

✔️ Соединения потоков 

✔️ Контроль времени

👨‍🎓 Спикер: Заигрин Вадим — опытный специалист  в области BigData.

⚡️Зарегистрироваться на вебинар⚡️

Вебинар относится к курсу «Современные подходы к управлению данными». Курс представляет обзор современных способов хранения данных, в том числе хранилищ ключ-значение, документно-ориентированных и потоковых систем управления базами данных, систем распределенного хранения и обработки данных. 

Старт новой группы — 5 августа. Оставить заявку на обучение можно по ссылке.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

💬 Привет всем, давно меня не было в уличных гонках! Кстати у меня есть телеграм канал, а вчера вышла статья на Хабр про графы в рексисе. Сегодня я хочу поделиться с вами подборкой книг, которые читал или читаю сам в течении последних 3 месяцец. Приятного чтения!

➡️ Recommender System Handbook Third Edition - Francesco Ricci, Lior Rokach, Bracha Shapira.
Эта книга – настоящая библия для всех, кто хочет понять, как работают рекомендательные системы. Авторы раскрывают все аспекты, от базовых алгоритмов до продвинутых техник, делая ее незаменимой как для новичков, так и для опытных профессионалов.

➡️ Machine Learning System Design Interview - Ali Aminian, Alex Xu.
Если вы готовитесь к интервью на позицию RecSys ML-инженера, то эта книга – ваш верный спутник. В ней собраны ключевые концепции и вопросы, которые помогут вам набрать базовое понимание по дизайну рекомендаций или поиска.

➡️ Machine Learning System Design With end-to-end examples - Valerii Babushkin, Arseny Kravchenko.
Практическое руководство, полное примеров от начала до конца, поможет вам научиться строить системы машинного обучения, особенно спасибо авторам за дизайн документы, которые я так люблю.

➡️ The Minimum Description Length Principle - Peter D Grunwald.
Эта книга глубоко погружает в теорию минимальной длины, который играет важную роль в статистическом моделировании и машинном обучении. Если вы любите копаться в основах и понять почему вообще машинное обучение работает — welcome.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Развертывание локальной версии нейросети LLaMA с использованием Docker

Привет! В этом руководстве я покажу, как в несколько команд развернуть локальную версию нейросети LLaMA на вашем компьютере или сервере (работает на Windows, macOS и любых дистрибутивах Linux).

Шаг 1: Установка Docker

Для начала, установите Docker. Новичкам рекомендуется установить Docker Desktop.

Шаг 2: Запуск Docker контейнера

Откройте консоль и выполните следующую команду:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Эта команда развернет локальный образ llama, который будет работать исключительно на вашем процессоре. Также существует вариант использования Nvidia GPU, с инструкциями можно ознакомиться здесь.

Шаг 3: Запуск языковой модели

Для запуска самой модели выполните команду:

docker exec -it ollama ollama run llama3:8b

Эта команда загрузит и запустит языковую модель llama3:8b (4.7GB). Также доступна более крупная версия llama3, 70b (40GB). Вы можете запускать и другие модели, список которых доступен здесь.

Чтобы запустить другую модель, используйте команду:

docker exec -it ollama ollama run model_name:tag

Интеграция в проекты

Использование языковой модели в таком формате может показаться неудобным. Более интересно интегрировать ее в свои проекты, например, в Telegram-бота с использованием Python.

Если вам интересно, как это сделать, подписывайтесь на меня. В следующем посте я покажу, как использовать локальную нейросеть (llama3) в Python проектах, включая создание Telegram-бота.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как ИИ-помощники захватывают мир.

Помните, как на прошедшем в мае Google I/O 2024 не было представлено ни одного нового устройства? Основной темой стал ИИ от Google – Gemini, мультимодальная LLM, эволюционировавшая из Bard.

И вот вышла новость: появление в сервисах от Google чат-бота на базе Gemini.

Российские сервисы не отстают от "корпорации добра".

У Яндекса подобный ассистент уже встроен в браузер и доступен всем желающим, зовется Нейро. Базируется на базе YaGPT2, который уже интегрирован в Алису, и скоро будет присутствовать во всех сервисах ИТ-гиганта.

Ключевой тренд – отказ от классических поисковиков, как устаревшего интерфейса взаимодействия с конечным пользователем, и полное его замещение интеллектуальным помощником по любым вопросам: от поиска информации, генерации мыслей, картинок до взаимодействия с физическим миром. IoT, умные устройства, заказы\доставки еды, такси, билетов.

Как все это повлияет на энтерпрайз-сегмент?

Cвязь вполне очевидная: популяризация носимых устройств и ассистентов в решении различных бытовых задач неминуемо создаст потребность в аналогичных сервисах и для решения рабочих вопросов.

Цифровые помощники грядут, и совсем скоро решения бизнес-задач на базе ИИ будут такими же обыденными, как оплата покупок по лицу. 

Ряд таких решений завтрашнего дня доступны уже сегодня. Об одним из них, умном BI-ассистенте, поговорим 4 июля на вебинаре “Сокращаем путь от данных к бизнес-решениям до секунд”.

Зарегистрироваться можно тут.

Теги:
Всего голосов 6: ↑4 и ↓2+4
Комментарии0

Наш вебинар, посвященный взаимодействию между Spark и Greenplum, прошел уже 2 недели назад. Но его запись останется с вами навечно! По крайней мере, пока не отключат всё электричество на планете.

? Посмотреть запись можно по ссылке: https://youtu.be/zIYUKB5960w

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Ближайшие события

Совместно с Игорем Котенковым подготовили для себя и для вас Бинго-карточку на предстоящую трансляции OpenAI, чтоб было интереснее наблюдать!


Что именно покажут на презентации не уточнялось, но по словам Sam. A.:
`not gpt-5, not a search engine, but we've been hard at work on some new stuff we think people will love! feels like magic to me`

В твиттере много отсылок к слову "magic" и слухов по поводу голосового помощника, модели связанной со звуком.

В своем канале я оставлю короткую выдержку новостей и о какой магии говорят в openai!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Подборка статей для Research MLE


Не так давно я для себя понял, насколько важно читать научные статьи в ML, но сталкиваешься с тем что только 20% статей дадут тебе 80% результата. В своем Notion я собрал небольшую подборку самых интересных и полезных статей по LLM и RecSys. (которая кстати пополняется)

NLP:
Там есть как классические статейки от w2v, attention, transformers, gpt, gpt2, ...
Так и популярные или не так давно вышедших peft, llama, reft

RecSys:
Стараюсь пополнять интересными статейками от топовых лабораторий Meta, Deezer, Spotify, Netflix, X, ... Или годными статья из NIPS или ACM

На некоторые из этих статей я собираюсь писать обзорчики на Habr, кстати недавно вот написал про персонализированный Cold Start в Deezer. Про некоторые я выложу просто Summary в свой телеграм канал или сделаю конспект в Notion.

Если вдруг вам захочется пополнить этот банк статей, то можете закинуть свои идеи вот сюда.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

??‍?Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

? Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
? С какими вызовами мы столкнулись при написании коннектора и как их решили.
? Цифры и результаты: что у нас получилось в итоге.
? Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

??Регистрация на вебинар доступна по ссылке зашитой в это предложение??

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз

Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мб/с на один сегмент Greenplum. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк. 

Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность, — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Свежие релизы наших продуктов и полезный контент в нашем ТГ-канале!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Приглашаем вас на вебинар, посвященный Apache Kafka – одной из самых популярных систем обработки потоков данных. Он будет интересен тем, кто интересуется разработкой программного обеспечения, архитектурой распределенных систем или просто хочет узнать больше о Kafka.

Содержание вебинара:
•  архитектура Apache Kafka;
•  ключевые сценарии использования;
•  работа с Kafka при помощи консольных клиентов;
•  написание базового клиента на языке программирования Java.

Дата: 29.02.2024
Время: 18:00 по МСК

Спикер вебинара: Михаил Благов – эксперт в области обработки данных и Big Data, тимлид с опытом работы более 10, из них 5 в области обработки данных и Big Data (Hadoop, Kafka, Spark).

Регистрация по ссылке.

Теги:
Рейтинг0
Комментарии0

Запускаем бесплатный курс по работе с Managed Service for Greenplum

Наша образовательная программа по работе с данными пополнилась курсом Managed Service for Greenplum на платформе Яндекс Практикум. Обучение рассчитано на Data-архитекторов, DevOps-инженеров, разработчиков и администраторов баз данных.

В курсе семь модулей. Вводные лекции дают общее представление о Greenplum и показывают, для каких задач он подходит. Вторая половина курса помогает решить более сложные прикладные задачи. Например, можно узнать, как проводить диагностику запросов, использовать разные опции хранения данных, загружать и выгружать данные с помощью внешних таблиц.

Курс научит:

  • создавать инсталляцию Greenplum на облачной платформе и работать с ней;

  • использовать особенности СУБД для эффективной работы с Managed Greenplum;

  • правильно писать и оптимизировать запросы с учетом специфики Greenplum;

  • разбираться в архитектуре Greenplum;

  • проектировать оптимальную физическую модель данных.

О программе:

  • Обучение рассчитано на 50–80 часов.

  • Курс состоит из двух частей: теории с закреплением в коротких квизах и самостоятельных практических заданий. Обе части не привязаны к расписанию — можно учиться когда угодно.

  • Все материалы доступны бесплатно.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0
BI Прожарка 2024
BI Прожарка 2024

Мы решили запустить проект по очистке BI игроков от лишнего маркетинга. Мы не будем глубоко расписывать плюсы платформ и наличие фичей, постараемся сосредоточиться на минусах с точки зрения бизнес-пользователя, ИТ сотрудника и безопасника.

Наша цель - акцентировать внимание вендоров на закрытие этих минусов. Рынок должен получать качественный отечественный продукт в понятные рынку сроки.

В наше поле зрение в этом году попадут такие платформы, как: Форсайт, Luxms, Alfa BI, Analytics Workspace, PIX BI, Visiology 3, Insight, Yandex DL, Modus.

Графика выпуска постов у нас не будет, мы постараемся делать один обзор в месяц, может быть чаще. Сейчас в нашей команде есть достаточное количество экспертов, которые знают эти продукты и/или имеют доступ к экспертам, которые очень хорошо знают эти платформы изнутри. Естественно, все это DataBanksy, никаких имен, только выводы и факты.

Как мы будем собирать информацию? Митапы, конференции, вебинары, телеграмм каналы, общение с клиентами, личный опыт, отзывы в интернет, мнения конкурентов, мнения экспертов, рейтинги и т. п. Источников достаточно для того, чтобы сделать определенные выводы. Можно написать нам и прислать свою точку зрения, мы постараемся ее учесть. Ну и контрольная закупка, будте готовы к этому господа вендоры?

Материальное вознаграждение нам не интересно. Наша цель - сделать мир BI прозрачным для Вас! Проведем очистку данных о вендорах 2024!

3, 2, 1 начинаем…

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Вклад авторов