Как стать автором
Обновить
120.09

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Как я снова отравилась из-за океана — и при чём тут аналитика данных

  1. Температура, тошнота, диарея — это происходит со мной каждый раз после серфинга в дождливый сезон, когда в море сливается всё, что угодно — от мусора до банальных 💩.

  2. В северной части Тихого океана, на полпути между Гавайями и Калифорнией, вращается 100 000 тонн пластикового мусора. Добро пожаловать в Большое мусорное пятно — область, втрое больше Франции. Оно выглядит так же катастрофично, как и звучит: сверху напоминает гигантский пластиковый суп.

И это лишь 2 примера, подтверждающие: мусор в океане — это глобальный кризис, а не локальная история. Скоро мы вообще не зайдём в океан?

Ежегодно в океаны, реки и озёра попадает 19–23 млн тонн пластика — как если бы каждую минуту в воду сбрасывали 2 000 мусоровозов.

На поверхности океанов плавает около 170 трлн пластиковых частиц, а на дне может быть в 10 000 раз больше.

Ежегодно из-за мусора в океане погибают 100 миллионов морских животных. Страдают и морские растения, которые участвуют в производстве 70% кислорода.

В исследовании микропластик нашли в 99% морепродуктов. Это вызывает тревогу из-за возможного влияния на пищеварительную, эндокринную и другие системы организма.

Все ссылки на исследования опубликовала тут.

Чем помогает аналитика в этой проблеме?

В мире есть некоммерческие и частные организации, борющиеся с загрязнением. Например, The Ocean Cleanup очищает океаны от пластика с помощью инновационных технологий.

1. Определяют источники загрязнения, чтобы “поймать проблему на старте”

💡 80% пластика попадает в океан через ~1000 рек.

Чтобы найти эти «артерии загрязнения», анализируют спутниковые данные, гидрологические карты, поведение мусора в воде, данные о населении и инфраструктуре. Это позволяет не просто «ловить мусор в океане», а перехватывать его у истока — в реках.

2. Предсказывают, куда поплывёт мусор, чтобы точнее планировать очистку

— Камеры на мостах фиксируют мусор в реках
— GPS-буи и радары отслеживают его путь в океане
— ИИ-модели показывают, где и когда он соберётся в “мусорные вихри”

Это помогает запускать очистку точно там и тогда, где она даст максимальный эффект.

3. Визуализация, которая не оставляет равнодушным

Цифры — это важно, но именно визуализация заставляет почувствовать масштаб. Данные превращают в наглядные дашборды, которые:
— Показывают, где океан «захлёбывается» от пластика
— Делают проблему видимой и понятной
— Помогают влиять на решения политиков и доноров

Дашборды по загрязнению пластиком можно посмотреть тут.

4. Прогнозы на будущее и машинное обучение

Чтобы не просто тушить пожары, а предотвращать их, аналитики обучают модели, которые помогают заглянуть вперёд:
— Что будет с океаном, если мы продолжим жить «как обычно»?
— А что изменится, если сократим пластик хотя бы на 20%?
— Где появятся новые точки бедствия через 5 лет?

Такие организации нанимают аналитиков данных и стажёров — есть вакансии по визуализации, машинному обучению, компьютерному зрению, анализу временных рядов (ссылки на вакансии опубликовала тут).

Или можно стать гражданским учёным и внести свой вклад, документируя пластиковое загрязнение с помощью специальных приложений (Ocean Cleanup Survey App или Debris Tracker).

Теги:
+6
Комментарии2

Эффективная аналитика данных: GlowByte представит кейс METRO C&C на Russian Retail Show 2025

GlowByte выступит серебряным партнером Russian Retail Show 2025. Максим Серов, Head of BI and Integration в METRO C&C, и Александр Брежнев, руководитель отдела продаж BI-решений в GlowByte, станут спикерами секции PRODATA 23 апреля.

Эксперты поделятся историей "Выбор BI-платформы: ставка на эффективность", в которой расскажут о платформе для самостоятельного анализа данных FineBI, позволяющей бизнес-пользователям без глубоких технических знаний проводить сложные аналитические операции.

В рамках презентации будут затронуты особенности ИТ-ландшафта METRO C&C – компании с 93 торговыми точками в 51 регионе России, и вызовы, с которыми столкнулись специалисты при построении гомогенной аналитической платформы.

Также вы узнаете об уникальном подходе GlowByte к пилотным проектам, который позволяет за 1,5-2 месяца провести полноценное тестирование BI-системы и принять взвешенное решение о внедрении без значительных затрат ресурсов.

Выступление состоится в зале "ЭФФЕКТИВНОСТЬ". Будем рады встретиться, пообщаться и ответить на ваши вопросы на Russian Retail Show 2025!

Теги:
+2
Комментарии0

Хабр, привет!

Завтра, 22 апреля, в 09:00 мск стартует ArenaDAY 2025 — крупнейшая конференция по управлению данными и аналитике. Мы понимаем, что в будний день не у всех получится включить видеотрансляцию, поэтому запускаем текстовую онлайн-трансляцию.

Вас ждёт:

  • Шесть тематических секций: «Бизнес-кейсы», «Продукты», «Гибридное хранилище», «Будущее», Data Governance и Investor Day; отдельная демозона с живыми показами решений и экосистемы Arenadata.

  • Кейсы от ВТБ, «Газпромнефти», МКБ, «Росатома», «Северстали», «МегаФона» и других лидеров.

  • Интерактивы и розыгрыши.

Сохраните этот пост в закладки — ровно в 09:00 здесь появится ссылка на текстовую трансляцию ArenaDAY. До встречи в онлайне!

 Ссылка на трансляцию: https://habr.com/ru/companies/arenadata/articles/902964/

Теги:
0
Комментарии0

Приключение Запроса в Царстве Данных: Как CATALIST Провёл SELECT через Опасности Оптимизации

Привет, друзья! С тех пор, как в моей жизни появился маленький человечек, я погрузился в мир сказок — читаю их каждый вечер. И вот подумал: а что, если оживить сухие технические термины через волшебные метафоры? Так родилась «Приключение SELECT в Царстве Данных» — история о том, как запрос проходит путь от строки кода до результата, встречая на пути оптимизаторов, шардинг-великанов и магию Catalyst’а.

О чём эта сказка?

  • Как CATALIST (наш рыцарь-оптимизатор) сражается с неэффективными планами.

  • Почему Shuffle — это бурная река, которую нельзя пересечь вброд.

  • Зачем Skew-великана нужно посыпать «солью».

Это не просто фантазия — под метафорами спрятаны реальные процессы Spark: парсинг, predicate pushdown, broadcast join и борьба с skew-данными.

1. Врата Валидации: "Ты ли ты?"
Запрос select id, name, s.salary from users u inner join salaries s where u.part_date = '2025-01-01' робко постучался в высокие врата Царства Данных. Стражник CATALIST в доспехах из кода Scala встретил его:
"Покажи свои намерения! Где твои таблицы? Совпадают ли имена колонок?"

SELECT дрожа протянул:
"Я ищу id, name из users и salary из salaries... И только за 2025-01-01!"

CATALIST раскрыл древний свиток Catalog:
— «users и salaries есть в хранилище. Но part_date… А, это партиция! Проходи, но держись пути — дальше Лес Логических Преобразований

Стражник толкнул тяжёлые врата, и запрос шагнул в густой лес, где деревья-операции сплетались в непролазные дебри.

2. Лес Логических Преобразований: "Сруби лишнее!"

Ветви операций JOIN и Filter обвивали тропу. CATALIST вынул топор Predicate Pushdown:
— «Фильтр по дате должен быть ближе к users! Зачем ждать JOIN?»

Удар! Дерево плана рухнуло, открыв путь:

TEXTJOIN  
  → Scan users (part_date = '2025-01-01')  // Фильтр переместился сюда!  
  → Scan salaries  

— «Теперь к Реке Shuffle! Но берегись — она бурная!»

Они вышли к бурлящей реке, где волны данных сталкивались в хаосе.

3. Река Shuffle: "Выбери правильный мост!"

— «Как перейти? — испугался SELECT. — Здесь же все утонем!»

CATALIST достал карту Статистики:
— «users после фильтра — 10 тыс. строк, salaries — миллион. Мост BroadcastJoin выдержит!»

Магический мост вспыхнул, соединив берега. Данные salaries превратились в светящиеся шары и разлетелись к исполнителям.

— «Вперёд, к Горам Физического Плана! Там рождается настоящая сила!»

За холмом возвышались остроконечные пики, где гномы-компиляторы ковали байт-код.

4. Горы Физического Плана: "Куй быстрее, куй умнее!"

В пещере Tungsten гномы кричали:
— «Никаких Java-объектов! Только примитивы!»

CATALIST бросил им логический план:
— «Превратите это в код! Да будет векторизация!»

Молоты застучали:

JAVAif (row.getDate(3) == 2025-01-01) {  // Фильтр по part_date  
  emit(row.getInt(0), row.getString(1));  // id и name  
}  

— «Теперь — в Долину Исполнения, где задачи становятся результатом!»

Они спустились в зелёную долину, где партиции данных складывались в аккуратные стопки.

5. Долина Исполнения: "Собери пазл!"

Исполнители в синих мантиях хватали партиции и кричали:
— «Task 1 готов! Task 2 завершён!»

Но вдруг из-за скалы выполз Skew-великан с мешком, где 90% данных висело на одном плече:
— «Не пройдёте! Разорву ваши партиции!»

CATALIST рассыпал волшебную Соль:
— «Пусть каждый ключ обретет случайный суффикс!»

Великан взревел и рассыпался на сотни мелких духов. Shuffle-река успокоилась.

6. Финал: "Свет знаний"

На краю долины ждал ResultTask с золотым свитком:
— «Данные собраны! Вот твой результат: /data/output/part-0000.snappy.parquet».

CATALIST кивнул:
— «Запомни: без Catalog — ты слеп, без оптимизаций — медлен, а без борьбы с skew — обречён!»

Мораль:
Даже самый простой запрос — это путешествие через:

  1. Валидацию (что ты есть?),

  2. Логические преобразования (как сократить путь?),

  3. Физический план (как сделать быстро?),

  4. Исполнение (как не утонуть в данных?).

🔗 Каждый этап связан: нельзя прыгнуть в реку Shuffle, не построив мост из физического Join, и не победить Skew-великана

Теги:
-1
Комментарии0

Регистрируйтесь на Fine Day 2025 в GlowByte: Как избежать скрытых расходов при внедрении BI?

Внедрение бизнес-аналитики (BI) — это не просто покупка инструмента, а долгосрочная инвестиция. Но знаете ли вы, сколько на самом деле тратит ваша компания на поддержку и развитие BI-системы?

Друзья, 17 апреля в 16:00 (МСК) GlowByte проведет ежегодную онлайн-конференцию, посвященную реальной стоимости BI-решений. Приглашаем всех, кто хочет оптимизировать затраты на BI!

Что обсудим?

Скрытые расходы: какие неочевидные траты есть в BI-проектах и как их избежать?
Self-service BI: как оценить эффективность и снизить стоимость владения?
Реальные кейсы: опыт компаний, уже внедривших BI.

Где прячутся переплаты?

BI помогает бизнесу расти, но неконтролируемые затраты могут свести пользу на нет. На конференции разберем вопросы:
- Как оценить реальную цену данных.
- Оптимизация расходов без потери качества аналитики.
- Ошибки, которые удорожают BI-проекты.
- Успешный опыт компаний.

Почему стоит участвовать?

 Вас ждут кейсы топ-компаний:

  • Альфа-Лизинг – Реальная стоимость данных: за что платит бизнес?

  • Газпромбанк – BI: центр затрат или источник экономии? Опыт интеграции FineBI с Service Desk.

  • СИБУР – Self-service BI: как контролировать расходы.

  • t2 – Как не уйти в минус при внедрении BI?

Будут только практические решения – реальный опыт, без воды.
Бонусы для участников: GlowByte предоставит чек-лист «BI без переплат», сделает запись эфира, и вы получите возможность задать вопросы спикерам.

Участие бесплатное! Регистрация по ссылке.

Будет круто и очень полезно, подключайтесь!

Теги:
+2
Комментарии0

Друзья инженеры, разработчики пишу в Вашу поддержку честный отзыв о наших соотечественниках.

НАБОЛЕЛО!!!!

Что бы вы не сделали, диванным критикам просто до одного места! Даже диван на котором он лежит это тоже Г-но потому, что болит левая пятка.

Семь лет назад нам нужен был промышленный компьютер (1000 штук), который бы собрал данные через промышленные протоколы и отправил их в облачную платформу с бюджетом до 15к (400 баксов) рублей на то время.

По какой то причине мы не заметили контроллер Wirenboard 6 (на процессоре NXP который покрывал все наши задачи) и начали разработку своего устройства AntexGate на базе Raspberry cm3 (теперь уже на Raspberry CM4 )


Сколько же хейта мы услышали в инфополе в свой адрес, но чем больше критики тем больше тебя узнают и покупают.

Мы тратим много сил и средств, чтобы развивать свой продукт и поддержку, отвечаем в Телеграм канале почти круглосуточно на вопросы.

Имея таких конкурентов как Wirenboard, ОВЕН, RealLab, Siemens .... мы нашли своих клиентов и продаем в год более 700 компьютеров.

Мы заморозили свое прибор до -65 (легко запустился на таком морозе), нагрели до +101 (на 102гр выключился).
Все равно получаем каждый день отзывы: "Вы просто засунули малину в свое коробку!"
Нет не просто! Мы угрохали более 5 лет жизни небольшой команды на то, чтобы это все работало - "Так как должно!" Перебрали рефенсные схемы самых именитых Европейских производителей под свои реалии.


Теперь про миллионы - чтобы развиваться у нас уходит почти вся наша прибыть не в карман, а в разработку новых приборов и поддержку уже имеющегося, однако никто в команде не жалуется на свою ЗП и мы стараемся чтобы она росла.


Я желаю пройти каждому разработчику правильный путь и по возможности сделать свое решение на сколько можно.
Я надеюсь, что оттепель настанет в нашей стране и появятся действительно Росcийские процессоры и другая элементная база, а пока увы Broadcom, Raspberry, NXP да на худой конец RockChip главное что-то делать и с голоду не умереть.


Уважаемые инженеры - разрабы, присоединяйтесь к нашему каналу в телеге мы ответим на любой вопрос (как сделать корпус, выбор источника питания и тд..), поможем и поддержим, дадим ответ на любой вопрос не только по прибору, но и любой другой.
Спасибо за внимание.

Теги:
+16
Комментарии10

Петля времени в пайплайне для уменьшения числа галлюцинаций в LLM

Это — грубая схема работа RAG-пайплайна, который использует одна из ML-команд в YADRO.

Задача команды: улучшить качество выдаваемых ответов на запросы пользователей, исключив галлюцинации.

Что сделали инженеры?

Решили дообучить базовую модель при помощи LoRA на специально собранном датасете для ситуаций, когда в контексте нет ответа на вопрос пользователя. На тот момент в качестве базовой модели LLM использовали saiga_mistral_7b, которая нетребовательна к ресурсам и долгое время была в топе на Russian SuperGLUE. Есть модели лучше, но, как правило, они либо огромные, либо имеют проблемы с лицензией в России, в том числе все, что основаны на LLaMa.

Самое главное: в этом RAG-пайплайне ML-инженеры решили сделать опциональную петлю, в которой проверяли бы каждый найденный фрагмент контекста на релевантность вопросу пользователя. Только те куски контекста, которые пройдут проверку, будут попадать в финальный вопрос для LLM.

Чтобы петля фильтрации работала правильно, нужен некий маркер, который позволяет однозначно определить, что модель считает кусок контекста нерелевантным.

Что это и за маркер? И к каким результатам привела оптимизация работы модели, читайте по ссылке → 

Спойлер: Модель DeepSeek-R1-Distill-Qwen-7B уступила saiga_mistral_7b по качеству, несмотря на то, что первая намного новее и вооружена механизмом reasoning.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Рег.ру ускорил работу с облачной аналитикой в 2 раза

В облаке Рег.ру совместно с компанией «Фабрика Данных» провели высоконагруженные вычисления с Big Data и ускорили работу с облачной аналитикой. Делимся результатами проекта.

Компания «Фабрика Данных» занимается работой с высоконагруженными проектами: аналитикой данных, выявлением трендов и мониторингом спроса в областях FMCG, производства, финансов и др. С помощью ее продуктов можно получить персонализированные рекомендации по управлению ассортиментом товаров, ценообразованию и маркетинговым стратегиям. Для своих задач компания использует облачные серверы с GPU в Рег.ру. Рассказываем, каких результатов это помогло достичь:

  • ускорили работу с облачной аналитикой в 2 раза;

  • 100% — такой уровень отказоустойчивости сервиса обеспечили;

  • почти на четверть повысили точность принятия решений при работе с аналитическими сервисами.

Подробнее о результатах проекта читайте на сайте.

А чтобы запустить и протестировать собственные проекты с высоконагруженными задачами, воспользуйтесь облачными серверами с GPU от Рег.ру.

Сервис оснащен двумя типами видеокарт NVIDIA: А5000 24Гб и А100 80Гб и подходит для выполнения ресурсоемких задач: для работы с AI и ML, графикой и видео, 3D, VDI и др.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Kryptonite ML Challenge подходит к концу!

Члены жюри, наши эксперты из лаборатории ИИ, отсмотрели все присланные решения и определились с финалистами!

В это воскресенье, 16 марта, в 12:00 пройдёт онлайн-питчинг проектов, а затем официальное закрытие Kryptonite ML Challenge.

Всех приглашаем присоединиться к трансляции — она будет в нашем паблике VK. Оставляем ссылку.

Теги:
Рейтинг0
Комментарии0

⁠⁠Метрики и слова “черные дыры”⁠⁠


В работе мы ежедневно оперируем сотнями терминов и определений, но многие из них не имеют однозначной трактовки. Из-за этого во время обсуждений вы и коллеги можете подразумевать совершенно разное, называя это одинаковыми словами. Такие слова- «чёрные дыры» в процессе коммуникации поглощают время и энергию, но так и не приводят к нужному результату.

В аналитике проблема становится острее: «чёрными дырами» могут оказаться метрики. За каждой из них стоит методология расчёта, которую участники не всегда полностью понимают. Это грозит не только недопониманием, но и ошибочными бизнес-решениями.

Не все метрики подвержены риску: например, DAU/MAU обычно понятны команде. А вот финансовые показатели или продуктоспецифичные метрики часто становятся «дырами».

Как избежать проблем?

1. Задавайте вопросы без стеснения

Уточнения экономят время всем. Поддерживайте культуру, где вопросы приветствуются. Если на встрече много новичков — начните с мини-словарика терминов. Это повысит эффективность дискуссии в разы!

2. Мы в ответе за тех, кого приручили

При создании новой метрики назначайте ответственного. Его задача — актуализировать информацию и оперативно информировать команду об изменениях. Используйте каталоги метрик, глоссарии или внутренние базы знаний.

3. Онбординг с живыми материалами

Учебные документы часто устаревают быстрее, чем развивается компания. Решение: каждый, кто сталкивается с неоднозначностью и находит ответ, обязан добавить пояснение в общий глоссарий.

А вы сталкивались с «чёрными дырами» в терминах или метриках?

К чему это привело? Делитесь в комментариях! ✍ И подписывайтесь на tg data_dreamen, там еще больше про аналитику

Теги:
Рейтинг0
Комментарии0

Google представила бесплатного ИИ-помощника по Data Science:

  • ИИ-агент не просто генерирует куски кода, сразу создаёт полноценные блокноты.

  • ИИ анализирует, визуализирует и пишет весь код на Python.

  • Всё, что нужно: загрузить любой датасет до 1 Гб и выдать задачу.

  • Нейросеть предложит план и поэтапно обработает все данные.

  • На выходе готовый код или диаграммы.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Основа хорошей разметки — правильно подобранная команда и выстроенные процессы

Административных подходов к разметке данных несколько:

  1. Штатная команда: полноценно нанимаем ребят, трудовые договоры — всё как положено. Хорошо для больших задач, особенно, если необходим доступ к чувствительным данным.

  2. Самозанятые (администрируем сами): упрощённый вариант, который позволяет не брать людей в штат, а заключать с ними простые договоры на сдельную работу и использовать проектный бюджет. Из плюсов — быстрый «найм», оптимизация налогов, сдельная оплата. Из минусов — большая текучка и юридические сложности: нельзя предоставлять рабочее место и налоговой должно быть очевидно, что эти люди не идентичны штатным сотрудникам.

  3. Аутсорс-компании: сторонние команды, которые специализируются на разметке. Основное преимущество — масштабируемость и простота в администрировании для нас, как для заказчика. И плюс не нужна своя платформа разметки.

  4. Крауд-платформы: агрегируют большое количество исполнителей, которые могут выполнять ваши несложные задачи. Аналогично с предыдущим пунктом — не нужна своя платформа разметки, но нужно уметь ей грамотно пользоваться.

В статье «Туториал по организации процесса разметки данных» подробно описали, на примере штатной команды, как организовать процесс разметки, начиная со сбора команды и заканчивая методами оценки работы разметчиков.

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии1

Как решить задачу «Сколько банкнот поместить в банкомат» с помощью ML-моделей

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Банкомат для банка — это источник и доходов, и расходов. Да, банкоматы приносят деньги, когда берут комиссии, принимая карты других банков, или выдают наличные с кредитных счетов. Но и содержание банкоматов — это регулярные расходы: устройства требуют сопровождения и страхования, они изнашиваются, их перемещение и чистка также требует вложений. Каждый выезд инкассаторов, каждый пересчёт кассет и их загрузка в устройство связаны с тратами.

Ко всему прочему, банк не может использовать деньги, которые находятся в банкомате, соответственно, не может на них зарабатывать: средства, залежавшиеся в устройстве, в итоге создают убыток. Список статей расходов у банкомата заметно более внушительный, чем список источников его дохода.

К чему это всё здесь описано? Рассчитать, сколько денег поместить в каждый конкретный банкомат — это задача с несколькими параметрами. Наскоком её не решить, например, не получится загружать все банкоматы деньгами по полной. Ведь иногда так бывает, что у двух рядом стоящих банкоматов к концу дня количество банкнот к концу дня отличается в разы, тогда в одном банкомате наличность будет простаивать.

Как решить задачу с банкоматами читайте в статье.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Ближайшие события

Как мы создали FAQ для клиентов КНАУФ на базе RAG – из разрозненных документов и всего за 2 недели?

Привет, Хабр! Хотим поделиться кейсом внедрения Jay Knowledge Hub в клиентский сервис КНАУФ. Для тех, кто не в курсе, КНАУФ – крупнейший производитель строительных отделочных материалов из гипса.

В сфере строительства и ремонта у потребителей часто возникают вопросы, связанные с выбором подходящих материалов или их правильным использованием. Покупатели регулярно обращаются за советами в службу поддержки КНАУФ, причем, по статистике, до 50% запросов поступает в нерабочее время операторов.

Для общения с клиентами КНАУФ активно применяет ботов, которые доступны на сайте, в VK, Telegram, по электронной почте и через телефонные каналы. Однако традиционные чат-боты не всегда способны справиться со сложными запросами пользователей. А для КНАУФ важно не только быстро реагировать, но и давать клиентам полноценные консультации.

К тому же, учитывая огромный спектр продукции и нюансов ее применения, обучение сценарного бота занимает слишком много времени. Требуется время на разбор вопросно-ответных пар, проверку актуальности данных и обновление бота. Поэтому в компании решили попробовать новый подход на базе генеративного ИИ и интегрировали Jay Knowledge Hub, интеллектуальную систему для поиска по неразмеченным данным на основе RAG и дата-агентов.

  • Как Jay Knowledge Hub помог компании создать AI-ассистента Kai, который за две недели научился отвечать на 3000+ вопросов;

  • Как интеграция RAG-технологии повысила точность ответов до 89%;

  • Как Jay Knowledge Hub превращает документы (pdf, docx, таблицы) в единый источник знаний;

  • Какие настройки применялись для проекта КНАУФ: как повторить успех.

Приходите на вебинар 18 февраля в 13:00, чтобы узнать, как происходила интеграция Jay Knowledge Hub и узнать о возможностях платформы.
Зарегистрироваться можно по ссылке.

Теги:
Рейтинг0
Комментарии0

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

  1. Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой. 

    Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.

  2. Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).  

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Запланируйте, какие вебинары посетите в феврале 📅

Регистрируйтесь на бесплатные вебинары, чтобы узнать больше про работу с сервисами платформы Cloud․ru Evolution:

А еще на каждом вебинаре будет сессия вопросов и ответов, на которой вы сможете задать экспертам любые интересующие вопросы по теме.

Присоединяйтесь!

Теги:
Рейтинг0
Комментарии0

Проекты на базе продуктов Arenadata стали победителями конкурса «Проект года»

Участники профессионального сообщества лидеров цифровой трансформации Global CIO подвели итоги ежегодного конкурса для ИТ-директоров и топ-менеджеров «Проект года». В этом году его провели уже в тринадцатый раз, а в числе победителей вошли проекты, реализованные на базе продуктов Arenadata. 

На конкурс номинировали 12 проектов с продуктами Arenadata. В номинации «Управление и хранение данных» победил проект «Корпоративная дата-платформа» ПАО «Газпром нефть», а в спецноминации «Банки/Финансы» — проект импортозамещения ИТ-инфраструктуры АО «Газпромбанк».

В конкурсе участвовали шесть проектов ПАО ВТБ, пять из которых стали победителями. Среди них: система прогнозирования процентного риска (ALM-платформа), RWA-калькулятор 2.0, импортозамещение витрин данных для ФОИВ, управление финансами на основе трансфертного ценообразования и система мотивации сети продаж и СМБ.

Подробнее о победивших проектах

Проект ПАО «Газпром нефть». Цель — создать единую платформу для работы с данными на базе отечественных решений, оптимизировать процесс обработки и анализа данных, повысить эффективность и снизить стоимость проектов за счёт использования общей инфраструктуры. Уникальность заключалась в построении единого конвейера, где всё базируется на общих бизнес- и технических метаданных. Использовались Arenadata DB (ADB) и Arenadata QuickMarts (ADQM).

Проект АО «Газпромбанк». Проект по импортозамещению ИТ-инфраструктуры и переводу значимых объектов критической информационной инфраструктуры на суверенные решения. Важными задачами стали сохранение высокого уровня удобства, доступности и безопасности цифровых услуг, а также формирование технологических стандартов для рынка. Обработка больших данных ведётся на базе продуктов Arenadata.

Главной целью проекта ПАО ВТБ «Реализация прогноза метрик процентного риска банковской книги в ALM-платформе» стала реализация системы сценарного анализа риск метрик в части процентного риска банковской книги, чистого процентного дохода, маржинальности банка. В качестве одного из элементов ALM-системы использован дистрибутив распределённой платформы хранения больших данных Arenadata Hadoop (ADH).

Другой проект ПАО ВТБ был посвящён импортозамещению продукта SAS RRM для корпоративного контура банка, SAS ECL для розничного бизнеса, Oracle Exadata в части автоматизации расчета RWA по кредитному риску и расчета резервов по МСФО ФЛ и разработке собственного решения. В качестве одного из продуктов для хранения данных была выбрана Arenadata DB.

В проекте «Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)» от ПАО ВТБ важной целью стало развитие ФОИВ и развитие слоя источника данных для предоставления ответов на запросы ведомства. В рамках проекта было перенесено 22 витрины с данными, начиная с 2017 года, по более чем 1300 атрибутам. Проектирование и построение витрин, а также ETL-процессы по их обновлению выполнены на Arenadata Hadoop и Arenadata DB.

Проект ПАО ВТБ «Управление финансами на основе трансфертного ценообразования» был направлен на формирование на импортозамещенном стеке технологий витрины данных по расчету внутреннего аналитического финансового результата. Это улучшило «time to market» по доступности данных на 2 рабочих дня и позволило глубже анализировать доходность банковских продуктов. Использованы Arenadata DB и Arenadata Hadoop.

Ещё один проект ВТБ — «Система мотивации Сети продаж и Стримов блока СМБ» (номинация «Управление маркетингом и продажами») — был направлен на внедрение автоматизированной системы работы с большими данными для новой модели продаж и обслуживания клиентов сегмента СМБ. В числе используемых технологий — Arenadata DB.

Подробнее о конкурсе «Проект года»

«Проект года» — ежегодный конкурс ИТ-проектов от Global CIO, ключевая площадка для обмена опытом в цифровизации. Среди победителей разных лет — проекты на базе Arenadata от «Газпром нефть», ВТБ, X5 Retail Group и других.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Конец профессии? Может ли ИИ заменить аналитиков?

Всем привет на связи data dreamen!

На фоне новостей о выходе новых моделей ИИ — DeepSeek и Qwen2.5-Max, которые, судя по тестам, местами даже превосходят решения OpenAI, снова возникает вопрос: что будет дальше? Сможет ли ИИ заменить меня, аналитика? И что мне с этим делать?

Если коротко — пока нет. Это подтверждает исследование Всемирного экономического форума: профессии, связанные с аналитикой данных и Data Science, занимают 11-е место среди самых перспективных к 2030 году. DWH-инженеры находятся на 6-м месте, а специалисты по Big Data и вовсе возглавляют этот список.

Однако, несмотря на высокий спрос на аналитиков, ИИ все же серьезно повлияет на рынок и характер работы в этой сфере. Вопрос в том, как именно.

① Автоматизация инструментов. ИИ будет активно заменять рутинные задачи, в том числе у аналитиков. Написание кода, выгрузка данных, подготовка отчетов — всё это будет автоматизироваться, минимизируя ручной труд.

② Развитие self-service. Чем больше задач автоматизируется, тем меньше заказчикам потребуется обращаться к аналитикам напрямую. Многие вопросы смогут решаться через self-service инструменты, снижая нагрузку на команду аналитики.

③ Масштабирование и рост зоны ответственности. ИИ возьмёт на себя базовые аналитические задачи, а аналитикам останутся более сложные, стратегические и ответственные решения — там, где автоматизация не справляется.

Что все таки ИИ не сможет сделать с аналитиками?

① Разработка и принятие нестандартных решений. ИИ — это модель, обученная на данных, но он не обладает креативностью и не умеет находить альтернативные пути решения. Когда нужно выйти за рамки типовых сценариев, роль человека остаётся ключевой.

② Контекст, бизнес-логика и коммерческая тайна. Во многих компаниях процессы настолько сложны, что даже человеку требуется несколько лет, чтобы в них разобраться. ИИ может помогать, но учесть все нюансы и скрытые факторы ему пока не под силу. К тому же, передача коммерческих данных открытым моделям может быть небезопасной.

③ Коммуникация. Аналитика — это не только цифры, но и умение "продать" свои выводы бизнесу, донести ценность и добиться внедрения решений. Даже идеальный расчет не будет полезен, если его не смогли правильно презентовать. Ну и, конечно, навыки постановки ТЗ у заказчиков пока не оставляют шансов ИИ полностью заменить аналитиков.

Что же в итоге нас ждет?

Скорее всего, компании будут разрабатывать собственные решения или внедрять рыночные инструменты для автоматизации аналитики, например:

  • конвертеры текстовых запросов в SQL-скрипты

  • АВ-платформы, которые смогут работать без участия аналитиков

  • визуализаторы данных, создающие отчёты по текстовому запросу

В результате акцент в работе аналитиков сместится: на первый план выйдут не базовые хард-скиллы (SQL, Python, BI-инструменты), а умение применять их в сложных и нестандартных ситуациях.

📉 К сожалению, это сильнее всего ударит по джунам — для принятия сложных решений нужен опыт, а простые задачи постепенно автоматизируются.

Но те, кто сможет адаптироваться, будут только в выигрыше! 🚀

Подписывайтесь на тг, там еще больше полезного и интересного про аналитику - https://t.me/data_dreamen

⁠⁠

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

В конце прошлого года Группа Arenadata выпустила обновления ряда своих продуктов.

Новые релизы:

  • Arenadata DB (ADB) — v6.27.1.59;

  • Arenadata DB Backup Manager (ADBM) — v2.3.2;

  • Arenadata DB Control (ADBC) — v4.11.0;

  • Arenadata Streaming (ADS) — v3.6.2.2.b1;

  • Arenadata Catalog (ADC) — v0.8.0;

  • Arenadata Cluster Manager (ADCM) — v2.5.0.

Обновления компонентов Arenadata Cluster Manager (ADCM):

  • Arenadata Monitoring (ADM) — v4.1.0;

  • Arenadata Enterprise Tools (ADET) — v2024121800.

В новых версиях улучшена производительность, исправлены ошибки, добавлен новый функционал и дополнительные возможности.

⛓ Текст обзора и ссылки на полное описание релизов здесь.

Теги:
Всего голосов 5: ↑4 и ↓1+3
Комментарии2

Малболг — язык из ада или как придумать что-то очень сложное и бесполезное.

Существует интернет-сообщество «эзотерические языки программирования». К нему в 1997 году присоединился американский студент Бен Олмстед. Он задался целью создать «адски сложный» для понимания язык и вскоре придумал Malbolge, названный так в честь восьмого круга ада из «Божественной комедии» Данте Алигьери. Про него рассказываем дальше.

В чём же сложности Malbolge? Их много. Чтобы сразу не было скучно, Бен отошёл от двоичной логики, заменив её на троичную. Подобным образом ранее поступили создатели советской ЭВМ «Сетунь», но совершенно из других побуждений.

Перед запуском в интерпретаторе программа на Malbolge выполняет инструкцию crazy (crz). Эта команда считывает из памяти два числа, сравнивает их в троичной системе и записывает результат в память. Операция повторяется до тех пор, пока выделенная интерпретатором память не закончится.

Добавляет сложности при написании программ ограничение в три регистра и восемь команд, а также тот факт, что сам язык неполный по Тьюрингу. Проще говоря, вы никогда не знаете заранее, возможно ли вообще на нём написать нужный вам код.

Другая уникальность Malbolge заключается в том, что программы на нём изменяют свой собственный код во время работы. Самоизменяющиеся инструкции были специально придуманы Беном для того, чтобы результат исполнения кода был неочевиден.

При этом в языке нет строго синтаксиса, определяющего порядок исполнения команд. После того, как команда исполнится, она шифруется (точнее, перекодируется) по таблице замены и при следующем вызове интерпретируется уже иначе.

Malbolge получился настолько крышесносным, что сам автор не осилил написать на нём даже «Hello World!». Вместо этого Бен сделал упрощённую версию языка Dis и программу на нём, которая печатала одну букву: «H».

Чтобы реализовать простейший Hello World на Malbolge, группе энтузиастов потребовалось два года, LISP и генетические алгоритмы, перебирающие варианты расшифровки команд. Вот как выглядел итоговый листинг:

(=<# 9]~6ZY327Uv4-QsqpMn&amp;+Ij"'E%e{Ab~w=_:]Kw%o44Uqp0/Q?xNvL:H%c# DD2^WV>gY;dts76qKJImZkj

Упоминание языка Malbolge есть в сериале «Элементарно» на CBS. В одном из его эпизодов преступник роняет записку с кодом на Malbolge, а Холмс расшифровывает его и получает подсказку.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Тестирование систем и движков массивно-параллельных вычиcлений

Все о подходах к тестированию, которые использует команда Data Sapience, и результатах сравнения движков и систем — в партнерском материале технического идеолога Lakehouse-платформы данных Data Ocean Nova. В центре внимания — гонка зайца Trino и антилопы Impala.

Гонка зайца Trino и антилопы Impala
Гонка зайца Trino и антилопы Impala

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

GlowByte приглашает на конференцию «PIX Day: Процессы, аналитика и роботы – для людей»

Друзья, 5 декабря в Москве пройдет PIX Day — первая большая конференция, посвященная всей экосистеме продуктов PIX Robotics и опыту её использования ведущими российскими компаниями.

В рамках мероприятия участники обсудят, как вывести аналитику данных и эффективность процессов на новый уровень и сделать бизнес умнее — с помощью программных роботов, ИИ и не только.

Что будет на PIX DAY:
✔️Погружение в экосистему продуктов PIX;
✔️Реальные кейсы по RPA и BI от крупнейших компаний, в числе которых: Зетта Страхование, Банк Уралсиб, Норникель, НПФ Будущее, Иннотех и многие другие.
✔️Мастер-классы по управлению процессами, роботизации с ИИ и визуализациям;
✔️Технологическая выставка партнеров;
✔️Полезные знакомства, общение и нетворкинг;
✔️Вручение наград PIX Awards.

👉 Зарегистрироваться 👈

Когда: 5 декабря, 10:00-17:00
Где: Офлайн в Москве

Если вы искали личной встречи с нами, это отличный повод пообщаться!
До встречи на стенде GlowByte!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Сегодня я хочу выложить в открытый доступ свою библиотеку на Scala. Библиотека реализует Directed Acyclic Graph (DAG) для выполнения задач внутри одного приложения (на замену Airflow и подобных не претендую :-)) и позволяет определять задачи с зависимостями, выполнять их в правильном порядке и обрабатывать исключения, которые могут возникнуть в процессе выполнения. Библиотека писалась через призму моих личных и профессиональных потребностей, поэтому не претендует на покрытие всех возможных кейсов, встречающихся в разработке вообще.

Use case:

Иногда возникает необходимость выполнять взаимосвязанные задачи/функции/классы в рамках одного приложения, где эти задачи могут быть частично параллелизованы, то есть их можно "собрать" в DAG для более эффективного использования ресурсов и повышения общей производительности. Например при обрабтке/загрузке данных или в event-driven приложении.

Особенности:

  • Управление задачами: Добавление задач с указанными зависимостями.

  • Гибкость: Выполенение всех или только некоторых задач (с сохранением зависимостей)

  • Обработка ошибок: Встроенная обработка ошибок с передачей исключений "наверх" для упрощенного их анализа.

  • Результаты выполнения задач: Возможность получения результата выполнения задач для дальнейшего их использования программным кодом.

Код, документация и инструкция по импорту и использованию доступны на GitHub.

Буду рад любым отзывам и предложениям по улучшению. Также не стесняйтесь задавать вопросы и заводить issue :-)

Теги:
Рейтинг0
Комментарии0

Навстречу большим данным: аналитика, которая работает

📅 21 ноября в 16:00 (МСК) на онлайн-митапе К2 Cloud разберем, как с помощью аналитических инструментов на базе продуктов K2 Cloud, Arenadata и K2Тех можно решать практические задачи бизнеса: снизить отток клиентов, оптимизировать процессы, контролировать сложную логистику и обеспечить качественную отчетность.

Темы:

  1. Актуальные задачи компаний при работе с большими данными: оценка окупаемости проектов big data, запуск пилотного этапа для реализации конкретных бизнес-целей с помощью аналитики данных

  2. От ритейла до банков: как мы переводим компании с Excel на Greenplum, локализуем инструменты big data на отечественных продуктах и создаем корпоративные хранилища данных «с нуля»

  3. Best practice на примере крупной FMCG-компании: ключевые задачи, решения, результаты и ценные лайфхаки

Онлайн-митап будет вам полезен, если вы:

  •  Только готовитесь к проектам big data и ищете, с чего начать

  • Развиваете инфраструктуру для работы с большими данными и оптимизируете бизнес-процессы

  • Хотите узнать, как адаптировать инструменты big data под специфические задачи вашего бизнеса

  • Желаете познакомиться с успешными кейсами и получить полезные рекомендации от экспертов в сфере больших данных и облачных технологий

  • Интересуетесь размещением инструментов big data в облаке

🔗 Подробности и регистрация по ссылке.

Теги:
Рейтинг0
Комментарии0

Привет! Я — Ося, разработчик в Инновационном Центре «Безопасный транспорт», ваш виртуальный проводник в мир технологий и разработки. В блоге рассказываю, как решаю сложные задачи и делюсь знаниями. Здесь мы будем разбираться в коде, обсуждать подходы к проектам и актуальные тренды в IT. Пишу о разработке, больших данных и инновационных технологиях.

Я — робот-осьминог и талисман ИЦ, который иллюстрирует разносторонность и многозадачность нашей команды. Мои 8 щупалец представляют различные направления работы, а 3 сердца обеспечивают высокую эффективность. Отсутствие скелета позволяет гибко адаптироваться к изменениям, а более 1000 рецепторов на щупальцах помогают мне воспринимать малейшие колебания в окружении.

Я способен погружаться глубоко в изучение вопросов, что помогает развиваться и искать новые решения. Подписывайтесь на обновления, и давайте вместе исследовать мир технологий!

Теги:
Всего голосов 4: ↑2 и ↓2+3
Комментарии0

Где используется машинное обучение? Примеры использования машинного обучения - на картинке ниже.

Тут писала про бесплатные курсы, которые мне понравились и я рекомендую.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как Duolingo добилась успеха на рынке и причем тут аналитика

Duolingo — одно из самых популярных приложений для изучения языков (№1 по скачиванию в магазинах приложений). Вместо скучных уроков оно напоминает игру: прогресс, уровни, награды, упражнения мини-игры и др.

По данным компании, около 34 млн. человек используют Duolingo каждый день.

Но что стоит за этим успехом?

Один из ключевых принципов компании — "Тестируй всё". Постоянные эксперименты помогают Duolingo улучшать процесс обучения и находить новые решения для роста.

В любой момент в Duolingo могут проводиться несколько сотен A/B тестов одновременно. Экспериментируют со всем: от мелких изменений интерфейса до запуска крупных функций, как Лидерборды. Для A/B тестирования компания разработала собственный сервис.

➡ Как выглядят эксперименты в Duolingo: статья.

➡ Пример A/B тестирования: формирование привычки учиться регулярно: статья.

➡ Какие аналитические инструменты использует компания для анализа данных: статья.

О других принципах успеха Duolingo и работе в этой компании писала тут.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Data Ocean Nova. Next-gen платформа данных класса Lakehouse.

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Data Lakehouse (Gemeni AI Generated)
Data Lakehouse (Gemeni AI Generated)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство

Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве

MeetUP делится на два блока:
1️⃣ Технологии и 2️⃣ Бизнес. Мы ждем специалистов обоих треков!

А вас ждут:

🟢выступления практикующих AI-инженеров
🟢инструменты создания GenAI-приложений
🟢актуальные стратегии на рынке и реальные кейсы МегаФона, Яндекс Крауд, JSA Group и SberDevices

Узнать расписание и зарегистрироваться

Количество мест ограничено!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Хабр, привет!

Зовём вас встретиться и поговорить про Data Build Tool.

8 октября, то есть завтра вечером, соберёмся с Николаем Марковым, Data Platform Lead в Altenar, и Евгением Ермаковым, руководителем платформы данных в Toloka, и вместе обсудим:

➡ Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
➡ Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
➡ Как разные компании и команды применяют DBT для решения задач Data Governance?

Поговорим про особенности DBT, его преимущества, потенциальные сложности и ограничения, а также — про реальный опыт использования DBT в Toloka.

⭐ Когда: завтра, 8 октября в 19:00 мск
⭐ Регистрация — через бота.

Приходите!

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии1

Больше чем Pandas: библиотеки подготовки данных для ML-моделей

А завтра, 24 сентября, зовём вас на открытый вебинар с Владимиром Бугаевским, тимлидом команды Поиска в Купере.

Встретимся и вместе разберём:

→ на что стоит обратить внимание для эффективной работы с данными;
→ форматы работы с данными и их особенности;
→ фреймворки pandas, swifter, polars, dask и cudf.

Будем не только слушать, но сразу ещё и делать — для этого все участники получат доступ к jupyter-ноутбукам.

🖍 24 сентября в 19:00 мск
🖍 Регистрация — в нашем боте

Приходите!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0
Где поучиться BI этой осенью бесплатно
Где поучиться BI этой осенью бесплатно

Сентябрь в самом разгаре! Последние теплые дни четвертого месяца лета. То самое время, когда на улице жарко, а в цифровом пространстве всё просто кипит! Сегодня небольшой информационный пост о том, где можно сейчас бесплатно поучиться премудростям BI.

  1. Пиксы запустили Цифровой триатлон. Каждую неделю идет трек по одной из платформ. На этой неделе экватор по PIX BI. Много экспертов, много мнений, весь контент очень сильно связан с ex Qlik тусовкой. Клиенты, эксперты, организаторы - все когда то занимались, внедряли, обучали Qlik. Такое импортозамещение даже получается. https://triathlon.pix.ru Информацию кидают в группу в телеге: https://t.me/BI_PIX_Chat Плюс компания анонсировала БЕСПЛАТНУЮ персональную редакцию своей платформы. Надеемся это не разводняк! 

  2. Коллеги из Глобайт привезли Азиатский вариант марафона. Ретрит по теме Fine Bi. Вся информационная поддержка идет в группе https://t.me/FineBIChat в разбивке по темам. Много интересного, новые фичи, опыт клиентов. Классика марафонов от Дата Йога.

  3. AW запустили на наш взгляд тяжелую, но очень интересную историю для конкретной группы продвинутых аналитиков. Все подробности в группе https://t.me/awcommunity такой марафон, который перетекает в хакатон и заканчивается собственной конференцией в Москве. 

Отличная возможность попробовать три разных блюда, не выходя из дома! Вперед к новым знаниям!

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Чем занимается BI в финтехе

Привет, меня зовут Саша Матвеев, я руковожу департаментом аналитики данных в ЮMoney. Кратко расскажу о трёх наших самых крупных ML-проектах.👌

В чём между ними разница? ↓
В чём между ними разница?

BI-разработчик занимается поставкой данных как IT-cервис. Он предоставляет данные, доступные для анализа и упакованные в аналитические продукты. Аналитик данных извлекает смыслы из данных, полученных от BI-разработчиков, и обрабатывает их.

Наши ML-проекты:

●  Прогноз LTV кошельков. В продуктовой аналитике есть важный показатель — LTV: сколько денег принесёт пользователь за всё время, пока пользуется продуктом. Мы стараемся понять это как можно раньше — на основе нескольких месяцев использования предсказываем, сколько дохода принесёт пользователь за один и два года. Это помогает определить, какой пользователь перед нами, и принимать решения.

●  Предсказание оттока кошельков и мерчантов. Иногда пользователи «замирают» — не делают никаких действий после того, как завели кошелёк или подключили магазин к ЮKassa. BI помогает продуктовым командам спрогнозировать поведение таких пользователей.

●  Классификация сайта мерчанта при бординге в ЮKassa. К ЮKassa ежедневно подключаются новые магазины (мерчанты), а наши менеджеры решают, к какой категории их отнести. Чтобы ускорить выход всех магазинов в платежи, нам нужен был      механизм, который может определить группу мерчанта без участия менеджера. Команда BI создала ML-классификатор, который умеет делать это быстро, что позволяет магазинам быстрее подключаться к ЮKassa.

Теги:
Всего голосов 3: ↑2 и ↓1+5
Комментарии0

Этой осенью Okko приглашает тебя провести вечер в компании экспертов в области работы с данными в развлекательных продуктах и сервисах: KION, Иви, START и ВК Музыка. Митап пройдет в гибридном формате: офлайн в Stand Up Store и онлайн.

https://okko-2024.timepad.ru/event/3010295/

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Простой способ конвертации файлов JSON в CSV через Python

Для конвертации файлов JSON в CSV через Python существует удобный способ с использованием библиотеки pandas.

Если у вас еще не установлена библиотека pandas, установите ее с помощью pip:

pip install pandas

Далее напишем функцию, которая будет принимать на вход путь к JSON файлу и имя выходного CSV файла. Эта функция выполнит преобразование с помощью pandas.

import pandas as pd


def json_to_csv(input_file, output_file):
    try:
        # Прочитайте JSON файл в DataFrame
        df = pd.read_json(input_file)
        
        # Сохраните DataFrame в CSV файл с кодировкой UTF-8
        df.to_csv(output_file, index=False, encoding='utf-8')
        print(f"JSON файл успешно преобразован в CSV и сохранен как {output_file}")
    except Exception as e:
        print(f"Произошла ошибка при преобразовании: {e}")

        
# Пример использования функции
json_to_csv('input.json', 'output.csv')

Теперь, вызвав функцию json_to_csv с нужными параметрами, вы сможете легко преобразовать JSON файл в CSV файл.

Если вам была полезна эта информация, подписывайтесь, ставьте лайки и оставляйте комментарии!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии1

Приглашаем на новый бесплатный вебинар «Обработка потоков данных».

На вебинаре рассмотрим вопросы, связанные с созданием и обработкой потоков данных. А также познакомимся с Kafka и Spark Structured Streaming.

📅 Дата: 18.07.2024

⏰ Время: 17:00-19:30 (Мск)

На вебинаре:

✔️ Знакомство с Kafka

✔️ Передача сообщений

✔️ Чтение сообщений

✔️ Spark Structured Streaming

✔️ Окна в потоке

✔️ Соединения потоков 

✔️ Контроль времени

👨‍🎓 Спикер: Заигрин Вадим — опытный специалист  в области BigData.

⚡️Зарегистрироваться на вебинар⚡️

Вебинар относится к курсу «Современные подходы к управлению данными». Курс представляет обзор современных способов хранения данных, в том числе хранилищ ключ-значение, документно-ориентированных и потоковых систем управления базами данных, систем распределенного хранения и обработки данных. 

Старт новой группы — 5 августа. Оставить заявку на обучение можно по ссылке.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

💬 Привет всем, давно меня не было в уличных гонках! Кстати у меня есть телеграм канал, а вчера вышла статья на Хабр про графы в рексисе. Сегодня я хочу поделиться с вами подборкой книг, которые читал или читаю сам в течении последних 3 месяцец. Приятного чтения!

➡️ Recommender System Handbook Third Edition - Francesco Ricci, Lior Rokach, Bracha Shapira.
Эта книга – настоящая библия для всех, кто хочет понять, как работают рекомендательные системы. Авторы раскрывают все аспекты, от базовых алгоритмов до продвинутых техник, делая ее незаменимой как для новичков, так и для опытных профессионалов.

➡️ Machine Learning System Design Interview - Ali Aminian, Alex Xu.
Если вы готовитесь к интервью на позицию RecSys ML-инженера, то эта книга – ваш верный спутник. В ней собраны ключевые концепции и вопросы, которые помогут вам набрать базовое понимание по дизайну рекомендаций или поиска.

➡️ Machine Learning System Design With end-to-end examples - Valerii Babushkin, Arseny Kravchenko.
Практическое руководство, полное примеров от начала до конца, поможет вам научиться строить системы машинного обучения, особенно спасибо авторам за дизайн документы, которые я так люблю.

➡️ The Minimum Description Length Principle - Peter D Grunwald.
Эта книга глубоко погружает в теорию минимальной длины, который играет важную роль в статистическом моделировании и машинном обучении. Если вы любите копаться в основах и понять почему вообще машинное обучение работает — welcome.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Развертывание локальной версии нейросети LLaMA с использованием Docker

Привет! В этом руководстве я покажу, как в несколько команд развернуть локальную версию нейросети LLaMA на вашем компьютере или сервере (работает на Windows, macOS и любых дистрибутивах Linux).

Шаг 1: Установка Docker

Для начала, установите Docker. Новичкам рекомендуется установить Docker Desktop.

Шаг 2: Запуск Docker контейнера

Откройте консоль и выполните следующую команду:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Эта команда развернет локальный образ llama, который будет работать исключительно на вашем процессоре. Также существует вариант использования Nvidia GPU, с инструкциями можно ознакомиться здесь.

Шаг 3: Запуск языковой модели

Для запуска самой модели выполните команду:

docker exec -it ollama ollama run llama3:8b

Эта команда загрузит и запустит языковую модель llama3:8b (4.7GB). Также доступна более крупная версия llama3, 70b (40GB). Вы можете запускать и другие модели, список которых доступен здесь.

Чтобы запустить другую модель, используйте команду:

docker exec -it ollama ollama run model_name:tag

Интеграция в проекты

Использование языковой модели в таком формате может показаться неудобным. Более интересно интегрировать ее в свои проекты, например, в Telegram-бота с использованием Python.

Если вам интересно, как это сделать, подписывайтесь на меня. В следующем посте я покажу, как использовать локальную нейросеть (llama3) в Python проектах, включая создание Telegram-бота.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как ИИ-помощники захватывают мир.

Помните, как на прошедшем в мае Google I/O 2024 не было представлено ни одного нового устройства? Основной темой стал ИИ от Google – Gemini, мультимодальная LLM, эволюционировавшая из Bard.

И вот вышла новость: появление в сервисах от Google чат-бота на базе Gemini.

Российские сервисы не отстают от "корпорации добра".

У Яндекса подобный ассистент уже встроен в браузер и доступен всем желающим, зовется Нейро. Базируется на базе YaGPT2, который уже интегрирован в Алису, и скоро будет присутствовать во всех сервисах ИТ-гиганта.

Ключевой тренд – отказ от классических поисковиков, как устаревшего интерфейса взаимодействия с конечным пользователем, и полное его замещение интеллектуальным помощником по любым вопросам: от поиска информации, генерации мыслей, картинок до взаимодействия с физическим миром. IoT, умные устройства, заказы\доставки еды, такси, билетов.

Как все это повлияет на энтерпрайз-сегмент?

Cвязь вполне очевидная: популяризация носимых устройств и ассистентов в решении различных бытовых задач неминуемо создаст потребность в аналогичных сервисах и для решения рабочих вопросов.

Цифровые помощники грядут, и совсем скоро решения бизнес-задач на базе ИИ будут такими же обыденными, как оплата покупок по лицу. 

Ряд таких решений завтрашнего дня доступны уже сегодня. Об одним из них, умном BI-ассистенте, поговорим 4 июля на вебинаре “Сокращаем путь от данных к бизнес-решениям до секунд”.

Зарегистрироваться можно тут.

Теги:
Всего голосов 6: ↑4 и ↓2+4
Комментарии0

Наш вебинар, посвященный взаимодействию между Spark и Greenplum, прошел уже 2 недели назад. Но его запись останется с вами навечно! По крайней мере, пока не отключат всё электричество на планете.

? Посмотреть запись можно по ссылке: https://youtu.be/zIYUKB5960w

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Работа

Data Scientist
39 вакансий