Как стать автором
Поиск
Написать публикацию
Обновить
112.32

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Дайджест открытых мероприятий на май:

1️⃣ AI-агенты в облаке
🗓 13 мая, 18:00 по Мск, онлайн
Узнаем, как строятся AI-агенты, какие инфраструктуры стоят за их работой и какие возможности открывает стажировка в Cloud.ru.
🔗 Регистрация

2️⃣Вебинар от Московского инновационного кластера: «Защита и регистрация интеллектуальной собственности в России»
🗓 14 мая, 12:00 по Мск, онлайн
Практические советы о том, как защитить свои разработки и оформить права на них.
🔗 Регистрация

3️⃣MTS Startup Hub: как найти и реализовать идею для технологического проекта
🗓15 мая, 19:00 по Мск, онлайн
Как придумать идею для стартапа, пройти путь предпринимателя и найти ресурсы на развитие.
🔗 Регистрация

4️⃣ Т-Банк: образовательный кредит — как получить высшее образование с господдержкой
🗓 20 мая, 19:00 по Мск, онлайн
Разберем условия образовательного кредита, преимущества, оформление и действия в случае отказа.
🔗 Регистрация

5️⃣MTS Startup Hub: анализ единорогов как топливо для развития стартапов
🗓 22 мая, 19:00 по Мск, онлайн
Как изучение успешных стартапов помогает понять рынок, находить инновации и строить перспективные бизнес-модели.
🔗 Регистрация

6️⃣ Карьерный буст: как ускорить профессиональный рост
🗓 29 мая, 19:00 по Мск, онлайн
Поговорим о карьерных стратегиях, востребованных навыках и росте в новых реалиях.
🔗 Регистрация

7️⃣MTS Startup Hub: создание прототипов и MVP
🗓 29 мая, 19:00 по Мск, онлайн
Как быстро и эффективно протестировать идеи на практике.
🔗 Регистрация

8️⃣Экскурсия в Сбер
🗓 30 мая, 16:30 по Мск, онлайн
Смотрим, как работает один из самых технологичных банков страны изнутри.
🔗 Регистрация

Участие во всех мероприятиях - бесплатное. Регистрируйтесь по ссылкам выше, а также:

➡️ Скачайте брошюру о магистратуре «Науки о данных»
➡️ Проходите курс «Введение в машинное обучение»
➡️ Получите доступ к записи Дня открытых дверей онлайн-магистратуры «Науки о данных»

И успейте подать документы в магистратуру в мае, чтобы получить специальные бонусы. Выберите магистратуру и оставьте заявку по ссылке.

Теги:
Рейтинг0
Комментарии0

Как я снова отравилась из-за океана — и при чём тут аналитика данных

  1. Температура, тошнота, диарея — это происходит со мной каждый раз после серфинга в дождливый сезон, когда в море сливается всё, что угодно — от мусора до банальных 💩.

  2. В северной части Тихого океана, на полпути между Гавайями и Калифорнией, вращается 100 000 тонн пластикового мусора. Добро пожаловать в Большое мусорное пятно — область, втрое больше Франции. Оно выглядит так же катастрофично, как и звучит: сверху напоминает гигантский пластиковый суп.

И это лишь 2 примера, подтверждающие: мусор в океане — это глобальный кризис, а не локальная история. Скоро мы вообще не зайдём в океан?

Ежегодно в океаны, реки и озёра попадает 19–23 млн тонн пластика — как если бы каждую минуту в воду сбрасывали 2 000 мусоровозов.

На поверхности океанов плавает около 170 трлн пластиковых частиц, а на дне может быть в 10 000 раз больше.

Ежегодно из-за мусора в океане погибают 100 миллионов морских животных. Страдают и морские растения, которые участвуют в производстве 70% кислорода.

В исследовании микропластик нашли в 99% морепродуктов. Это вызывает тревогу из-за возможного влияния на пищеварительную, эндокринную и другие системы организма.

Все ссылки на исследования опубликовала тут.

Чем помогает аналитика в этой проблеме?

В мире есть некоммерческие и частные организации, борющиеся с загрязнением. Например, The Ocean Cleanup очищает океаны от пластика с помощью инновационных технологий.

1. Определяют источники загрязнения, чтобы “поймать проблему на старте”

💡 80% пластика попадает в океан через ~1000 рек.

Чтобы найти эти «артерии загрязнения», анализируют спутниковые данные, гидрологические карты, поведение мусора в воде, данные о населении и инфраструктуре. Это позволяет не просто «ловить мусор в океане», а перехватывать его у истока — в реках.

2. Предсказывают, куда поплывёт мусор, чтобы точнее планировать очистку

— Камеры на мостах фиксируют мусор в реках
— GPS-буи и радары отслеживают его путь в океане
— ИИ-модели показывают, где и когда он соберётся в “мусорные вихри”

Это помогает запускать очистку точно там и тогда, где она даст максимальный эффект.

3. Визуализация, которая не оставляет равнодушным

Цифры — это важно, но именно визуализация заставляет почувствовать масштаб. Данные превращают в наглядные дашборды, которые:
— Показывают, где океан «захлёбывается» от пластика
— Делают проблему видимой и понятной
— Помогают влиять на решения политиков и доноров

Дашборды по загрязнению пластиком можно посмотреть тут.

4. Прогнозы на будущее и машинное обучение

Чтобы не просто тушить пожары, а предотвращать их, аналитики обучают модели, которые помогают заглянуть вперёд:
— Что будет с океаном, если мы продолжим жить «как обычно»?
— А что изменится, если сократим пластик хотя бы на 20%?
— Где появятся новые точки бедствия через 5 лет?

Такие организации нанимают аналитиков данных и стажёров — есть вакансии по визуализации, машинному обучению, компьютерному зрению, анализу временных рядов (ссылки на вакансии опубликовала тут).

Или можно стать гражданским учёным и внести свой вклад, документируя пластиковое загрязнение с помощью специальных приложений (Ocean Cleanup Survey App или Debris Tracker).

Теги:
Всего голосов 6: ↑5 и ↓1+6
Комментарии2

Эффективная аналитика данных: GlowByte представит кейс METRO C&C на Russian Retail Show 2025

GlowByte выступит серебряным партнером Russian Retail Show 2025. Максим Серов, Head of BI and Integration в METRO C&C, и Александр Брежнев, руководитель отдела продаж BI-решений в GlowByte, станут спикерами секции PRODATA 23 апреля.

Эксперты поделятся историей "Выбор BI-платформы: ставка на эффективность", в которой расскажут о платформе для самостоятельного анализа данных FineBI, позволяющей бизнес-пользователям без глубоких технических знаний проводить сложные аналитические операции.

В рамках презентации будут затронуты особенности ИТ-ландшафта METRO C&C – компании с 93 торговыми точками в 51 регионе России, и вызовы, с которыми столкнулись специалисты при построении гомогенной аналитической платформы.

Также вы узнаете об уникальном подходе GlowByte к пилотным проектам, который позволяет за 1,5-2 месяца провести полноценное тестирование BI-системы и принять взвешенное решение о внедрении без значительных затрат ресурсов.

Выступление состоится в зале "ЭФФЕКТИВНОСТЬ". Будем рады встретиться, пообщаться и ответить на ваши вопросы на Russian Retail Show 2025!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Хабр, привет!

Завтра, 22 апреля, в 09:00 мск стартует ArenaDAY 2025 — крупнейшая конференция по управлению данными и аналитике. Мы понимаем, что в будний день не у всех получится включить видеотрансляцию, поэтому запускаем текстовую онлайн-трансляцию.

Вас ждёт:

  • Шесть тематических секций: «Бизнес-кейсы», «Продукты», «Гибридное хранилище», «Будущее», Data Governance и Investor Day; отдельная демозона с живыми показами решений и экосистемы Arenadata.

  • Кейсы от ВТБ, «Газпромнефти», МКБ, «Росатома», «Северстали», «МегаФона» и других лидеров.

  • Интерактивы и розыгрыши.

Сохраните этот пост в закладки — ровно в 09:00 здесь появится ссылка на текстовую трансляцию ArenaDAY. До встречи в онлайне!

 Ссылка на трансляцию: https://habr.com/ru/companies/arenadata/articles/902964/

Теги:
Рейтинг0
Комментарии0

Приключение Запроса в Царстве Данных: Как CATALIST Провёл SELECT через Опасности Оптимизации

Привет, друзья! С тех пор, как в моей жизни появился маленький человечек, я погрузился в мир сказок — читаю их каждый вечер. И вот подумал: а что, если оживить сухие технические термины через волшебные метафоры? Так родилась «Приключение SELECT в Царстве Данных» — история о том, как запрос проходит путь от строки кода до результата, встречая на пути оптимизаторов, шардинг-великанов и магию Catalyst’а.

О чём эта сказка?

  • Как CATALIST (наш рыцарь-оптимизатор) сражается с неэффективными планами.

  • Почему Shuffle — это бурная река, которую нельзя пересечь вброд.

  • Зачем Skew-великана нужно посыпать «солью».

Это не просто фантазия — под метафорами спрятаны реальные процессы Spark: парсинг, predicate pushdown, broadcast join и борьба с skew-данными.

1. Врата Валидации: "Ты ли ты?"
Запрос select id, name, s.salary from users u inner join salaries s where u.part_date = '2025-01-01' робко постучался в высокие врата Царства Данных. Стражник CATALIST в доспехах из кода Scala встретил его:
"Покажи свои намерения! Где твои таблицы? Совпадают ли имена колонок?"

SELECT дрожа протянул:
"Я ищу id, name из users и salary из salaries... И только за 2025-01-01!"

CATALIST раскрыл древний свиток Catalog:
— «users и salaries есть в хранилище. Но part_date… А, это партиция! Проходи, но держись пути — дальше Лес Логических Преобразований

Стражник толкнул тяжёлые врата, и запрос шагнул в густой лес, где деревья-операции сплетались в непролазные дебри.

2. Лес Логических Преобразований: "Сруби лишнее!"

Ветви операций JOIN и Filter обвивали тропу. CATALIST вынул топор Predicate Pushdown:
— «Фильтр по дате должен быть ближе к users! Зачем ждать JOIN?»

Удар! Дерево плана рухнуло, открыв путь:

TEXTJOIN  
  → Scan users (part_date = '2025-01-01')  // Фильтр переместился сюда!  
  → Scan salaries  

— «Теперь к Реке Shuffle! Но берегись — она бурная!»

Они вышли к бурлящей реке, где волны данных сталкивались в хаосе.

3. Река Shuffle: "Выбери правильный мост!"

— «Как перейти? — испугался SELECT. — Здесь же все утонем!»

CATALIST достал карту Статистики:
— «users после фильтра — 10 тыс. строк, salaries — миллион. Мост BroadcastJoin выдержит!»

Магический мост вспыхнул, соединив берега. Данные salaries превратились в светящиеся шары и разлетелись к исполнителям.

— «Вперёд, к Горам Физического Плана! Там рождается настоящая сила!»

За холмом возвышались остроконечные пики, где гномы-компиляторы ковали байт-код.

4. Горы Физического Плана: "Куй быстрее, куй умнее!"

В пещере Tungsten гномы кричали:
— «Никаких Java-объектов! Только примитивы!»

CATALIST бросил им логический план:
— «Превратите это в код! Да будет векторизация!»

Молоты застучали:

JAVAif (row.getDate(3) == 2025-01-01) {  // Фильтр по part_date  
  emit(row.getInt(0), row.getString(1));  // id и name  
}  

— «Теперь — в Долину Исполнения, где задачи становятся результатом!»

Они спустились в зелёную долину, где партиции данных складывались в аккуратные стопки.

5. Долина Исполнения: "Собери пазл!"

Исполнители в синих мантиях хватали партиции и кричали:
— «Task 1 готов! Task 2 завершён!»

Но вдруг из-за скалы выполз Skew-великан с мешком, где 90% данных висело на одном плече:
— «Не пройдёте! Разорву ваши партиции!»

CATALIST рассыпал волшебную Соль:
— «Пусть каждый ключ обретет случайный суффикс!»

Великан взревел и рассыпался на сотни мелких духов. Shuffle-река успокоилась.

6. Финал: "Свет знаний"

На краю долины ждал ResultTask с золотым свитком:
— «Данные собраны! Вот твой результат: /data/output/part-0000.snappy.parquet».

CATALIST кивнул:
— «Запомни: без Catalog — ты слеп, без оптимизаций — медлен, а без борьбы с skew — обречён!»

Мораль:
Даже самый простой запрос — это путешествие через:

  1. Валидацию (что ты есть?),

  2. Логические преобразования (как сократить путь?),

  3. Физический план (как сделать быстро?),

  4. Исполнение (как не утонуть в данных?).

🔗 Каждый этап связан: нельзя прыгнуть в реку Shuffle, не построив мост из физического Join, и не победить Skew-великана

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Регистрируйтесь на Fine Day 2025 в GlowByte: Как избежать скрытых расходов при внедрении BI?

Внедрение бизнес-аналитики (BI) — это не просто покупка инструмента, а долгосрочная инвестиция. Но знаете ли вы, сколько на самом деле тратит ваша компания на поддержку и развитие BI-системы?

Друзья, 17 апреля в 16:00 (МСК) GlowByte проведет ежегодную онлайн-конференцию, посвященную реальной стоимости BI-решений. Приглашаем всех, кто хочет оптимизировать затраты на BI!

Что обсудим?

Скрытые расходы: какие неочевидные траты есть в BI-проектах и как их избежать?
Self-service BI: как оценить эффективность и снизить стоимость владения?
Реальные кейсы: опыт компаний, уже внедривших BI.

Где прячутся переплаты?

BI помогает бизнесу расти, но неконтролируемые затраты могут свести пользу на нет. На конференции разберем вопросы:
- Как оценить реальную цену данных.
- Оптимизация расходов без потери качества аналитики.
- Ошибки, которые удорожают BI-проекты.
- Успешный опыт компаний.

Почему стоит участвовать?

 Вас ждут кейсы топ-компаний:

  • Альфа-Лизинг – Реальная стоимость данных: за что платит бизнес?

  • Газпромбанк – BI: центр затрат или источник экономии? Опыт интеграции FineBI с Service Desk.

  • СИБУР – Self-service BI: как контролировать расходы.

  • t2 – Как не уйти в минус при внедрении BI?

Будут только практические решения – реальный опыт, без воды.
Бонусы для участников: GlowByte предоставит чек-лист «BI без переплат», сделает запись эфира, и вы получите возможность задать вопросы спикерам.

Участие бесплатное! Регистрация по ссылке.

Будет круто и очень полезно, подключайтесь!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Друзья инженеры, разработчики пишу в Вашу поддержку честный отзыв о наших соотечественниках.

НАБОЛЕЛО!!!!

Что бы вы не сделали, диванным критикам просто до одного места! Даже диван на котором он лежит это тоже Г-но потому, что болит левая пятка.

Семь лет назад нам нужен был промышленный компьютер (1000 штук), который бы собрал данные через промышленные протоколы и отправил их в облачную платформу с бюджетом до 15к (400 баксов) рублей на то время.

По какой то причине мы не заметили контроллер Wirenboard 6 (на процессоре NXP который покрывал все наши задачи) и начали разработку своего устройства AntexGate на базе Raspberry cm3 (теперь уже на Raspberry CM4 )


Сколько же хейта мы услышали в инфополе в свой адрес, но чем больше критики тем больше тебя узнают и покупают.

Мы тратим много сил и средств, чтобы развивать свой продукт и поддержку, отвечаем в Телеграм канале почти круглосуточно на вопросы.

Имея таких конкурентов как Wirenboard, ОВЕН, RealLab, Siemens .... мы нашли своих клиентов и продаем в год более 700 компьютеров.

Мы заморозили свое прибор до -65 (легко запустился на таком морозе), нагрели до +101 (на 102гр выключился).
Все равно получаем каждый день отзывы: "Вы просто засунули малину в свое коробку!"
Нет не просто! Мы угрохали более 5 лет жизни небольшой команды на то, чтобы это все работало - "Так как должно!" Перебрали рефенсные схемы самых именитых Европейских производителей под свои реалии.


Теперь про миллионы - чтобы развиваться у нас уходит почти вся наша прибыть не в карман, а в разработку новых приборов и поддержку уже имеющегося, однако никто в команде не жалуется на свою ЗП и мы стараемся чтобы она росла.


Я желаю пройти каждому разработчику правильный путь и по возможности сделать свое решение на сколько можно.
Я надеюсь, что оттепель настанет в нашей стране и появятся действительно Росcийские процессоры и другая элементная база, а пока увы Broadcom, Raspberry, NXP да на худой конец RockChip главное что-то делать и с голоду не умереть.


Уважаемые инженеры - разрабы, присоединяйтесь к нашему каналу в телеге мы ответим на любой вопрос (как сделать корпус, выбор источника питания и тд..), поможем и поддержим, дадим ответ на любой вопрос не только по прибору, но и любой другой.
Спасибо за внимание.

Теги:
Всего голосов 15: ↑14 и ↓1+16
Комментарии10

Петля времени в пайплайне для уменьшения числа галлюцинаций в LLM

Это — грубая схема работа RAG-пайплайна, который использует одна из ML-команд в YADRO.

Задача команды: улучшить качество выдаваемых ответов на запросы пользователей, исключив галлюцинации.

Что сделали инженеры?

Решили дообучить базовую модель при помощи LoRA на специально собранном датасете для ситуаций, когда в контексте нет ответа на вопрос пользователя. На тот момент в качестве базовой модели LLM использовали saiga_mistral_7b, которая нетребовательна к ресурсам и долгое время была в топе на Russian SuperGLUE. Есть модели лучше, но, как правило, они либо огромные, либо имеют проблемы с лицензией в России, в том числе все, что основаны на LLaMa.

Самое главное: в этом RAG-пайплайне ML-инженеры решили сделать опциональную петлю, в которой проверяли бы каждый найденный фрагмент контекста на релевантность вопросу пользователя. Только те куски контекста, которые пройдут проверку, будут попадать в финальный вопрос для LLM.

Чтобы петля фильтрации работала правильно, нужен некий маркер, который позволяет однозначно определить, что модель считает кусок контекста нерелевантным.

Что это и за маркер? И к каким результатам привела оптимизация работы модели, читайте по ссылке → 

Спойлер: Модель DeepSeek-R1-Distill-Qwen-7B уступила saiga_mistral_7b по качеству, несмотря на то, что первая намного новее и вооружена механизмом reasoning.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Рег.ру ускорил работу с облачной аналитикой в 2 раза

В облаке Рег.ру совместно с компанией «Фабрика Данных» провели высоконагруженные вычисления с Big Data и ускорили работу с облачной аналитикой. Делимся результатами проекта.

Компания «Фабрика Данных» занимается работой с высоконагруженными проектами: аналитикой данных, выявлением трендов и мониторингом спроса в областях FMCG, производства, финансов и др. С помощью ее продуктов можно получить персонализированные рекомендации по управлению ассортиментом товаров, ценообразованию и маркетинговым стратегиям. Для своих задач компания использует облачные серверы с GPU в Рег.ру. Рассказываем, каких результатов это помогло достичь:

  • ускорили работу с облачной аналитикой в 2 раза;

  • 100% — такой уровень отказоустойчивости сервиса обеспечили;

  • почти на четверть повысили точность принятия решений при работе с аналитическими сервисами.

Подробнее о результатах проекта читайте на сайте.

А чтобы запустить и протестировать собственные проекты с высоконагруженными задачами, воспользуйтесь облачными серверами с GPU от Рег.ру.

Сервис оснащен двумя типами видеокарт NVIDIA: А5000 24Гб и А100 80Гб и подходит для выполнения ресурсоемких задач: для работы с AI и ML, графикой и видео, 3D, VDI и др.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Kryptonite ML Challenge подходит к концу!

Члены жюри, наши эксперты из лаборатории ИИ, отсмотрели все присланные решения и определились с финалистами!

В это воскресенье, 16 марта, в 12:00 пройдёт онлайн-питчинг проектов, а затем официальное закрытие Kryptonite ML Challenge.

Всех приглашаем присоединиться к трансляции — она будет в нашем паблике VK. Оставляем ссылку.

Теги:
Рейтинг0
Комментарии0

⁠⁠Метрики и слова “черные дыры”⁠⁠


В работе мы ежедневно оперируем сотнями терминов и определений, но многие из них не имеют однозначной трактовки. Из-за этого во время обсуждений вы и коллеги можете подразумевать совершенно разное, называя это одинаковыми словами. Такие слова- «чёрные дыры» в процессе коммуникации поглощают время и энергию, но так и не приводят к нужному результату.

В аналитике проблема становится острее: «чёрными дырами» могут оказаться метрики. За каждой из них стоит методология расчёта, которую участники не всегда полностью понимают. Это грозит не только недопониманием, но и ошибочными бизнес-решениями.

Не все метрики подвержены риску: например, DAU/MAU обычно понятны команде. А вот финансовые показатели или продуктоспецифичные метрики часто становятся «дырами».

Как избежать проблем?

1. Задавайте вопросы без стеснения

Уточнения экономят время всем. Поддерживайте культуру, где вопросы приветствуются. Если на встрече много новичков — начните с мини-словарика терминов. Это повысит эффективность дискуссии в разы!

2. Мы в ответе за тех, кого приручили

При создании новой метрики назначайте ответственного. Его задача — актуализировать информацию и оперативно информировать команду об изменениях. Используйте каталоги метрик, глоссарии или внутренние базы знаний.

3. Онбординг с живыми материалами

Учебные документы часто устаревают быстрее, чем развивается компания. Решение: каждый, кто сталкивается с неоднозначностью и находит ответ, обязан добавить пояснение в общий глоссарий.

А вы сталкивались с «чёрными дырами» в терминах или метриках?

К чему это привело? Делитесь в комментариях! ✍ И подписывайтесь на tg data_dreamen, там еще больше про аналитику

Теги:
Рейтинг0
Комментарии0

Google представила бесплатного ИИ-помощника по Data Science:

  • ИИ-агент не просто генерирует куски кода, сразу создаёт полноценные блокноты.

  • ИИ анализирует, визуализирует и пишет весь код на Python.

  • Всё, что нужно: загрузить любой датасет до 1 Гб и выдать задачу.

  • Нейросеть предложит план и поэтапно обработает все данные.

  • На выходе готовый код или диаграммы.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Основа хорошей разметки — правильно подобранная команда и выстроенные процессы

Административных подходов к разметке данных несколько:

  1. Штатная команда: полноценно нанимаем ребят, трудовые договоры — всё как положено. Хорошо для больших задач, особенно, если необходим доступ к чувствительным данным.

  2. Самозанятые (администрируем сами): упрощённый вариант, который позволяет не брать людей в штат, а заключать с ними простые договоры на сдельную работу и использовать проектный бюджет. Из плюсов — быстрый «найм», оптимизация налогов, сдельная оплата. Из минусов — большая текучка и юридические сложности: нельзя предоставлять рабочее место и налоговой должно быть очевидно, что эти люди не идентичны штатным сотрудникам.

  3. Аутсорс-компании: сторонние команды, которые специализируются на разметке. Основное преимущество — масштабируемость и простота в администрировании для нас, как для заказчика. И плюс не нужна своя платформа разметки.

  4. Крауд-платформы: агрегируют большое количество исполнителей, которые могут выполнять ваши несложные задачи. Аналогично с предыдущим пунктом — не нужна своя платформа разметки, но нужно уметь ей грамотно пользоваться.

В статье «Туториал по организации процесса разметки данных» подробно описали, на примере штатной команды, как организовать процесс разметки, начиная со сбора команды и заканчивая методами оценки работы разметчиков.

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии1

Ближайшие события

Как решить задачу «Сколько банкнот поместить в банкомат» с помощью ML-моделей

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Банкомат для банка — это источник и доходов, и расходов. Да, банкоматы приносят деньги, когда берут комиссии, принимая карты других банков, или выдают наличные с кредитных счетов. Но и содержание банкоматов — это регулярные расходы: устройства требуют сопровождения и страхования, они изнашиваются, их перемещение и чистка также требует вложений. Каждый выезд инкассаторов, каждый пересчёт кассет и их загрузка в устройство связаны с тратами.

Ко всему прочему, банк не может использовать деньги, которые находятся в банкомате, соответственно, не может на них зарабатывать: средства, залежавшиеся в устройстве, в итоге создают убыток. Список статей расходов у банкомата заметно более внушительный, чем список источников его дохода.

К чему это всё здесь описано? Рассчитать, сколько денег поместить в каждый конкретный банкомат — это задача с несколькими параметрами. Наскоком её не решить, например, не получится загружать все банкоматы деньгами по полной. Ведь иногда так бывает, что у двух рядом стоящих банкоматов к концу дня количество банкнот к концу дня отличается в разы, тогда в одном банкомате наличность будет простаивать.

Как решить задачу с банкоматами читайте в статье.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Как мы создали FAQ для клиентов КНАУФ на базе RAG – из разрозненных документов и всего за 2 недели?

Привет, Хабр! Хотим поделиться кейсом внедрения Jay Knowledge Hub в клиентский сервис КНАУФ. Для тех, кто не в курсе, КНАУФ – крупнейший производитель строительных отделочных материалов из гипса.

В сфере строительства и ремонта у потребителей часто возникают вопросы, связанные с выбором подходящих материалов или их правильным использованием. Покупатели регулярно обращаются за советами в службу поддержки КНАУФ, причем, по статистике, до 50% запросов поступает в нерабочее время операторов.

Для общения с клиентами КНАУФ активно применяет ботов, которые доступны на сайте, в VK, Telegram, по электронной почте и через телефонные каналы. Однако традиционные чат-боты не всегда способны справиться со сложными запросами пользователей. А для КНАУФ важно не только быстро реагировать, но и давать клиентам полноценные консультации.

К тому же, учитывая огромный спектр продукции и нюансов ее применения, обучение сценарного бота занимает слишком много времени. Требуется время на разбор вопросно-ответных пар, проверку актуальности данных и обновление бота. Поэтому в компании решили попробовать новый подход на базе генеративного ИИ и интегрировали Jay Knowledge Hub, интеллектуальную систему для поиска по неразмеченным данным на основе RAG и дата-агентов.

  • Как Jay Knowledge Hub помог компании создать AI-ассистента Kai, который за две недели научился отвечать на 3000+ вопросов;

  • Как интеграция RAG-технологии повысила точность ответов до 89%;

  • Как Jay Knowledge Hub превращает документы (pdf, docx, таблицы) в единый источник знаний;

  • Какие настройки применялись для проекта КНАУФ: как повторить успех.

Приходите на вебинар 18 февраля в 13:00, чтобы узнать, как происходила интеграция Jay Knowledge Hub и узнать о возможностях платформы.
Зарегистрироваться можно по ссылке.

Теги:
Рейтинг0
Комментарии0

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

  1. Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой. 

    Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.

  2. Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).  

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Запланируйте, какие вебинары посетите в феврале 📅

Регистрируйтесь на бесплатные вебинары, чтобы узнать больше про работу с сервисами платформы Cloud․ru Evolution:

А еще на каждом вебинаре будет сессия вопросов и ответов, на которой вы сможете задать экспертам любые интересующие вопросы по теме.

Присоединяйтесь!

Теги:
Рейтинг0
Комментарии0

Проекты на базе продуктов Arenadata стали победителями конкурса «Проект года»

Участники профессионального сообщества лидеров цифровой трансформации Global CIO подвели итоги ежегодного конкурса для ИТ-директоров и топ-менеджеров «Проект года». В этом году его провели уже в тринадцатый раз, а в числе победителей вошли проекты, реализованные на базе продуктов Arenadata. 

На конкурс номинировали 12 проектов с продуктами Arenadata. В номинации «Управление и хранение данных» победил проект «Корпоративная дата-платформа» ПАО «Газпром нефть», а в спецноминации «Банки/Финансы» — проект импортозамещения ИТ-инфраструктуры АО «Газпромбанк».

В конкурсе участвовали шесть проектов ПАО ВТБ, пять из которых стали победителями. Среди них: система прогнозирования процентного риска (ALM-платформа), RWA-калькулятор 2.0, импортозамещение витрин данных для ФОИВ, управление финансами на основе трансфертного ценообразования и система мотивации сети продаж и СМБ.

Подробнее о победивших проектах

Проект ПАО «Газпром нефть». Цель — создать единую платформу для работы с данными на базе отечественных решений, оптимизировать процесс обработки и анализа данных, повысить эффективность и снизить стоимость проектов за счёт использования общей инфраструктуры. Уникальность заключалась в построении единого конвейера, где всё базируется на общих бизнес- и технических метаданных. Использовались Arenadata DB (ADB) и Arenadata QuickMarts (ADQM).

Проект АО «Газпромбанк». Проект по импортозамещению ИТ-инфраструктуры и переводу значимых объектов критической информационной инфраструктуры на суверенные решения. Важными задачами стали сохранение высокого уровня удобства, доступности и безопасности цифровых услуг, а также формирование технологических стандартов для рынка. Обработка больших данных ведётся на базе продуктов Arenadata.

Главной целью проекта ПАО ВТБ «Реализация прогноза метрик процентного риска банковской книги в ALM-платформе» стала реализация системы сценарного анализа риск метрик в части процентного риска банковской книги, чистого процентного дохода, маржинальности банка. В качестве одного из элементов ALM-системы использован дистрибутив распределённой платформы хранения больших данных Arenadata Hadoop (ADH).

Другой проект ПАО ВТБ был посвящён импортозамещению продукта SAS RRM для корпоративного контура банка, SAS ECL для розничного бизнеса, Oracle Exadata в части автоматизации расчета RWA по кредитному риску и расчета резервов по МСФО ФЛ и разработке собственного решения. В качестве одного из продуктов для хранения данных была выбрана Arenadata DB.

В проекте «Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)» от ПАО ВТБ важной целью стало развитие ФОИВ и развитие слоя источника данных для предоставления ответов на запросы ведомства. В рамках проекта было перенесено 22 витрины с данными, начиная с 2017 года, по более чем 1300 атрибутам. Проектирование и построение витрин, а также ETL-процессы по их обновлению выполнены на Arenadata Hadoop и Arenadata DB.

Проект ПАО ВТБ «Управление финансами на основе трансфертного ценообразования» был направлен на формирование на импортозамещенном стеке технологий витрины данных по расчету внутреннего аналитического финансового результата. Это улучшило «time to market» по доступности данных на 2 рабочих дня и позволило глубже анализировать доходность банковских продуктов. Использованы Arenadata DB и Arenadata Hadoop.

Ещё один проект ВТБ — «Система мотивации Сети продаж и Стримов блока СМБ» (номинация «Управление маркетингом и продажами») — был направлен на внедрение автоматизированной системы работы с большими данными для новой модели продаж и обслуживания клиентов сегмента СМБ. В числе используемых технологий — Arenadata DB.

Подробнее о конкурсе «Проект года»

«Проект года» — ежегодный конкурс ИТ-проектов от Global CIO, ключевая площадка для обмена опытом в цифровизации. Среди победителей разных лет — проекты на базе Arenadata от «Газпром нефть», ВТБ, X5 Retail Group и других.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Конец профессии? Может ли ИИ заменить аналитиков?

Всем привет на связи data dreamen!

На фоне новостей о выходе новых моделей ИИ — DeepSeek и Qwen2.5-Max, которые, судя по тестам, местами даже превосходят решения OpenAI, снова возникает вопрос: что будет дальше? Сможет ли ИИ заменить меня, аналитика? И что мне с этим делать?

Если коротко — пока нет. Это подтверждает исследование Всемирного экономического форума: профессии, связанные с аналитикой данных и Data Science, занимают 11-е место среди самых перспективных к 2030 году. DWH-инженеры находятся на 6-м месте, а специалисты по Big Data и вовсе возглавляют этот список.

Однако, несмотря на высокий спрос на аналитиков, ИИ все же серьезно повлияет на рынок и характер работы в этой сфере. Вопрос в том, как именно.

① Автоматизация инструментов. ИИ будет активно заменять рутинные задачи, в том числе у аналитиков. Написание кода, выгрузка данных, подготовка отчетов — всё это будет автоматизироваться, минимизируя ручной труд.

② Развитие self-service. Чем больше задач автоматизируется, тем меньше заказчикам потребуется обращаться к аналитикам напрямую. Многие вопросы смогут решаться через self-service инструменты, снижая нагрузку на команду аналитики.

③ Масштабирование и рост зоны ответственности. ИИ возьмёт на себя базовые аналитические задачи, а аналитикам останутся более сложные, стратегические и ответственные решения — там, где автоматизация не справляется.

Что все таки ИИ не сможет сделать с аналитиками?

① Разработка и принятие нестандартных решений. ИИ — это модель, обученная на данных, но он не обладает креативностью и не умеет находить альтернативные пути решения. Когда нужно выйти за рамки типовых сценариев, роль человека остаётся ключевой.

② Контекст, бизнес-логика и коммерческая тайна. Во многих компаниях процессы настолько сложны, что даже человеку требуется несколько лет, чтобы в них разобраться. ИИ может помогать, но учесть все нюансы и скрытые факторы ему пока не под силу. К тому же, передача коммерческих данных открытым моделям может быть небезопасной.

③ Коммуникация. Аналитика — это не только цифры, но и умение "продать" свои выводы бизнесу, донести ценность и добиться внедрения решений. Даже идеальный расчет не будет полезен, если его не смогли правильно презентовать. Ну и, конечно, навыки постановки ТЗ у заказчиков пока не оставляют шансов ИИ полностью заменить аналитиков.

Что же в итоге нас ждет?

Скорее всего, компании будут разрабатывать собственные решения или внедрять рыночные инструменты для автоматизации аналитики, например:

  • конвертеры текстовых запросов в SQL-скрипты

  • АВ-платформы, которые смогут работать без участия аналитиков

  • визуализаторы данных, создающие отчёты по текстовому запросу

В результате акцент в работе аналитиков сместится: на первый план выйдут не базовые хард-скиллы (SQL, Python, BI-инструменты), а умение применять их в сложных и нестандартных ситуациях.

📉 К сожалению, это сильнее всего ударит по джунам — для принятия сложных решений нужен опыт, а простые задачи постепенно автоматизируются.

Но те, кто сможет адаптироваться, будут только в выигрыше! 🚀

Подписывайтесь на тг, там еще больше полезного и интересного про аналитику - https://t.me/data_dreamen

⁠⁠

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

В конце прошлого года Группа Arenadata выпустила обновления ряда своих продуктов.

Новые релизы:

  • Arenadata DB (ADB) — v6.27.1.59;

  • Arenadata DB Backup Manager (ADBM) — v2.3.2;

  • Arenadata DB Control (ADBC) — v4.11.0;

  • Arenadata Streaming (ADS) — v3.6.2.2.b1;

  • Arenadata Catalog (ADC) — v0.8.0;

  • Arenadata Cluster Manager (ADCM) — v2.5.0.

Обновления компонентов Arenadata Cluster Manager (ADCM):

  • Arenadata Monitoring (ADM) — v4.1.0;

  • Arenadata Enterprise Tools (ADET) — v2024121800.

В новых версиях улучшена производительность, исправлены ошибки, добавлен новый функционал и дополнительные возможности.

⛓ Текст обзора и ссылки на полное описание релизов здесь.

Теги:
Всего голосов 5: ↑4 и ↓1+3
Комментарии2

Вклад авторов