Big Data *

Большие данные и всё о них

Блог компании Cloud.ruIT-инфраструктура * Big Data * Облачные сервисы * Искусственный интеллект

Что будем обсуждать и про что рассказывать на GoCloud Tech ☁️

3 сентября, уже почти через месяц, состоится наша вторая технологическая IT-конференция про облака и AI — GoCloud Tech.

Мы запланировали для вас четыре трека:

🤖 AI&ML — про AI-продукты нашей разработки и работу с GenAI. Узнаете, как устроены RAG-системы и мультиагентные ассистенты, а также, как они уже применяются в работе и как начать их использовать

☁️ Cloud Infrastructure — про построение устойчивой, масштабируемой и безопасной облачной инфраструктуры: нюансы сетевой архитектуры, проектирование IaaS‑кластеров на K8s, возможности балансировщиков и производительность SDN.

📈 Data&Analytics — про современные подходы к Big Data и аналитике: тренды, возможности облачных сервисов, интеграцию с AI-агентами и инструменты для быстрого и эффективного решения задач хранения, обработки и анализа.

⚙️ Dev Platform Services — в рамках трека разберем детали и заглянем «под капот» решений, чтобы затем облегчить повседневную рутину разработки и настройки сервисов, а еще — оптимизировать процессы в инженерных командах.

А еще вас ждет:

демо и интерактивные зоны новых AI-сервисов и сервисов платформы Cloud․ru Evolution;
технические воркшопы;
нетворкинг, кастомный мерч и afterparty.

Как принять участие:

Подключайтесь к онлайн-трансляции в VK и на Twitch (ссылка придет зарегистрированным участникам в письме) или приходите в Лофт-пространство Goelro в Москве. Собираемся 3 сентября в 10:00, а основную программу начинаем в 11:00. Кстати, ей мы тоже совсем скоро с вами поделимся.

Зарегистрироваться 👈

А пока можно почитать, как прошли наши предыдущие конференции:

-1

AlfaTeam

1 авг в 16:169.6K

Блог компании Альфа-БанкBig Data * Машинное обучение * Управление персоналом *

Как прокачать геймификацию в команде?

В учебнике по обществознанию за 9 класс есть определение экономики как науки: «Экономика — наука о том, как люди удовлетворяют свои постоянно растущие потребности в условиях ограниченности ресурсов». То же самое и в разметке — нам нужно удовлетворять постоянно растущие потребности в объёмах и качестве, а бюджет ограничен. Помочь в этом может система мотивации.

Как мотивировать команду не только премиями, но и азартом? В Альфа-Банке внедрили прозрачный рейтинг, ачивки и систему нематериальной мотивации — это не только повысило качество работы, но и вдохновило сотрудников активнее делиться опытом, писать статьи и достигать выдающихся результатов. Реальный кейс описали в статье: «Вот так подкрути геймификацию и мотивация болеть не будет». Несколько простых инструментов — и ваш коллектив начнёт расти и конкурировать с азартом.

Arenadata

30 июл в 10:106.1K

Блог компании ArenadataPostgreSQL * Big Data * Хранение данных * Data Engineering *

Выпущена новая версия СУБД Picodata — Picodata 25.3

Компания Picodata (входит в Группу Arenadata) выпустила новую версию СУБД Picodata — Picodata 25.3. Обновление включает расширенные возможности SQL, механизм автоматического обновления схемы данных, а также повышение стабильности кластера.

Улучшение обратной совместимости

В Picodata 25.3 реализовано автоматическое обновление схемы данных при переходе инстансов на новый релиз Picodata. Этот механизм учитывает сделанные изменения в системных таблицах и сохраняет обратную совместимость при обновлении на следующий релиз СУБД: при переводе кластера на новую версию Picodata необходимые DDL/DML-команды выполнятся без вмешательства администратора, а требуемые в новой схеме внутренние функции также будут созданы автоматически.

Новые возможности SQL

В релиз добавлены новые возможности языка SQL в Picodata, в частности:

поддержка NULLS FIRST/LAST при сортировке результатов запроса (ORDER BY);
обработка конфликтов при вставке данных в глобальные таблицы (INSERT INTO … ON CONFLICT DO FAIL/REPLACE/NOTHING);
новая встроенная оконная функция LAST_VALUE();
оператор % для определения остатка деления по модулю для целых чисел;
возможность определения лидера raft-группы через функции pico_raft_leader_id() и pico_raft_leader_uuid();
возможность определения версии текущего инстанса с помощью функции version();
изменение, связанное с совместимостью: вместо скалярной функции instance_uuid (которая теперь объявлена устаревшей), рекомендуется использовать новую функцию pico_instance_uuid.

Улучшенная совместимость с PostgreSQL

Picodata теперь поддерживает безопасное соединение при обращении к внешнему LDAP-серверу. При подключении через протокол PostgreSQL (например, с помощью клиента psql) с методом аутентификации LDAP можно задействовать TLS-шифрование (при условии, что оно включено на LDAP-сервере). На стороне Picodata для этого потребуется установить значения у трёх переменных окружения. Например:

export TT_LDAP_URL="ldap://127.0.0.1:1389"
export TT_LDAP_DN_FMT='cn=$USER,ou=users,dc=example,dc=org'
export TT_LDAP_ENABLE_TLS=true

Изменение в конфигурации

Добавлен новый параметр instance.pg.advertise — публичный адрес сервера для подключения по протоколу PostgreSQL. По умолчанию, его значение соответствует значению instance.pg.listen. Этот параметр пригодится в ситуации, когда снаружи инстанс доступен по адресу, отличающемуся от адреса во внутренней сети.

Улучшенный веб-интерфейс

Команда Picodata продолжает развивать компонент webui для Picodata. В версии Picodata 25.3 веб-интерфейс не просто выглядит лучше, он также стал удобнее и информативнее:

на панели Cluster ID отображается больше полезной информации, включая список включённых плагинов;
в области просмотра сведений об инстансе теперь присутствует адрес подключения по протоколу PostgreSQL.

Механизм плагинов

При подключении плагина к кластеру Picodata теперь допускается расхождение минорных версий плагина и инстанса (например, плагин, собранный для версии 25.3.1, будет работать в Picodata 25.3.2).

Полный список нововведений и список исправленных ошибок доступны в документе CHANGELOG.

Роль Picodata для Ansible

Выпущена новая версия роли Picodata для Ansible, которая совместима с Picodata 25.3. Изменения в роли:

при сборке информации при сбое (тег crash_dump) можно исключить сборку snap- и xlog-файлов;
добавлена возможность выполнять lua-команды на инстансах кластера (тег command);
исправлена работа с несколькими плагинами в инвентаризационном файле и ряд прочих ошибок.

Для установки Picodata 25.3 следуйте инструкциям на сайте. Готовые пакеты доступны для следующих дистрибутивов Linux:

Astra 1.8
Debian 12 (bookworm)
RHEL/Rocky 9
Fedora 41–42

Инструкции и руководства по установке, использованию и администрированию Picodata размещены на портале документации Picodata.

TD-TD

19 июл в 10:227K

Поисковые технологии * Базы данных * Big Data * Поисковая оптимизация * Будущее здесь

Конец экспертизы и конкуренции?

В интересное время мы живём. Вернулся намедни с конференции, полностью посвящённой AI-инструментам для бизнеса и параллельно начал читать книгу весьма любопытного китайца с юморным именем Кай-Фу Ли. Настоящие кайфули, а не обрыдшее деловое чтиво, это видно уже по первым страницам.

Давненько не попадалось таких насыщенных смыслами бизнес-изданий. Чуть ли ни каждая глава содержит квинтэссенцию глубоких мыслей продвинутого практика и стратегическое видение «человека мира», именно на уровне мира. Спорить не с чем, всё чётко разложено по полочкам. Мало того, всё, что было автором предсказано, уже происходит и именно так, как было описано. Книга, на секундочку, издана в России в 2019-м году, т.е., написана была значительно раньше. С удивлением узнал, что развивается AI ещё с 80-х, а основные вехи в его развитии приходятся на середину нулевых и одно из самых значимых событий произошло в 2012-м. Ничего про это не знал тогда, да и сейчас это стало для меня большим сюрпризом.

И ещё мне очень понравилось сравнение автором эпохи AI с эпохой внедрения человечеством электричества. И то и другое уже изменило облик и всё, что происходит на планете Земля, только изменения, которые привносит прямо сейчас AI, могут оказаться даже более глобальными в итоге, чем это было в случае с электричеством.

Что же стало ясно как божий день, когда почти месяц сам начал интенсивно пользоваться нейросетями, да ещё послушал/почитал умных людей, которые «в теме», что называется?

Экспертиза доживает свои последние годы. Затрудняюсь определить направление, где её ожидает хоть что-то позитивное в будущем. Сам опробовал на себе такие далекие друг от друга направления и темы, как молекулярная биология, туризм, нумизматика, ботаника, философия и др. И везде результат превзошёл ожидания за считанные минуты и несколько итераций. А, если «эксперт с 20-летним опытом» вдруг допустил какую-то оплошность или что-то недоглядел (галлюцинациями, вроде, это зовётся?), призываешь на помощь «эксперта с 40-летним опытом», даёшь ему возможность покопаться в деталях, и он обязательно находит все ошибки, начинает говорить на совершенно другом, выраженно профессиональном языке и источники приводит самые, что ни на есть релевантные. И так по всем проверенным лично направлениям. Где сам знаю вопрос досконально и могу оценить качество ответов.

Конкуренция в бизнесе тоже меняется на глазах. Вместо маркетинга, барахтания в «красных океанах» и всей этой бла-бла-бла в товарах и услугах, всему этому приходит на смену скорость внедрения AI во все сферы бизнеса. Кто быстрее и эффективнее это реализует, тот и выиграл в долгосроке в своей нише. Неважно, какой бизнес. Важно, что удачливого игрока ожидает: 1) Снижение себестоимости, которое не сможет побить ни один конкурент; 2) Персонализация невиданных доселе масштабов; 3) И, разумеется, полное отсутствие конкуренции на самой вершине. Это иногда даже монополией зовут. А кто не успел, тот уже точно не успел. Пора ползти в другом направлении…

Что решил для себя? Экстренно необходимо становиться горячим амбассадором и внедрять AI в работу везде и во всём, где это только возможно и приносит пользу. Завтра будет поздно, потому что все туда ринутся, пихаясь локтями.

А на бытовом уровне меньше чем за месяц обращений к бесплатной версии, я уже понял, что границ по знаниям не существует. Границы, по сути, определяются только тарифом и его лимитами. То новое, что даёт тариф за 20$, мне ещё только предстоит узнать.

На простой вопрос «Есть ли то, чего ты не знаешь?» AI ответил тоже простыми 5-ю пунктами, среди которых были личные данные, мои мысли и будущее. Делаю вывод, что всё остальное не вызывает у него особых сложностей.

А в конце AI издевательски добавил: «Если хочешь, можешь попробовать найти мой предел — задай что-нибудь каверзное». На этом моменте я впал в ступор...

NickDoom

18 июл в 19:4110K

Big Data * Резервное копирование * Хранение данных * НакопителиЛазеры

А что б не вспомнить такой носитель данных, как перфолента?

Вот смотрите: допустим, 5 мкм лавсан, потом 1 мкм алюминий и снова 5 мкм лавсан. УФ-лазер с механическим приводом перфорирует поперёк ленты дорожки с шагом, скажем, тот же 1 мкм (УФ может и лучше, но пока не будем пальцы гнуть). Поскольку механика позиционирует луч с точностью до «куда-то туда» — применяем старые добрые старт- и стоп-биты.

На ленте шириной в 5 мм мы легко пробьём 4096 бит, старты, стопы и ещё останется запас с краёв. А чтобы прочитать её значительно быстрее, чем мы это макраме вымучивали — берём линейную ПЗС-матрицу от сканера (разрешение 1×16384 или примерно того порядка), сканируем всю ширину ленты разом, ну и (ваш Кэп) просто её протягиваем. Перекосы головки чтения относительно головки записи решаются кольцевым буфером — там хранится несколько последних строчек и нет никаких проблем найти там реальное положение дорожек, я такие синхронизации за пучок пятачок делал, задача детская.

В результате наши 4 килобита на микрон дают 512 терабайт в габаритах кассеты C-90, минус Рид-Соломон. Если я, конечно, по причине крайней усталости в нулях не запутался. Вот такая вот перфоленточка…

An_Ka1010

17 июл в 09:194.5K

Блог компании ОТП БанкBig Data * Финансы в IT

Качество данных — фундамент бизнеса, а не абстракция

Качество данных (Data Quality) — не абстракция, а фундаментальная основа банковского бизнеса, напрямую влияющая на бизнес-процессы, корректность отчетности, аналитику и финансовые результаты. Об этом заявил Николай Шевцов, директор дирекции по управлению данными ОТП Банка, выступая на ключевой отраслевой конференции Fintech Data Day.

В своей презентации он представил квинтэссенцию более чем двухлетней работы ОТП Банка по построению системы управления данными, где автоматизированный контроль Data Quality стал ключевым драйвером эффективности и снижения рисков.

"Сбой в качестве данных = сбой в бизнесе", – подчеркнул Шевцов. Он детализировал, что ошибки в данных приводят к каскаду проблем, включая некорректный скоринг и ошибки в одобрении/отказе клиентских заявок, потерю клиентов, ухудшение качества их обслуживания, ошибки в критически важной регуляторной отчетности (включая требования ЦБ РФ), сбои в операционных процессах и прямые финансовые потери.

"Проблемы с клиентами и финансами – лишь вершина айсберга", – предупредил он, отметив, что ошибка на источнике данных множится и делает принятие решений невозможным.

Николай Шевцов представил уникальный подход ОТП Банка, базирующийся на трех ключевых принципах.

Первый – создание Единого источника истины: централизованная Data Governance платформа хранит все метаданные – бизнес-глоссарий, каталог данных, домены, владельцев, процессы. Ключевое отличие заключается в интеграции BRD (Business Requirements Document) и FSD (Functional Specifications Document) в платформу как структурированных объектов, а не разрозненных документов в Word или Confluence.

Второй принцип – сквозная автоматизация на основе структуры. На основе FSD платформа автоматически генерирует код для витрин, выгрузок данных и других объектов.

"Здесь уже не нужны ресурсы разработчиков – эту работу спокойно выполняют аналитики", – отметил Шевцов. Супер-структурированность BRD/FSD позволяет автоматически генерировать и запускать технические DQ-проверки (полнота, уникальность, консистентность) непосредственно на продакшене.

"Закат солнца вручную не вариант! – пояснил Николай Шевцов. - Создание одной такой проверки занимает всего 5-10 минут, против часов или дней ранее, и происходит абсолютно без участия людей (разработчиков или аналитиков). Платформа также автоматически строит сквозные цепочки данных (data lineage), выявляя и подсвечивая расхождения между логической моделью и физической реализацией в хранилищах."

Третий принцип – прозрачность и управляемость: система визуализирует качество данных (DQ-метрики) на всех уровнях – от итогового отчета через витрины и слои DDS/ODS вплоть до систем-источников данных. Это позволяет максимально оперативно выявлять корень проблемы при ошибках в отчетности, что критично в сложных банковских процессах.

"Оглядываясь на 2,5 года назад, мы сами не верили, что это получится. А результат – чистая магия автоматизации", – поделился эксперт. Благодаря этому подходу банк достиг значительного ускорения процессов (минуты вместо часов/дней на создание DQ-проверок и lineage), высвободил ценные ресурсы (разработчики переключены на сложные задачи, аналитики генерируют код) и снизил операционные риски за счет автоматического контроля на проде. Прозрачность данных и их качества стала реальностью.

Шевцов рассказал о том, что в планах ОТП Банка на 3-й квартал – запуск MVP по автоматической генерации бизнес-проверок DQ. Система, зная смысл данных (например, "паспорт", "дата рождения"), сама предложит релевантные правила. Аналитику останется лишь "прокликать" согласие, исключив ручную разработку проверок качества данных.

"Для банка, входящего в международную OTP Group и поднявшегося в ТОП-20 России, надежность данных – не просто KPI, это основа доверия клиентов и регулятора. Наш подход доказывает: тотальная автоматизация контроля DQ – не фантастика, а рабочая реальность, дающая конкретные бизнес-результаты уже сегодня", – резюмировал CDO ОТП Банка.

SnezhSh

14 июл в 08:504K

Блог компании GlowByteBig Data * Конференции

GlowByte приглашает на практический вебинар «Безграничный Excel: сводные таблицы над миллиардами строк за секунды!»

Друзья, если вы работаете с данными в Excel, то это точно будет вам интересно! Приходите на практический вебинар GlowByte и Rapeed "Безграничный Excel: сводные таблицы над миллиардами строк за секунды!".

Мы расскажем вам о российской платформе Rapeed и покажем, как с помощью этого инструмента можно анализировать гигантские массивы данных без сложных запросов. Живые демонстрации, реальные кейсы и ответы на ваши вопросы — всё в одном мероприятии!

Почему это интересно?

Если вы работаете с данными в Excel, то точно знаете его пределы:

файл "весит" сотни мегабайт,
отчёты строятся мучительно медленно,
данные — в десятках разных источников.

Но вы можете:

Перестать зависеть от ограничений Excel по объему и сложности данных;
Научиться соединять данные из разных систем (1С, CRM, КХД, Hadoop, S3) прямо в интерфейсе (PivotTable) сводной таблицы Excel;
Дать своей команде инструмент для сверхбыстрого анализа без необходимости моделирования данных и написания SQL-запросов.

Что? Где? Когда?

Живая демонстрация нового российского продукта Rapeed (in memory OLAP):
эксперт подключит Excel к источникам с миллиардами строк, построит сводную таблицу и покажет, как работать с гигантскими массивами без зависаний и SQL-запросов.

В программе:

Как быстро и эффективно работать в PivotTable в Excel с источниками более 1 млрд строк.
Объединение сложных источников за пару кликов.
Демо реальной задачи из сферы розничного бизнеса.
Сможете задать любой вопрос создателю аналитической платформы Rapeed.

Бонус: Все участники вебинара получат доступ к триальной лицензии rapeed.ai на специальных условиях.

Вебинар состоится 24 июля в 13:00 (МСК).

Участие бесплатное. Регистрация по ссылке.

andrew_brdk

8 июл в 03:158.1K

Open source * Программирование * Big Data * Data Engineering *

Repeater - планировщик для анализа данных, упрощенный Apache Airflow.

Repeater запускает задачи по расписанию. Задачи - последовательности консольных программ - описываются в toml-файлах. Запуски отображаются в веб-интерфейсе.

Пример задачи - запуск скриптов wiki_stats.py и wiki_pageviews.py импорта верхнеуровневой статистики Википедии в локальную базу.

title = "wiki"
cron = "0 55 * * * *"

[[tasks]]
name = "wiki_stats"
cmd = "python3 ./examples/wiki_stats.py"   

[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"

Бэкэнд написан на Go. Команды ниже запустят Докер-контейнер с сервисом и окружение для примеров:
- Repeater http://localhost:8080 - планировщик
- ClickHouse http://localhost:8123 и http://localhost:9000 - база данных
- ch-ui http://localhost:8001 - веб-интерфейс к базе данных
- Streamlit http://localhost:8002 - дашборды

git clone https://github.com/andrewbrdk/Repeater
cd Repeater
docker compose up --build

В примерах импорт количества просмотров страниц Википедии, курса биткоина, статистики репозитория Линукса на Гитхабе. Графики в Streamlit http://localhost:8002 .

Интересны применения проекта. Попробуйте! Впечатления пишите в комментариях. Спасибо!

Репозиторий: https://github.com/andrewbrdk/Repeater

yooteam

30 июн в 18:577.1K

Блог компании ЮMoneyBig Data * Машинное обучение * Data Engineering *

Чем занимается команда Data Science в финтехе

Рассказывает Слава, инженер машинного обучения в ЮMoney.

У нас в компании много данных, которые можно обрабатывать, чтобы улучшать пользовательский опыт. Например, данные пользовательских обращений ЮKassa из разных каналов: чатов с техподдержкой, почты, звонков в колл-центр.

Мы передаём тексты из обращений модели, которую обучили относить их к определённому классу (подключение СБП, вопросы по возвратам, платёжным методам и т. д.). Постоянно появляются новые темы, поэтому приходится регулярно дополнительно обучать модель. Разбив все поступающие обращения по группам, можно оценить их количество и построить дашборд.

Если по одной теме у нас пять тысяч обращений, по второй — десять тысяч, а по третьей — всего два, значит, нам нужно уделить особое внимание первым двум.

В классификаторе пользовательских обращений мы используем языковые модели типа BERT. Также развиваем использование больших языковых моделей (LLM). У них много знаний «из коробки», они не требуют дообучения и могут применяться для разных задач. Есть и недостатки (требовательность к вычислительным ресурсам или галлюцинации), но LLM способны выполнять задачи намного быстрее, чем человек.

Ещё одно интересное направление Data Science, которое мы тестируем, — распознавание изображений и классификация по категориям. Сейчас мы решаем эту задачу с помощью модели clip, но планируем проверить эффективность работы visual LLM, например Qwen-VL. Этот вид моделей анализирует изображение и даёт текстовое описание, которое можно использовать в продуктах, например при проверке сайтов, которые подключаются к ЮKassa.

Также LLM хорошо выполняет задачи написания саммари — например, по итогам проведённой встречи. Предварительно отдельная модель (у нас это Whisper) переводит аудио в текст, что сильно ускоряет работу коллег.

***

Делитесь в комментариях, есть ли команда Data Science в вашей компании и какие задачи она решает. 🙌 А также следите за нашими новыми материалами о том, как технологии меняют финтех изнутри. Впереди ещё много интересного!

kolxo3nick

29 мая в 16:296.5K

Блог компании X5 TechBig Data * Машинное обучение * КонференцииData Engineering *

Я Павел Денисенко, отвечаю за развитие дата-платформы в X5 Tech!

Редко публикую тут посты (никогда), но сейчас не могу не поделиться новость о том, что наша команда CDO X5 Tech впервые участвует в Data Fest — главном событии года для сообщества Open Data Science!

В один из дней, 1 июня, мы принимаем фестиваль у нас в гостях, и это событие нельзя пропустить!

Наша программа будет насыщенной и интересной. Мы будем рады поделиться опытом X5 Tech с сообществом дата-экспертов. Наши эксперты поделятся докладами на самые актуальные темы в области инженерии данных и искусственного интеллекта. С участием признанных экспертов индустрии Data и ML в Retail мы поговорим о том, как данные меняют сферу ритейла и не только ее.

Но это еще не всё! В нейтральных секциях мы также поговорим о таких темах, как Advanced LLM и ML in Music. Узнаем, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества.

🌟 И, конечно, не обойдется без неформальной части: холиварные зоны для тех, кто точно знает, как правильно, и вечеринка после официальной части для самых стойких.

📍 Где и когда? 1 июня, Москва, Loft Hall.

Data Fest 2025 — must visit для всех, кто интересуется работой с данными и хочет лучше понимать, как информационные технологии меняют бизнес и помогают в работе. Мест немного, так что успевайте зарегистрироваться по ссылке!

Не упустите шанс стать частью этого восхитительного события! Ждем вас!

Ссылка для регистрации

veta_pf

29 мая в 09:224.7K

Блог компании Cloud.ruIT-инфраструктура * Big Data * Хранение данных * Облачные сервисы *

Работайте с большими данными в Evolution Data Platform 📊

❓ Что за инструмент? Evolution Data Platform — платформа для обработки больших данных, которая включает в себя несколько PaaS-сервисов. Среди них:

Evolution Managed Trino — массивно-параллельный аналитический SQL-движок Trino с использованием распределенных запросов.
Evolution Managed Metastore — сервис для хранения метаданных таблиц из разных источников. Metastore сообщает клиентским приложениям, где хранятся данные, как к ним обращаться и как их интерпретировать.
Evolution Managed Spark — сервис для развертывания кластерного вычислительного решения на основе Apache Spark для распределенной обработки данных.
Evolution Managed ArenadataDB — аналитическая база данных для хранения большого объема структурированных и полуструктурированных данных.

🖥 Особенности и преимущества. Вы можете выбрать любой сервис, который подходит под определенные задачи, или же комбинировать их. Из плюсов конкретных сервисов:

Evolution Managed Trino способен работать с разными источниками в одном SQL-запросе, есть несколько конфигураций Trino. А еще можно создать приватный инстанс, недоступный из интернета.
Evolution Managed Metastore прямо из интерфейса можно подключить к другим сервисам платформы Cloud.ru Evolution. Создание и обновление инстансов происходит за минуты, а данные для подключения к S3 — в безопасности, так как хранятся в сервисе Secret Management.
Evolution Managed Spark позволяет отслеживать статусы выполнения задач, обрабатывать данные из Object Storage, а также из большинства доступных БД.
Evolution Managed ArenadataDB дает возможность развертывать инстансы без обслуживания инфраструктуры, а кластеры Greenplum разворачиваются автоматически. Доступны конфигурации от 3 до 50 ТБ, что позволяет адаптировать систему под разные задачи.

👨‍💻 Кому будет полезно. PaaS-сервисы платформы Evolution Data Platform найдут применение во всех областях, где работают с большими объемами данных: финансовых учреждениях, ретейле, логистике, крупном и среднем бизнесе — и не только. Также сервисы будут полезны в машинном обучении и разработке.

✍️ Где, как и для чего использовать. Для обработки структурированных, слабоструктурированных и неструктурированных данных, SQL-аналитики, ML, хранения метаданных таблиц, отправки сложных запросов, проверки гипотез, A/B-тестирований, построения приложений данных, интерактивного специального анализа данных.

В июне Evolution Managed Trino и Evolution Managed Metastore выйдут в коммерческий доступ, а еще станут доступны для тестирования сервисы Evolution Managed Airflow и Evolution Managed BI. Смотрите доклад с конференции GoCloud 2025, чтобы больше узнать о PaaS-сервисах для работы с данными 🌐

SomeEditor

28 мая в 12:014.5K

Блог компании Yandex Cloud & Yandex InfrastructureBig Data * Машинное обучение * Искусственный интеллектData Engineering *

Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business

Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.

Трек Data

Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Создать базовый кластер YTsaurus теперь можно в привычной консоли

Для тестирования работы в этих форматах необходимо подать заявку.

Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.

Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.

Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:

DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.
DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).
Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.

Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.

Трек ML

Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.

Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.

Эксперты обсудили и уже состоявшиеся запуски:

Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.
Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.
Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.

На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.

MariMokieva

20 мая в 13:055.9K

Блог компании Wildberries & RussИнформационная безопасность * Big Data * Машинное обучение * Конференции

Интересно применение ML и AI в борьбе за безопасность и доверие пользователей? Тогда Trust&Safety AI Meetup точно для тебя 👀

Когда? 22 мая, 18:00
Где? офлайн в Москве + онлайн-трансляция

В программе будут 2 технических доклада, интересная дискуссия, спикеры из Wildberries&Russ, Avito, AI Masters. А еще розыгрыш классного мерча среди активных участников и нетворкинг с полезными знакомствами.

Регистрация закроется 21 мая — выбирай формат участия и успей отправить заявку. До встречи на Trust&Safety AI Meetup!

Не пропустите подробности о митапе: @wb_space 🌟

SnezhSh

19 мая в 08:205K

Блог компании GlowByteBig Data * Хранение данных * Управление разработкой * IT-компании

BI-проекты: 5 причин, почему они выходят за рамки бюджета (и как этого избежать)

Если вы хоть раз участвовали во внедрении BI-системы — знаете, как легко проект может уйти не туда:
– бюджет трещит по швам,
– сроки съедены интеграцией и доработками,
– пользователи по-прежнему делают аналитику в Excel.

Мы в GlowByte собрали в статье практический разбор типичных ошибок, которые чаще всего приводят к перерасходу бюджета и снижению отдачи от BI-проектов.

Плюс: даём самодиагностический чек-лист и PDF-гайд, где перечислены все организационные, финансовые и технические риски BI-проектов.

Заходите почитать! Статья здесь → Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем.

veta_pf

15 мая в 14:448.4K

Блог компании Cloud.ruIT-инфраструктура * Big Data * Искусственный интеллект

Смотрите новый выпуск подкаста про AI и Data Science 🔥

В гостях у Cloud.ru — Алексей Четыркин, директор по Data Science в Magnit Tech. В подкасте обсудили, как ритейл-гигант внедряет AI и какие технологии меняют будущее торговли.

Также в выпуске:

как организовать работу с данными в ритейле эффективно,
для чего «Магниту» нужна собственная AI Lab,
какие функции могут забрать на себя AI-агенты.

Посмотреть подкаст можно на YouTube и VK Видео 👈

mipt_digital

10 мая в 12:187.7K

Big Data * Машинное обучение * Data Engineering *

AI-агенты в облаке: как они работают, зачем нужны — и как создать собственного

📅 13 мая | 18:00 (МСК) | Онлайн

На встрече поговорим о том, как устроены современные AI-агенты на базе LLM, какие архитектуры и инфраструктуры используются для их работы, и продемонстрируем создание агента в режиме live coding.

👨‍💻 Спикер — Михаил Дремин
Технический лидер Data Science-направления в Clоud.ru

🔍 В программе:
— Основы LLM-агентов и взаимодействие с внешним миром через инструменты (tools)
— Архитектурные подходы: Prompt chaining, ReAct, Evaluator-optimizer, ambient agents и другие
— Реальные кейсы использования
— Практическая часть: разработка собственного агента на Python (с использованием LangChain) и развертывание в облаке

💼 А также: представители компании расскажут о стажировке для студентов и молодых специалистов: какие направления доступны, как попасть в команду.

📌 Участие бесплатное

📎 Регистрация: https://mnlp.cc/mini?domain=digitalmipt&id=7

An_Ka1010

7 мая в 09:575.7K

Блог компании ОТП БанкАнализ и проектирование систем * Big Data * Финансы в IT

«Как нефть, только важнее»: как выстроить культуру работы с данными

В рамках конференции ArenaDAY, посвящённой передовым технологиям и трансформации бизнес-процессов, Chief Data Officer ОТП Банка Николай Шевцов выступил с докладом «От data-команд к data-компании: как сформировать культуру работы с данными».

На примере ОТП Банка он представил пошаговый подход к выстраиванию data-культуры в крупной организации — от локальных инициатив внутри ИТ-подразделений до интеграции данных в повседневные бизнес-процессы.

«Весь процесс работы с данными напоминает нефтепереработку: сырые данные — это нефтеносная жидкость, которую сначала нужно добыть (собрать), затем очистить (data governance) и переработать в полезные продукты — отчёты, аналитику, модели. Но главное отличие в том, что данные — не просто актив, а неотъемлемая часть нашей жизни, как одежда или предметы быта. Чтобы быть эффективными, мы должны научиться работать с ними так же естественно, как дышать», — отметил Николай Шевцов.

В центре внимания доклада — зрелость компании по отношению к данным, доверие к информации и способность организаций принимать решения на её основе. Николай представил собственную систему замера уровня data-культуры и рассказал о ключевых ролях, необходимых для её развития: от Data-чемпионов в командах до топ-менеджмента, задающего вектор и распределяющего ресурсы.

По мнению эксперта, эффективная трансформация невозможна без постоянного обучения, пилотных запусков и механики «быстрых побед» — так создаётся среда, где данные становятся не просто инструментом, а частью корпоративной ДНК.

ОТП Банк последовательно внедряет подход data as a culture и делится практиками, которые позволяют строить устойчивые решения в условиях высокой неопределённости.

mipt_digital

6 мая в 12:287.2K

HabrBig Data * Искусственный интеллектData Engineering *

Мы подготовили мини-курс «Введение в машинное обучение»

За 5-7 часов погружения вы узнаете, что такое ML и как он трансформирует целые индустрии. Курс реализован в формате Телеграм-бота, что позволяет учиться в любое время.

Что вас ждет:
— Узнаете, что такое ML и как он меняет отрасли.
— Поймете, какие задачи решает машинное обучение.
— Рассмотрите ключевые алгоритмы и подходы, используемые на практике.
— Ознакомитесь с этапами подготовки данных — основой любой ML-модели.
— Пройдете тесты для закрепления полученных знаний.

Мини-курс станет вашей отправной точкой для начала изучения машинного обучения.

Получите моментальный доступ к курсу: https://mnlp.cc/mini?domain=digitalmipt&id=2&utm_source=habr

mipt_digital

6 мая в 12:256.5K

Big Data * Искусственный интеллектData Engineering *

Приглашаем освоить одну из самых востребованных IT-специальностей!

🎓Подача документов для поступления в магистратуру открыта!

Сегодня, 10 апреля, открылся прием документов на магистерскую программу «Науки о данных» в МФТИ.

📌 Если вы уже прошли консультацию с нашим менеджером приемной комиссии — самое время сделать следующий шаг.

Подавайте документы через официальный сайт приемной комиссии МФТИ . Вход в личный кабинет для подачи — в правом верхнем углу: «Заполнить анкету».

Время проверки документов — до 3 дней.

📌 Еще не получали консультации? Тогда оставьте заявку на странице программы — и в течение дня с вами свяжется специалист, чтобы помочь с подачей документов

mipt_digital

6 мая в 12:185.8K

Big Data * Машинное обучение * Искусственный интеллектData Engineering *

Пройдите квиз и узнайте, какое направление Data Science выбрать

🎓 Пройдите квиз и узнайте, какое направление Data Science вам подходит.

В онлайн-магистратуре «Науки о данных» доступны три профильных направления.
Чтобы выбрать подходящий трек, пройдите мини-квиз — он учитывает ваши интересы и бэкграунд.

🔹 ML Engineer
Создает и внедряет модели для обработки данных, изображений, видео и текстов — от прогнозирования оттока до диагностики по снимкам и разработки чат-ботов поддержки клиентов.

🔹 Data Analyst
Проектирует модели для анализа данных: сбор, очистка, визуализация, интерпретация данных. Например, создает дашборд для анализа продаж.

🔹 Data Engineer
Строит инфраструктуру для работы с большими данными: создает каналы и пайплайны для сбора, обработки и хранения данных.

💡 Профильные треки — это возможность получить дополнительные навыки и углубиться в одну из ключевых сфер работы с данными.

👉 Пройти кви: https://t.me/mipt_ds_spec_bot

mipt_digital

6 мая в 12:105.9K

HabrBig Data * DevOps * Искусственный интеллектData Engineering *

Дайджест открытых мероприятий на май:

1️⃣ AI-агенты в облаке
🗓 13 мая, 18:00 по Мск, онлайн
Узнаем, как строятся AI-агенты, какие инфраструктуры стоят за их работой и какие возможности открывает стажировка в Cloud.ru.
🔗 Регистрация

2️⃣Вебинар от Московского инновационного кластера: «Защита и регистрация интеллектуальной собственности в России»
🗓 14 мая, 12:00 по Мск, онлайн
Практические советы о том, как защитить свои разработки и оформить права на них.
🔗 Регистрация

3️⃣MTS Startup Hub: как найти и реализовать идею для технологического проекта
🗓15 мая, 19:00 по Мск, онлайн
Как придумать идею для стартапа, пройти путь предпринимателя и найти ресурсы на развитие.
🔗 Регистрация

4️⃣ Т-Банк: образовательный кредит — как получить высшее образование с господдержкой
🗓 20 мая, 19:00 по Мск, онлайн
Разберем условия образовательного кредита, преимущества, оформление и действия в случае отказа.
🔗 Регистрация

5️⃣MTS Startup Hub: анализ единорогов как топливо для развития стартапов
🗓 22 мая, 19:00 по Мск, онлайн
Как изучение успешных стартапов помогает понять рынок, находить инновации и строить перспективные бизнес-модели.
🔗 Регистрация

6️⃣ Карьерный буст: как ускорить профессиональный рост
🗓 29 мая, 19:00 по Мск, онлайн
Поговорим о карьерных стратегиях, востребованных навыках и росте в новых реалиях.
🔗 Регистрация

7️⃣MTS Startup Hub: создание прототипов и MVP
🗓 29 мая, 19:00 по Мск, онлайн
Как быстро и эффективно протестировать идеи на практике.
🔗 Регистрация

8️⃣Экскурсия в Сбер
🗓 30 мая, 16:30 по Мск, онлайн
Смотрим, как работает один из самых технологичных банков страны изнутри.
🔗 Регистрация

Участие во всех мероприятиях - бесплатное. Регистрируйтесь по ссылкам выше, а также:

➡️ Скачайте брошюру о магистратуре «Науки о данных»
➡️ Проходите курс «Введение в машинное обучение»
➡️ Получите доступ к записи Дня открытых дверей онлайн-магистратуры «Науки о данных»

И успейте подать документы в магистратуру в мае, чтобы получить специальные бонусы. Выберите магистратуру и оставьте заявку по ссылке.

vasilevafb

25 апр в 06:054.4K

Big Data * Открытые данные * Визуализация данных * Аналитика мобильных приложений *

Как я снова отравилась из-за океана — и при чём тут аналитика данных

Температура, тошнота, диарея — это происходит со мной каждый раз после серфинга в дождливый сезон, когда в море сливается всё, что угодно — от мусора до банальных 💩.
В северной части Тихого океана, на полпути между Гавайями и Калифорнией, вращается 100 000 тонн пластикового мусора. Добро пожаловать в Большое мусорное пятно — область, втрое больше Франции. Оно выглядит так же катастрофично, как и звучит: сверху напоминает гигантский пластиковый суп.

И это лишь 2 примера, подтверждающие: мусор в океане — это глобальный кризис, а не локальная история. Скоро мы вообще не зайдём в океан?

➡ Ежегодно в океаны, реки и озёра попадает 19–23 млн тонн пластика — как если бы каждую минуту в воду сбрасывали 2 000 мусоровозов.

➡ На поверхности океанов плавает около 170 трлн пластиковых частиц, а на дне может быть в 10 000 раз больше.

➡ Ежегодно из-за мусора в океане погибают 100 миллионов морских животных. Страдают и морские растения, которые участвуют в производстве 70% кислорода.

➡ В исследовании микропластик нашли в 99% морепродуктов. Это вызывает тревогу из-за возможного влияния на пищеварительную, эндокринную и другие системы организма.

Все ссылки на исследования опубликовала тут.

Чем помогает аналитика в этой проблеме?

В мире есть некоммерческие и частные организации, борющиеся с загрязнением. Например, The Ocean Cleanup очищает океаны от пластика с помощью инновационных технологий.

1. Определяют источники загрязнения, чтобы “поймать проблему на старте”

💡 80% пластика попадает в океан через ~1000 рек.

Чтобы найти эти «артерии загрязнения», анализируют спутниковые данные, гидрологические карты, поведение мусора в воде, данные о населении и инфраструктуре. Это позволяет не просто «ловить мусор в океане», а перехватывать его у истока — в реках.

2. Предсказывают, куда поплывёт мусор, чтобы точнее планировать очистку

— Камеры на мостах фиксируют мусор в реках
— GPS-буи и радары отслеживают его путь в океане
— ИИ-модели показывают, где и когда он соберётся в “мусорные вихри”

Это помогает запускать очистку точно там и тогда, где она даст максимальный эффект.

3. Визуализация, которая не оставляет равнодушным

Цифры — это важно, но именно визуализация заставляет почувствовать масштаб. Данные превращают в наглядные дашборды, которые:
— Показывают, где океан «захлёбывается» от пластика
— Делают проблему видимой и понятной
— Помогают влиять на решения политиков и доноров

Дашборды по загрязнению пластиком можно посмотреть тут.

4. Прогнозы на будущее и машинное обучение

Чтобы не просто тушить пожары, а предотвращать их, аналитики обучают модели, которые помогают заглянуть вперёд:
— Что будет с океаном, если мы продолжим жить «как обычно»?
— А что изменится, если сократим пластик хотя бы на 20%?
— Где появятся новые точки бедствия через 5 лет?

Такие организации нанимают аналитиков данных и стажёров — есть вакансии по визуализации, машинному обучению, компьютерному зрению, анализу временных рядов (ссылки на вакансии опубликовала тут).

Или можно стать гражданским учёным и внести свой вклад, документируя пластиковое загрязнение с помощью специальных приложений (Ocean Cleanup Survey App или Debris Tracker).

SnezhSh

21 апр в 10:064.8K

Блог компании GlowByteBig Data * Конференции

Эффективная аналитика данных: GlowByte представит кейс METRO C&C на Russian Retail Show 2025

GlowByte выступит серебряным партнером Russian Retail Show 2025. Максим Серов, Head of BI and Integration в METRO C&C, и Александр Брежнев, руководитель отдела продаж BI-решений в GlowByte, станут спикерами секции PRODATA 23 апреля.

Эксперты поделятся историей "Выбор BI-платформы: ставка на эффективность", в которой расскажут о платформе для самостоятельного анализа данных FineBI, позволяющей бизнес-пользователям без глубоких технических знаний проводить сложные аналитические операции.

В рамках презентации будут затронуты особенности ИТ-ландшафта METRO C&C – компании с 93 торговыми точками в 51 регионе России, и вызовы, с которыми столкнулись специалисты при построении гомогенной аналитической платформы.

Также вы узнаете об уникальном подходе GlowByte к пилотным проектам, который позволяет за 1,5-2 месяца провести полноценное тестирование BI-системы и принять взвешенное решение о внедрении без значительных затрат ресурсов.

Выступление состоится в зале "ЭФФЕКТИВНОСТЬ". Будем рады встретиться, пообщаться и ответить на ваши вопросы на Russian Retail Show 2025!

Arenadata

21 апр в 08:005.6K

Блог компании ArenadataБазы данных * Big Data * КонференцииData Engineering *

Хабр, привет!

Завтра, 22 апреля, в 09:00 мск стартует ArenaDAY 2025 — крупнейшая конференция по управлению данными и аналитике. Мы понимаем, что в будний день не у всех получится включить видеотрансляцию, поэтому запускаем текстовую онлайн-трансляцию.

Вас ждёт:

Шесть тематических секций: «Бизнес-кейсы», «Продукты», «Гибридное хранилище», «Будущее», Data Governance и Investor Day; отдельная демозона с живыми показами решений и экосистемы Arenadata.
Кейсы от ВТБ, «Газпромнефти», МКБ, «Росатома», «Северстали», «МегаФона» и других лидеров.
Интерактивы и розыгрыши.

Сохраните этот пост в закладки — ровно в 09:00 здесь появится ссылка на текстовую трансляцию ArenaDAY. До встречи в онлайне!

Ссылка на трансляцию: https://habr.com/ru/companies/arenadata/articles/902964/

confident_action

15 апр в 05:005.2K

Big Data * Data Engineering *

Приключение Запроса в Царстве Данных: Как CATALIST Провёл SELECT через Опасности Оптимизации

Привет, друзья! С тех пор, как в моей жизни появился маленький человечек, я погрузился в мир сказок — читаю их каждый вечер. И вот подумал: а что, если оживить сухие технические термины через волшебные метафоры? Так родилась «Приключение SELECT в Царстве Данных» — история о том, как запрос проходит путь от строки кода до результата, встречая на пути оптимизаторов, шардинг-великанов и магию Catalyst’а.

О чём эта сказка?

Как CATALIST (наш рыцарь-оптимизатор) сражается с неэффективными планами.
Почему Shuffle — это бурная река, которую нельзя пересечь вброд.
Зачем Skew-великана нужно посыпать «солью».

Это не просто фантазия — под метафорами спрятаны реальные процессы Spark: парсинг, predicate pushdown, broadcast join и борьба с skew-данными.

1. Врата Валидации: "Ты ли ты?"
Запрос select id, name, s.salary from users u inner join salaries s where u.part_date = '2025-01-01' робко постучался в высокие врата Царства Данных. Стражник CATALIST в доспехах из кода Scala встретил его:
— "Покажи свои намерения! Где твои таблицы? Совпадают ли имена колонок?"

SELECT дрожа протянул:
— "Я ищу id, name из users и salary из salaries... И только за 2025-01-01!"

CATALIST раскрыл древний свиток Catalog:
— «users и salaries есть в хранилище. Но part_date… А, это партиция! Проходи, но держись пути — дальше Лес Логических Преобразований!»

Стражник толкнул тяжёлые врата, и запрос шагнул в густой лес, где деревья-операции сплетались в непролазные дебри.

2. Лес Логических Преобразований: "Сруби лишнее!"

Ветви операций JOIN и Filter обвивали тропу. CATALIST вынул топор Predicate Pushdown:
— «Фильтр по дате должен быть ближе к users! Зачем ждать JOIN?»

Удар! Дерево плана рухнуло, открыв путь:

TEXTJOIN  
  → Scan users (part_date = '2025-01-01')  // Фильтр переместился сюда!  
  → Scan salaries

— «Теперь к Реке Shuffle! Но берегись — она бурная!»

Они вышли к бурлящей реке, где волны данных сталкивались в хаосе.

3. Река Shuffle: "Выбери правильный мост!"

— «Как перейти? — испугался SELECT. — Здесь же все утонем!»

CATALIST достал карту Статистики:
— «users после фильтра — 10 тыс. строк, salaries — миллион. Мост BroadcastJoin выдержит!»

Магический мост вспыхнул, соединив берега. Данные salaries превратились в светящиеся шары и разлетелись к исполнителям.

— «Вперёд, к Горам Физического Плана! Там рождается настоящая сила!»

За холмом возвышались остроконечные пики, где гномы-компиляторы ковали байт-код.

4. Горы Физического Плана: "Куй быстрее, куй умнее!"

В пещере Tungsten гномы кричали:
— «Никаких Java-объектов! Только примитивы!»

CATALIST бросил им логический план:
— «Превратите это в код! Да будет векторизация!»

Молоты застучали:

JAVAif (row.getDate(3) == 2025-01-01) {  // Фильтр по part_date  
  emit(row.getInt(0), row.getString(1));  // id и name  
}

— «Теперь — в Долину Исполнения, где задачи становятся результатом!»

Они спустились в зелёную долину, где партиции данных складывались в аккуратные стопки.

5. Долина Исполнения: "Собери пазл!"

Исполнители в синих мантиях хватали партиции и кричали:
— «Task 1 готов! Task 2 завершён!»

Но вдруг из-за скалы выполз Skew-великан с мешком, где 90% данных висело на одном плече:
— «Не пройдёте! Разорву ваши партиции!»

CATALIST рассыпал волшебную Соль:
— «Пусть каждый ключ обретет случайный суффикс!»

Великан взревел и рассыпался на сотни мелких духов. Shuffle-река успокоилась.

6. Финал: "Свет знаний"

На краю долины ждал ResultTask с золотым свитком:
— «Данные собраны! Вот твой результат: /data/output/part-0000.snappy.parquet».

CATALIST кивнул:
— «Запомни: без Catalog — ты слеп, без оптимизаций — медлен, а без борьбы с skew — обречён!»

Мораль:
Даже самый простой запрос — это путешествие через:

Валидацию (что ты есть?),
Логические преобразования (как сократить путь?),
Физический план (как сделать быстро?),
Исполнение (как не утонуть в данных?).

🔗 Каждый этап связан: нельзя прыгнуть в реку Shuffle, не построив мост из физического Join, и не победить Skew-великана

-1

SnezhSh

9 апр в 11:405.1K

Блог компании GlowByteBig Data * Конференции

Регистрируйтесь на Fine Day 2025 в GlowByte: Как избежать скрытых расходов при внедрении BI?

Внедрение бизнес-аналитики (BI) — это не просто покупка инструмента, а долгосрочная инвестиция. Но знаете ли вы, сколько на самом деле тратит ваша компания на поддержку и развитие BI-системы?

Друзья, 17 апреля в 16:00 (МСК) GlowByte проведет ежегодную онлайн-конференцию, посвященную реальной стоимости BI-решений. Приглашаем всех, кто хочет оптимизировать затраты на BI!

Что обсудим?

- Скрытые расходы: какие неочевидные траты есть в BI-проектах и как их избежать?
- Self-service BI: как оценить эффективность и снизить стоимость владения?
- Реальные кейсы: опыт компаний, уже внедривших BI.

Где прячутся переплаты?

BI помогает бизнесу расти, но неконтролируемые затраты могут свести пользу на нет. На конференции разберем вопросы:
- Как оценить реальную цену данных.
- Оптимизация расходов без потери качества аналитики.
- Ошибки, которые удорожают BI-проекты.
- Успешный опыт компаний.

Почему стоит участвовать?

Вас ждут кейсы топ-компаний:

Альфа-Лизинг – Реальная стоимость данных: за что платит бизнес?
Газпромбанк – BI: центр затрат или источник экономии? Опыт интеграции FineBI с Service Desk.
СИБУР – Self-service BI: как контролировать расходы.
t2 – Как не уйти в минус при внедрении BI?

Будут только практические решения – реальный опыт, без воды.
Бонусы для участников: GlowByte предоставит чек-лист «BI без переплат», сделает запись эфира, и вы получите возможность задать вопросы спикерам.

Участие бесплатное! Регистрация по ссылке.

Будет круто и очень полезно, подключайтесь!

antex_dom

3 апр в 07:596.4K

Big Data * Промышленное программирование * SCADA * Raspberry Pi * Умный дом

Друзья инженеры, разработчики пишу в Вашу поддержку честный отзыв о наших соотечественниках.

НАБОЛЕЛО!!!!

Что бы вы не сделали, диванным критикам просто до одного места! Даже диван на котором он лежит это тоже Г-но потому, что болит левая пятка.

Семь лет назад нам нужен был промышленный компьютер (1000 штук), который бы собрал данные через промышленные протоколы и отправил их в облачную платформу с бюджетом до 15к (400 баксов) рублей на то время.

По какой то причине мы не заметили контроллер Wirenboard 6 (на процессоре NXP который покрывал все наши задачи) и начали разработку своего устройства AntexGate на базе Raspberry cm3 (теперь уже на Raspberry CM4 )

Сколько же хейта мы услышали в инфополе в свой адрес, но чем больше критики тем больше тебя узнают и покупают.

Мы тратим много сил и средств, чтобы развивать свой продукт и поддержку, отвечаем в Телеграм канале почти круглосуточно на вопросы.

Имея таких конкурентов как Wirenboard, ОВЕН, RealLab, Siemens .... мы нашли своих клиентов и продаем в год более 700 компьютеров.

Мы заморозили свое прибор до -65 (легко запустился на таком морозе), нагрели до +101 (на 102гр выключился).
Все равно получаем каждый день отзывы: "Вы просто засунули малину в свое коробку!"
Нет не просто! Мы угрохали более 5 лет жизни небольшой команды на то, чтобы это все работало - "Так как должно!" Перебрали рефенсные схемы самых именитых Европейских производителей под свои реалии.

Теперь про миллионы - чтобы развиваться у нас уходит почти вся наша прибыть не в карман, а в разработку новых приборов и поддержку уже имеющегося, однако никто в команде не жалуется на свою ЗП и мы стараемся чтобы она росла.

Я желаю пройти каждому разработчику правильный путь и по возможности сделать свое решение на сколько можно.
Я надеюсь, что оттепель настанет в нашей стране и появятся действительно Росcийские процессоры и другая элементная база, а пока увы Broadcom, Raspberry, NXP да на худой конец RockChip главное что-то делать и с голоду не умереть.

Уважаемые инженеры - разрабы, присоединяйтесь к нашему каналу в телеге мы ответим на любой вопрос (как сделать корпус, выбор источника питания и тд..), поможем и поддержим, дадим ответ на любой вопрос не только по прибору, но и любой другой.
Спасибо за внимание.

+16

yadro_team

28 мар в 15:348.9K

Блог компании YADROBig Data * Машинное обучение * Искусственный интеллект

Петля ~~времени~~ в пайплайне для уменьшения числа галлюцинаций в LLM

Это — грубая схема работа RAG-пайплайна, который использует одна из ML-команд в YADRO.

Задача команды: улучшить качество выдаваемых ответов на запросы пользователей, исключив галлюцинации.

Что сделали инженеры?

Решили дообучить базовую модель при помощи LoRA на специально собранном датасете для ситуаций, когда в контексте нет ответа на вопрос пользователя. На тот момент в качестве базовой модели LLM использовали saiga_mistral_7b, которая нетребовательна к ресурсам и долгое время была в топе на Russian SuperGLUE. Есть модели лучше, но, как правило, они либо огромные, либо имеют проблемы с лицензией в России, в том числе все, что основаны на LLaMa.

Самое главное: в этом RAG-пайплайне ML-инженеры решили сделать опциональную петлю, в которой проверяли бы каждый найденный фрагмент контекста на релевантность вопросу пользователя. Только те куски контекста, которые пройдут проверку, будут попадать в финальный вопрос для LLM.

Чтобы петля фильтрации работала правильно, нужен некий маркер, который позволяет однозначно определить, что модель считает кусок контекста нерелевантным.

Что это и за маркер? И к каким результатам привела оптимизация работы модели, читайте по ссылке →

Спойлер: Модель DeepSeek-R1-Distill-Qwen-7B уступила saiga_mistral_7b по качеству, несмотря на то, что первая намного новее и вооружена механизмом reasoning.

runity

27 мар в 10:395K

Блог компании РунитиBig Data * Облачные сервисы *

Рег.ру ускорил работу с облачной аналитикой в 2 раза

В облаке Рег.ру совместно с компанией «Фабрика Данных» провели высоконагруженные вычисления с Big Data и ускорили работу с облачной аналитикой. Делимся результатами проекта.

Компания «Фабрика Данных» занимается работой с высоконагруженными проектами: аналитикой данных, выявлением трендов и мониторингом спроса в областях FMCG, производства, финансов и др. С помощью ее продуктов можно получить персонализированные рекомендации по управлению ассортиментом товаров, ценообразованию и маркетинговым стратегиям. Для своих задач компания использует облачные серверы с GPU в Рег.ру. Рассказываем, каких результатов это помогло достичь:

ускорили работу с облачной аналитикой в 2 раза;
100% — такой уровень отказоустойчивости сервиса обеспечили;
почти на четверть повысили точность принятия решений при работе с аналитическими сервисами.

Подробнее о результатах проекта читайте на сайте.

А чтобы запустить и протестировать собственные проекты с высоконагруженными задачами, воспользуйтесь облачными серверами с GPU от Рег.ру.

Сервис оснащен двумя типами видеокарт NVIDIA: А5000 24Гб и А100 80Гб и подходит для выполнения ресурсоемких задач: для работы с AI и ML, графикой и видео, 3D, VDI и др.

ledevik

14 мар в 14:5811K

Блог компании КриптонитBig Data * ХакатоныИскусственный интеллект

Kryptonite ML Challenge подходит к концу!

Члены жюри, наши эксперты из лаборатории ИИ, отсмотрели все присланные решения и определились с финалистами!

В это воскресенье, 16 марта, в 12:00 пройдёт онлайн-питчинг проектов, а затем официальное закрытие Kryptonite ML Challenge.

Всех приглашаем присоединиться к трансляции — она будет в нашем паблике VK. Оставляем ссылку.

datadreamen

10 мар в 17:408.8K

Big Data * Управление проектами * Аналитика мобильных приложений * Управление продуктом * Управление персоналом *

⁠⁠Метрики и слова “черные дыры”⁠⁠

В работе мы ежедневно оперируем сотнями терминов и определений, но многие из них не имеют однозначной трактовки. Из-за этого во время обсуждений вы и коллеги можете подразумевать совершенно разное, называя это одинаковыми словами. Такие слова- «чёрные дыры» в процессе коммуникации поглощают время и энергию, но так и не приводят к нужному результату.

В аналитике проблема становится острее: «чёрными дырами» могут оказаться метрики. За каждой из них стоит методология расчёта, которую участники не всегда полностью понимают. Это грозит не только недопониманием, но и ошибочными бизнес-решениями.

Не все метрики подвержены риску: например, DAU/MAU обычно понятны команде. А вот финансовые показатели или продуктоспецифичные метрики часто становятся «дырами».

Как избежать проблем?

1. Задавайте вопросы без стеснения

Уточнения экономят время всем. Поддерживайте культуру, где вопросы приветствуются. Если на встрече много новичков — начните с мини-словарика терминов. Это повысит эффективность дискуссии в разы!

2. Мы в ответе за тех, кого приручили

При создании новой метрики назначайте ответственного. Его задача — актуализировать информацию и оперативно информировать команду об изменениях. Используйте каталоги метрик, глоссарии или внутренние базы знаний.

3. Онбординг с живыми материалами

Учебные документы часто устаревают быстрее, чем развивается компания. Решение: каждый, кто сталкивается с неоднозначностью и находит ответ, обязан добавить пояснение в общий глоссарий.

А вы сталкивались с «чёрными дырами» в терминах или метриках?

К чему это привело? Делитесь в комментариях! ✍ И подписывайтесь на tg data_dreamen, там еще больше про аналитику

denis-19

5 мар в 02:158.6K

Big Data * Машинное обучение * Управление проектами * Статистика в ITИскусственный интеллект

Google представила бесплатного ИИ-помощника по Data Science:

ИИ-агент не просто генерирует куски кода, сразу создаёт полноценные блокноты.
ИИ анализирует, визуализирует и пишет весь код на Python.
Всё, что нужно: загрузить любой датасет до 1 Гб и выдать задачу.
Нейросеть предложит план и поэтапно обработает все данные.
На выходе готовый код или диаграммы.

AlfaTeam

24 фев в 13:558.1K

Блог компании Альфа-БанкBig Data * Машинное обучение * Управление персоналом *

Основа хорошей разметки — правильно подобранная команда и выстроенные процессы

Административных подходов к разметке данных несколько:

Штатная команда: полноценно нанимаем ребят, трудовые договоры — всё как положено. Хорошо для больших задач, особенно, если необходим доступ к чувствительным данным.
Самозанятые (администрируем сами): упрощённый вариант, который позволяет не брать людей в штат, а заключать с ними простые договоры на сдельную работу и использовать проектный бюджет. Из плюсов — быстрый «найм», оптимизация налогов, сдельная оплата. Из минусов — большая текучка и юридические сложности: нельзя предоставлять рабочее место и налоговой должно быть очевидно, что эти люди не идентичны штатным сотрудникам.
Аутсорс-компании: сторонние команды, которые специализируются на разметке. Основное преимущество — масштабируемость и простота в администрировании для нас, как для заказчика. И плюс не нужна своя платформа разметки.
Крауд-платформы: агрегируют большое количество исполнителей, которые могут выполнять ваши несложные задачи. Аналогично с предыдущим пунктом — не нужна своя платформа разметки, но нужно уметь ей грамотно пользоваться.

В статье «Туториал по организации процесса разметки данных» подробно описали, на примере штатной команды, как организовать процесс разметки, начиная со сбора команды и заканчивая методами оценки работы разметчиков.

AlfaTeam

20 фев в 07:165.6K

Блог компании Альфа-БанкBig Data * Машинное обучение *

Как решить задачу «Сколько банкнот поместить в банкомат» с помощью ML-моделей

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Банкомат для банка — это источник и доходов, и расходов. Да, банкоматы приносят деньги, когда берут комиссии, принимая карты других банков, или выдают наличные с кредитных счетов. Но и содержание банкоматов — это регулярные расходы: устройства требуют сопровождения и страхования, они изнашиваются, их перемещение и чистка также требует вложений. Каждый выезд инкассаторов, каждый пересчёт кассет и их загрузка в устройство связаны с тратами.

Ко всему прочему, банк не может использовать деньги, которые находятся в банкомате, соответственно, не может на них зарабатывать: средства, залежавшиеся в устройстве, в итоге создают убыток. Список статей расходов у банкомата заметно более внушительный, чем список источников его дохода.

К чему это всё здесь описано? Рассчитать, сколько денег поместить в каждый конкретный банкомат — это задача с несколькими параметрами. Наскоком её не решить, например, не получится загружать все банкоматы деньгами по полной. Ведь иногда так бывает, что у двух рядом стоящих банкоматов к концу дня количество банкнот к концу дня отличается в разы, тогда в одном банкомате наличность будет простаивать.

Как решить задачу с банкоматами читайте в статье.

just_ai

17 фев в 07:386.3K

Блог компании Just AIBig Data * Искусственный интеллектБудущее здесьNatural Language Processing *

Как мы создали FAQ для клиентов КНАУФ на базе RAG – из разрозненных документов и всего за 2 недели?

Привет, Хабр! Хотим поделиться кейсом внедрения Jay Knowledge Hub в клиентский сервис КНАУФ. Для тех, кто не в курсе, КНАУФ – крупнейший производитель строительных отделочных материалов из гипса.

В сфере строительства и ремонта у потребителей часто возникают вопросы, связанные с выбором подходящих материалов или их правильным использованием. Покупатели регулярно обращаются за советами в службу поддержки КНАУФ, причем, по статистике, до 50% запросов поступает в нерабочее время операторов.

Для общения с клиентами КНАУФ активно применяет ботов, которые доступны на сайте, в VK, Telegram, по электронной почте и через телефонные каналы. Однако традиционные чат-боты не всегда способны справиться со сложными запросами пользователей. А для КНАУФ важно не только быстро реагировать, но и давать клиентам полноценные консультации.

К тому же, учитывая огромный спектр продукции и нюансов ее применения, обучение сценарного бота занимает слишком много времени. Требуется время на разбор вопросно-ответных пар, проверку актуальности данных и обновление бота. Поэтому в компании решили попробовать новый подход на базе генеративного ИИ и интегрировали Jay Knowledge Hub, интеллектуальную систему для поиска по неразмеченным данным на основе RAG и дата-агентов.

Как Jay Knowledge Hub помог компании создать AI-ассистента Kai, который за две недели научился отвечать на 3000+ вопросов;
Как интеграция RAG-технологии повысила точность ответов до 89%;
Как Jay Knowledge Hub превращает документы (pdf, docx, таблицы) в единый источник знаний;
Какие настройки применялись для проекта КНАУФ: как повторить успех.

Приходите на вебинар 18 февраля в 13:00, чтобы узнать, как происходила интеграция Jay Knowledge Hub и узнать о возможностях платформы.
Зарегистрироваться можно по ссылке.

Sravni_Tech

12 фев в 11:455.7K

Блог компании СравниApache * Big Data * Хранение данных * Data Engineering *

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой.

Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.
Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

HalltapeSparkCluster

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

veta_pf

11 фев в 12:307.9K

Блог компании Cloud.ruПрограммирование * IT-инфраструктура * Big Data * DevOps *

Запланируйте, какие вебинары посетите в феврале 📅

Регистрируйтесь на бесплатные вебинары, чтобы узнать больше про работу с сервисами платформы Cloud․ru Evolution:

Практикум Cloud.ru Evolution: как связать несколько виртуальных машин — 13 февраля. Покажем, как организовать сетевую связность между виртуальными машинами разных VPC на платформе Cloud.ru Evolution, а также между Cloud.ru Evolution и другими платформами или on-premise инфраструктурой.
Evolution Managed Spark и обработка миллиардов записей — 18 февраля. Узнайте, как обрабатывать большие массивы данных в несколько кликов с помощью сервиса Evolution Managed Spark. На вебинаре менеджер продукта Data Platform Cloud.ru Алексей Лицов расскажет и покажет, как работать с сервисом.
С какими вызовами мы столкнулись, пока строили DBaaS — 20 февраля. Расскажем про плюсы, минусы и особенности нашего решения — Database as a Service (DBaaS) поверх Kubernetes, а также про сервисы и режимы предоставления услуги.

А еще на каждом вебинаре будет сессия вопросов и ответов, на которой вы сможете задать экспертам любые интересующие вопросы по теме.

Присоединяйтесь!

Arenadata

3 фев в 09:545.9K

Блог компании ArenadataBig Data * Хранение данных *

Проекты на базе продуктов Arenadata стали победителями конкурса «Проект года»

Участники профессионального сообщества лидеров цифровой трансформации Global CIO подвели итоги ежегодного конкурса для ИТ-директоров и топ-менеджеров «Проект года». В этом году его провели уже в тринадцатый раз, а в числе победителей вошли проекты, реализованные на базе продуктов Arenadata.

На конкурс номинировали 12 проектов с продуктами Arenadata. В номинации «Управление и хранение данных» победил проект «Корпоративная дата-платформа» ПАО «Газпром нефть», а в спецноминации «Банки/Финансы» — проект импортозамещения ИТ-инфраструктуры АО «Газпромбанк».

В конкурсе участвовали шесть проектов ПАО ВТБ, пять из которых стали победителями. Среди них: система прогнозирования процентного риска (ALM-платформа), RWA-калькулятор 2.0, импортозамещение витрин данных для ФОИВ, управление финансами на основе трансфертного ценообразования и система мотивации сети продаж и СМБ.

Подробнее о победивших проектах

Проект ПАО «Газпром нефть». Цель — создать единую платформу для работы с данными на базе отечественных решений, оптимизировать процесс обработки и анализа данных, повысить эффективность и снизить стоимость проектов за счёт использования общей инфраструктуры. Уникальность заключалась в построении единого конвейера, где всё базируется на общих бизнес- и технических метаданных. Использовались Arenadata DB (ADB) и Arenadata QuickMarts (ADQM).

Проект АО «Газпромбанк». Проект по импортозамещению ИТ-инфраструктуры и переводу значимых объектов критической информационной инфраструктуры на суверенные решения. Важными задачами стали сохранение высокого уровня удобства, доступности и безопасности цифровых услуг, а также формирование технологических стандартов для рынка. Обработка больших данных ведётся на базе продуктов Arenadata.

Главной целью проекта ПАО ВТБ «Реализация прогноза метрик процентного риска банковской книги в ALM-платформе» стала реализация системы сценарного анализа риск метрик в части процентного риска банковской книги, чистого процентного дохода, маржинальности банка. В качестве одного из элементов ALM-системы использован дистрибутив распределённой платформы хранения больших данных Arenadata Hadoop (ADH).

Другой проект ПАО ВТБ был посвящён импортозамещению продукта SAS RRM для корпоративного контура банка, SAS ECL для розничного бизнеса, Oracle Exadata в части автоматизации расчета RWA по кредитному риску и расчета резервов по МСФО ФЛ и разработке собственного решения. В качестве одного из продуктов для хранения данных была выбрана Arenadata DB.

В проекте «Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)» от ПАО ВТБ важной целью стало развитие ФОИВ и развитие слоя источника данных для предоставления ответов на запросы ведомства. В рамках проекта было перенесено 22 витрины с данными, начиная с 2017 года, по более чем 1300 атрибутам. Проектирование и построение витрин, а также ETL-процессы по их обновлению выполнены на Arenadata Hadoop и Arenadata DB.

Проект ПАО ВТБ «Управление финансами на основе трансфертного ценообразования» был направлен на формирование на импортозамещенном стеке технологий витрины данных по расчету внутреннего аналитического финансового результата. Это улучшило «time to market» по доступности данных на 2 рабочих дня и позволило глубже анализировать доходность банковских продуктов. Использованы Arenadata DB и Arenadata Hadoop.

Ещё один проект ВТБ — «Система мотивации Сети продаж и Стримов блока СМБ» (номинация «Управление маркетингом и продажами») — был направлен на внедрение автоматизированной системы работы с большими данными для новой модели продаж и обслуживания клиентов сегмента СМБ. В числе используемых технологий — Arenadata DB.

Подробнее о конкурсе «Проект года»

«Проект года» — ежегодный конкурс ИТ-проектов от Global CIO, ключевая площадка для обмена опытом в цифровизации. Среди победителей разных лет — проекты на базе Arenadata от «Газпром нефть», ВТБ, X5 Retail Group и других.

datadreamen

31 янв в 14:276.4K

Big Data * Визуализация данных * Аналитика мобильных приложений * Искусственный интеллект

Конец профессии? Может ли ИИ заменить аналитиков?

Всем привет на связи data dreamen!

На фоне новостей о выходе новых моделей ИИ — DeepSeek и Qwen2.5-Max, которые, судя по тестам, местами даже превосходят решения OpenAI, снова возникает вопрос: что будет дальше? Сможет ли ИИ заменить меня, аналитика? И что мне с этим делать?

Если коротко — пока нет. Это подтверждает исследование Всемирного экономического форума: профессии, связанные с аналитикой данных и Data Science, занимают 11-е место среди самых перспективных к 2030 году. DWH-инженеры находятся на 6-м месте, а специалисты по Big Data и вовсе возглавляют этот список.

Однако, несмотря на высокий спрос на аналитиков, ИИ все же серьезно повлияет на рынок и характер работы в этой сфере. Вопрос в том, как именно.

① Автоматизация инструментов. ИИ будет активно заменять рутинные задачи, в том числе у аналитиков. Написание кода, выгрузка данных, подготовка отчетов — всё это будет автоматизироваться, минимизируя ручной труд.

② Развитие self-service. Чем больше задач автоматизируется, тем меньше заказчикам потребуется обращаться к аналитикам напрямую. Многие вопросы смогут решаться через self-service инструменты, снижая нагрузку на команду аналитики.

③ Масштабирование и рост зоны ответственности. ИИ возьмёт на себя базовые аналитические задачи, а аналитикам останутся более сложные, стратегические и ответственные решения — там, где автоматизация не справляется.

Что все таки ИИ не сможет сделать с аналитиками?

① Разработка и принятие нестандартных решений. ИИ — это модель, обученная на данных, но он не обладает креативностью и не умеет находить альтернативные пути решения. Когда нужно выйти за рамки типовых сценариев, роль человека остаётся ключевой.

② Контекст, бизнес-логика и коммерческая тайна. Во многих компаниях процессы настолько сложны, что даже человеку требуется несколько лет, чтобы в них разобраться. ИИ может помогать, но учесть все нюансы и скрытые факторы ему пока не под силу. К тому же, передача коммерческих данных открытым моделям может быть небезопасной.

③ Коммуникация. Аналитика — это не только цифры, но и умение "продать" свои выводы бизнесу, донести ценность и добиться внедрения решений. Даже идеальный расчет не будет полезен, если его не смогли правильно презентовать. Ну и, конечно, навыки постановки ТЗ у заказчиков пока не оставляют шансов ИИ полностью заменить аналитиков.

Что же в итоге нас ждет?

Скорее всего, компании будут разрабатывать собственные решения или внедрять рыночные инструменты для автоматизации аналитики, например:

конвертеры текстовых запросов в SQL-скрипты
АВ-платформы, которые смогут работать без участия аналитиков
визуализаторы данных, создающие отчёты по текстовому запросу

В результате акцент в работе аналитиков сместится: на первый план выйдут не базовые хард-скиллы (SQL, Python, BI-инструменты), а умение применять их в сложных и нестандартных ситуациях.

📉 К сожалению, это сильнее всего ударит по джунам — для принятия сложных решений нужен опыт, а простые задачи постепенно автоматизируются.

Но те, кто сможет адаптироваться, будут только в выигрыше! 🚀

Подписывайтесь на тг, там еще больше полезного и интересного про аналитику - https://t.me/data_dreamen

⁠⁠

Arenadata

16 янв в 09:577.6K

Блог компании ArenadataOpen source * SQL * Базы данных * Big Data *

В конце прошлого года Группа Arenadata выпустила обновления ряда своих продуктов.

Новые релизы:

Arenadata DB (ADB) — v6.27.1.59;
Arenadata DB Backup Manager (ADBM) — v2.3.2;
Arenadata DB Control (ADBC) — v4.11.0;
Arenadata Streaming (ADS) — v3.6.2.2.b1;
Arenadata Catalog (ADC) — v0.8.0;
Arenadata Cluster Manager (ADCM) — v2.5.0.

Обновления компонентов Arenadata Cluster Manager (ADCM):

Arenadata Monitoring (ADM) — v4.1.0;
Arenadata Enterprise Tools (ADET) — v2024121800.

В новых версиях улучшена производительность, исправлены ошибки, добавлен новый функционал и дополнительные возможности.

⛓ Текст обзора и ссылки на полное описание релизов здесь.

2 3 4 5

Big Data *

Ближайшие события

Вклад авторов