Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@kucev 12 июн в 11:00

Хочешь своего AI-бота? Пошаговый план для новичков и не только

6 мин

6.6K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.

В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.

Читать далее

+3

@vonirug 4 июн в 08:02

Data Mesh: ожидания vs реальность

Средний

10 мин

2.4K

Блог компании Лемана ТехХранение данных * Data Engineering * Big Data * Data Mining *

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Читать далее

+3

@Vjatcheslav_S 2 июн в 13:09

Соединение SortMergeJoin в Apache Spark

Простой

6 мин

523

Блог компании АО «ГНИВЦ»Hadoop * Big Data * Data Engineering * Базы данных *

Обзор

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта.

Читать далее

+3

@kucev 27 мая в 13:10

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

6 мин

1K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

Читать далее

+3

@selesnow 28 апр в 09:30

Как мы внедрили LLM в рабочие процессы аналитиков на R — и сделали это бесплатно

Средний

10 мин

2.4K

R * Искусственный интеллектData Engineering * Машинное обучение *

Туториал

В этой статье расскажу, как мы в команде аналитиков начали использовать большие языковые модели (LLM) в повседневных рабочих инструментах. Всё построено на R, и покажу на практике, как можно внедрить такие фичи у себя — без платных подписок, без OpenAI и без строчки кода на Python.

Читать далее

+3

@kucev 24 апр в 11:00

Как тестировать AI-агентов, чтобы не было больно

9 мин

2.5K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

AI-агенты трансформируют индустрии — от чат-ботов в службе поддержки до продвинутых ассистентов для программирования. Однако, чтобы они действительно были эффективными и заслуживающими доверия, необходимо их тщательное тестирование. Строгая процедура тестирования и оценки позволяет оценить производительность агента, адаптивность к новым сценариям и соответствие требованиям безопасности.

В этой статье изложены структурированные шаги для тестирования и оценки AI-агентов с точки зрения надежности, устойчивости к сбоям и общего воздействия.

Читать далее

+3

@bi-denvic 24 апр в 04:15

История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы

Сложный

7 мин

849

Big Data * Data Engineering * Data Mining *

Из песочницы

С возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.

В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.

Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.

С началом нового тысячелетия мы вступили в эпоху больших данных. Специалисты разработали передовые инструменты для обработки огромных массивов разнообразных данных, которые генерируются с невероятной скоростью.

Для работы с данными и их структурой используются технологии, которые позволяют эффективно обрабатывать и анализировать большие объёмы информации.

Тем не менее, при внедрении таких аналитических инструментов компании всё ещё сталкивались с определёнными трудностями.

Архитектура сохраняла свою целостность, и одна команда специалистов занималась созданием платформы и интеграцией данных.

В крупных компаниях такой метод сразу же вызывал формирование значительных очередей за услугами по интеграции и аналитическими инструментами.

В данном контексте централизация оказалась ахиллесовой пятой крупных корпораций.

В крупных организациях попытка сосредоточить все усилия по интеграции данных в одной группе может оказаться неэффективной. Зачастую источники информации находятся в разных местах, не имея единого центра управления, что затрудняет поиск ответственных лиц. Такой подход не приводит к нужным результатам.

Подробный текст статьи

+3

@Arenadata 22 апр в 06:00

Текстовая трансляция ArenaDAY 2025

Простой

15 мин

883

Блог компании ArenadataData Engineering * Big Data * Конференции

Репортаж

Хабр, привет! И добро пожаловать на прямую текстовую трансляцию конференции ArenaDAY 2025! Да, сегодня на официальном сайте идёт прямая видеотрансляция мероприятия, но мы решили провести ещё и текстовую — специально для тех, кто не может смотреть онлайн. Следите за обновлениями: мы оперативно публикуем самые интересные моменты, главные тезисы выступлений и цитаты спикеров!

Читать далее

+3

@kucev 21 апр в 11:00

Оцени, прежде чем доверять: как сделать AI-агента полезным

7 мин

1.7K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.

Читать далее

+3

@dsb42 4 апр в 23:14

Нейросетевой подход для классификации событий отслеживаемых сверхширокополосным радаром

Средний

4 мин

1.1K

Электроника для начинающихАлгоритмы * Data Engineering * Искусственный интеллектPython *

Аналитика

В данной статье речь пойдёт о том, как используя разные архитектуры нейронных сетей классифицировать данные полученные со сверхширокополосного радара " XETHRU by NOVELDA X4M02 290056-010 ". Моя работа основана на публикации " UWB-gestures, a public dataset of dynamic hand gestures acquired using impulse radar sensors " в которой подробно рассмотрена задача классификации человеческих жестов заснятых на сверхширокополосный радар при помощи свёрточной нейронной сети. Авторы оригинальной статьи выложили весь датасет собранный ими в открытый доступ, благодаря чему у меня появилась возможность воспроизвести их результат, а так же превзойти его применив архитектуры рекуррентных нейронных сетей и трансформеров.

Оригинальная статья:
https://www.researchgate.net/publication/350811193_UWB-gestures_a_public_dataset_of_dynamic_hand_gestures_acquired_using_impulse_radar_sensors https://www.nature.com/articles/s41597-021-00876-0
Данные:
https://figshare.com/articles/dataset/A_Public_Dataset_of_Dynamic_Hand-gestures_Acquired_using_Impulse-radar_sensors_/12652592
Мой GitHub с кодом:
https://github.com/DenissStepanjuk/UWB-Gestures-classification-with-Neural-Networks

Ознакомиться.

+3

@confident_action 1 апр в 12:31

Как Apache Spark читает файлы: механизмы, оптимизации

Сложный

5 мин

2.5K

Data Engineering * Big Data *

Туториал

Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Многие недооценивают важность правильного выбора форматов данных и тонкой настройки процессов чтения, а потом удивляются, почему их Spark-джобы работают медленно и потребляют слишком много ресурсов. Читаем далее что бы разобраться в теме ->

Читать далее

+3

@vstorozhilov 17 мар в 20:40

Три необсуждаемых вопроса о микросервисах и параллельной распределённой обработке данных — чтобы жить стало легче

Средний

12 мин

1.7K

Микросервисы * Hadoop * Big Data * Распределённые системы * Data Engineering *

Туториал

Воркшоп для тех, кто впервые сталкивается с распределёнными системами.

В этой статье на примере решения несложного архитектурного кейса я покажу, что ответов только на 3 вопроса при проектировании систем распределённой параллельной обработки данных будет достаточно для обеспечения жёстких нефункциональных требований.

Читать далее

+3

@Dzbell 17 мар в 06:00

Оптимизация скриптов для витрин данных: от суток к часам

6 мин

1.4K

Блог компании ГазпромбанкData Engineering * SQL *

В 2022 году я присоединился к команде Газпромбанка в должности дата-инженера. В мои обязанности входила поддержка витрин данных для машинного обучения. Главной проблемой, с которой мне пришлось столкнуться, оказалось непомерно долгое время обработки данных при использовании устаревших скриптов. Например, расчет среза одной из витрин занимал более суток! Причина крылась в неоптимизированных скриптах, которые изначально разрабатывались для гораздо меньших объемов данных. Со временем объем обрабатываемой информации значительно увеличился, что закономерно привело к драматическому ухудшению производительности. В этой статье поделюсь своим опытом решения проблемы и расскажу о подходах, которые помогли сократить время выполнения с суток до нескольких часов.

Читать далее

+3

@DmitriiReshetnikov 9 мар в 18:57

Работа с библиотеками, которые не установлены в Airflow

3 мин

1.8K

Data Engineering * Big Data * Python * Apache *

Данные библиотеки можно использовать при работе со SparkOperator:

1. Создание виртуального окружения с необходимыми библиотеками

2. Создание задачи в даге и установка окружения в SparkSubmit

Читать далее

+3

@jesusian 3 мар в 11:16

Positional Bias: Что это такое и как с ним жить? Учимся правильно предсказывать CTR

Средний

5 мин

537

Data Engineering * Машинное обучение * Поисковые технологии *

Кейс

Из песочницы

Поговорим про такого зверя, как positional bias. Разберёмся на примере задачи по ml system design — предсказание вероятности клика по товару в поисковой выдаче.
Рассмотрим основные подходы к решению: дисконтирование таргета, добавление «позиции» как фичи и другие подходы, используемые в рекомендательных системах и поисковых алгоритмах.

Читать далее

+3

@DmitriiReshetnikov 22 фев в 19:06

В ClickHouse одна плоская таблица лучше, чем несколько соединенных таблиц

4 мин

7.1K

Data Engineering * Big Data *

Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов

Читать далее

+3

@kucev 13 фев в 09:30

Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

18 мин

1.5K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности, таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента. В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

Читать далее

+3

@k0rsakov 20 дек 2024 в 06:00

Рынок дата-инженеров и прогноз на 2025

Простой

5 мин

3.8K

Big Data * Хранение данных * Карьера в IT-индустрииData Engineering *

Мнение

В этой статье вы сможете узнать в каком состоянии находится рынок дата-инженеров в 2024-ом и что с ним будет в 2025-ом.

Читать далее

+3

@Osya_razrabotchik 16 дек 2024 в 16:27

Как перейти от ручной проверки данных к автоматической: решение ИЦ «Безопасный транспорт»

10 мин

999

Big Data * Data Engineering * Data Mining * Habr

Кейс

Об Инновационном центре

Инновационный центр «Безопасный Транспорт» создан в 2017 году на базе ЦОДД для работы с Big data и решения задач Транспортного комплекса Москвы. Команда экспертов изучает и анализирует потребности жителей столицы, а также разрабатывает и внедряет инновационные цифровые сервисы и решения для транспорта и дорог города.

На данный момент на базе Инновационного центра построено хранилище данных Транспортного комплекса столицы, которые используются во многих проектах и продуктах, направленных на оказание поддержки в принятии управленческих решений Правительству Москвы, а также на улучшение транспортной инфраструктуры города в целом.

Хранилище данных — сердце Транспортного комплекса

С 2013 года Москва стремительно росла, улучшалась и расширяла свои границы. Логично, что это влекло за собой бурное развитие Транспортного комплекса, а вместе с ним увеличивалось и количество обслуживающих его IT-систем и данных, которые эти системы генерируют.

Для реализации концепции data driven нужно было собрать все эти данные в одном месте, а для этого была нужна отдельная команда и отдельное подразделение. С этого в 2017 году и началась история ИЦ, сердцем которого является хранилище данных.

На данный момент данные хранилища Инновационного Центра используются во множестве информационно-аналитических продуктов. В их числе — интерактивная аналитическая отчётность, цифровое мастер планирование города, Экологическая карта, Коммуникационная платформа, Карта аварийности, Справка загруженности и другие решения, направленные на улучшение и развитие Транспортного комплекса Москвы.

Читать далее

+3

@timofey_melnikov 18 часов назад

Аналитика телеметрии автосимулятора Assetto Corsa

Средний

8 мин

7.5K

C# * HTML * Data Engineering * Data Mining *

Кейс

На SOC Forum у нас стоял гоночный симулятор Assetto Corsa — и мы решили сделать его не просто развлечением, а полноценным источником аналитики.

Мы подключились к Shared Memory игры, собрали данные в реальном времени, построили дашборды и придумали ачивки.

Рассказываю, как устроена телеметрия AC, как собрать её в режиме реального времени и зачем всё это понадобилось.

Читать далее

+2

1 2 ...

15