Как стать автором
Поиск
Написать публикацию
Обновить
106.18

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Data Mesh: ожидания vs реальность

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.9K

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Читать далее

Грязные данные для вечного сияния чистого ИИ

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров556

Эпиграф: Это хуже чем преступление. Это ошибка

Искусственный интеллект становится неотъемлемой частью современной жизни. Масштаб и скорость экспансии в различные сферы нашей жизни столь высокие (некоторые даже просят приостановить, что можно смело предположить будущее, где ИИ будет везде.

При этом согласно дорожной карте по развитию общего искусственного интеллекта от OpenAI, состоящей из 5 уровней, мы сейчас находимся на 1 уровне, когда ИИ только советует, а решение и ответственность остаётся за человеком. На следующем уровне он сможет рассуждать на уровне и вместо человека, а на третьем сможет действовать.

Скачок развития больших языковых моделей и нейросетей (технологий в основе ИИ) привёл к тому, что ИИ уже сейчас может говорить, рисовать картины, водить машину и даже пылесосить и мыть полы. Даже дети уже оживляют фотографии с помощью нейросетей.

Справедливо будет сказать, что все мы, согласно опросу ВЦИОМ, возлагаем на него большие надежды:

1. уменьшим затраты времени на рутину

2. повысим производительность труда

3. улучшим качество жизни

4. вырастет уровень безопасности

5. победит мировая революция

Одна из важных отраслей для применения ИИ - Здравоохранение.

В России принята Национальная стратегия в области искусственного интеллекта до 2030 года, в соответствии с которой, должны быть: "сняты отдельные административно-правовые барьеры, препятствовавшие внедрению технологий искусственного интеллекта в отдельных областях, включая здравоохранение, транспорт, государственно-частное партнёрство и другие области;"

Читать далее

Соединение SortMergeJoin в Apache Spark

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров497

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта.

Читать далее

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Время на прочтение6 мин
Количество просмотров1.3K

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

Читать далее

Переосмысляя Serverless. Парадигма хранения и обработки данных

Время на прочтение5 мин
Количество просмотров2.2K

Много было сказано про Serverless в нагрузках без сохранения состояния. Действительно, когда у вас есть контейнеры или функции их легко почти мгновенно масштабировать и нет большой разницы, на какой именно машине это делать.

Но данные имеют очень конкретную привязку к диску, на котором размещены. Что создает немало сложностей к самой концепции бессерверных вычислений.

В этой статье я хочу показать, где бессерверная архитектура может быть применима, и рассмотрю несколько новых, и весьма перспективных решений в этой области, таких как Neon, Warpstream и TiDB.

Читать далее

Что такое MLFlow и как он помогает в разработке моделей

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.8K

Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow.

Читать далее

Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4.7K

Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :-)

Читать далее

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров4.5K

Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.

Будущее трансформеров

Байесовские А/Б-тесты: множественные сравнения

Время на прочтение4 мин
Количество просмотров1.7K

Байесовский подход применен к А/Б-тесту конверсий с 3 группами. Лучшая группа выбирается сравнением апостериорных распределений. Способ применим для других метрик и большего количества вариантов.

Читать

Как тестировать AI-агентов, чтобы не было больно

Время на прочтение9 мин
Количество просмотров2.9K

AI-агенты трансформируют индустрии — от чат-ботов в службе поддержки до продвинутых ассистентов для программирования. Однако, чтобы они действительно были эффективными и заслуживающими доверия, необходимо их тщательное тестирование. Строгая процедура тестирования и оценки позволяет оценить производительность агента, адаптивность к новым сценариям и соответствие требованиям безопасности.

В этой статье изложены структурированные шаги для тестирования и оценки AI-агентов с точки зрения надежности, устойчивости к сбоям и общего воздействия.

Читать далее

История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров1.2K

С возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.

В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.

Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.

С началом нового тысячелетия мы вступили в эпоху больших данных. Специалисты разработали передовые инструменты для обработки огромных массивов разнообразных данных, которые генерируются с невероятной скоростью.

Для работы с данными и их структурой используются технологии, которые позволяют эффективно обрабатывать и анализировать большие объёмы информации.

Тем не менее, при внедрении таких аналитических инструментов компании всё ещё сталкивались с определёнными трудностями.

Архитектура сохраняла свою целостность, и одна команда специалистов занималась созданием платформы и интеграцией данных.

В крупных компаниях такой метод сразу же вызывал формирование значительных очередей за услугами по интеграции и аналитическими инструментами.

В данном контексте централизация оказалась ахиллесовой пятой крупных корпораций.

В крупных организациях попытка сосредоточить все усилия по интеграции данных в одной группе может оказаться неэффективной. Зачастую источники информации находятся в разных местах, не имея единого центра управления, что затрудняет поиск ответственных лиц. Такой подход не приводит к нужным результатам.

Подробный текст статьи

Текстовая трансляция ArenaDAY 2025

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров1.2K

Хабр, привет! И добро пожаловать на прямую текстовую трансляцию конференции ArenaDAY 2025! Да, сегодня на официальном сайте идёт прямая видеотрансляция мероприятия, но мы решили провести ещё и текстовую — специально для тех, кто не может смотреть онлайн. Следите за обновлениями: мы оперативно публикуем самые интересные моменты, главные тезисы выступлений и цитаты спикеров!

Читать далее

Оцени, прежде чем доверять: как сделать AI-агента полезным

Время на прочтение7 мин
Количество просмотров2.1K

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.

Читать далее

Ближайшие события

Рефакторинг в BI-проектах: когда и зачем переписывать «рабочий» код

Время на прочтение11 мин
Количество просмотров1.1K

В крупных федеральных организациях всё активнее используется подход управления на основе данных, который требует активного использования и постоянной переделки, развития, модификации аналитических приложений, отчётов, данных. Тот опыт и наши наработки, которыми мы хотим поделиться в рамках данной статьи, приносят пользу на многих проектах, где речь идёт о сотнях аналитических отчётов и дэшбордов, нескольких тысячах показателей и сотнях и тысячах активных пользователей, где, самое главное, вендорские решения кастомизируются внутренними командами заказчика. Для таких случаев всё, о чём мы расскажем дальше, очень важно, для остальных — надеемся, что будут полезны отдельные мысли и технические решения.

Начнём с простого и наболевшего. Когда создаётся первая версия дэшборда, задача звучит просто: «показать данные хоть как-нибудь и побыстрее». Не до архитектуры, не до производительности — главное, чтобы цифры появились, и руководство смогло принять правильное управленческое решение. Потом уточняется задача, добавляются новые требования, меняются источники, добавляются разрезы данных, растёт нагрузка. И вот тот самый дэшборд, собранный на скорую руку, оказывается в проде — и технически работает не так и не с той скоростью, как нужно. А далее необходимо развивать функционал, обновлять версию. И сложности растут.

В этой статье команда авторов ГК Luxms, вендора платформы бизнес-аналитики Luxms BI, расскажет, почему так происходит и почему «оптимизация» — это не про критику, а про работу с реальностью, со сложной реальностью мира IT и мира данных. А еще — почему важно не только чинить, но и уважать чужой код. 

Читать далее

Цифровые двойники: превращаем данные в деньги с помощью матмоделирования

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров4.6K

Сегодня Digital Twin — это не просто модное словосочетание, а ключевой инструмент оптимизации производства. От нефтегазовых предприятий и химических производств до птицефабрик — цифровые двойники внедряются в самые разные отрасли. В этой статье мы разберемся, какие технологии стоят за этим подходом, какие специалисты нужны для работы с цифровыми двойниками и как они применяются на реальных производственных объектах.

Привет, Хабр, я Руслан Залевских, старший аналитик группы Data Science отдела цифрового моделирования IBS, и сегодня поговорим о цифровых двойниках — технологии, с которой я работаю уже несколько лет. Расскажу о том, что такое Digital Twins и приведу примеры их использования на некоторых наших проектах.

Читать далее

В Garage Eight наступила неделя оптимизации. Число ad hoc задач сократилось в 3 раза

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров595

Привет, Хабр! Меня зовут Константин, я лидирую аналитику партнерских программ в компании Garage Eight. Еще год назад ad hoc были для нас настоящим бедствием: мы достаточно долго существовали в реалиях 60–70 таких задач в месяц. Но в какой-то момент решили, что пора завязывать, и за несколько шагов сократили их до 20–25.

Рассказываем, как справились (и продолжаем справляться) с ad hoc задачами, и немного о том, почему в постоянно развивающемся бизнесе невозможно жить совсем без них.

Читать далее

Как Apache Spark читает файлы: механизмы, оптимизации

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров3.1K

Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Многие недооценивают важность правильного выбора форматов данных и тонкой настройки процессов чтения, а потом удивляются, почему их Spark-джобы работают медленно и потребляют слишком много ресурсов. Читаем далее что бы разобраться в теме ->

Читать далее

Промежуточные витрины в SQL

Время на прочтение8 мин
Количество просмотров2.1K

Привет, Хабр!

Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).

Читать далее

Три необсуждаемых вопроса о микросервисах и параллельной распределённой обработке данных — чтобы жить стало легче

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.5K

Воркшоп для тех, кто впервые сталкивается с распределёнными системами.

В этой статье на примере решения несложного архитектурного кейса я покажу, что ответов только на 3 вопроса при проектировании систем распределённой параллельной обработки данных будет достаточно для обеспечения жёстких нефункциональных требований.

Читать далее

Работа с библиотеками, которые не установлены в Airflow

Время на прочтение3 мин
Количество просмотров2.3K

Данные библиотеки можно использовать при работе со SparkOperator:

1. Создание виртуального окружения с необходимыми библиотеками

2. Создание задачи в даге и установка окружения в SparkSubmit

Читать далее

Вклад авторов