Как стать автором
Поиск
Написать публикацию
Обновить
119.91

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Время на прочтение6 мин
Количество просмотров1.3K

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

Читать далее

Иногда приходится¹ копаться² в кишках³ Apache Spark

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2K

¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует.
² и да, довольно-таки глубоко.
³ нет, серьёзно!



Давайте рассмотрим следующий бизнесовый кейс.


Дано: реально большие данные. Очень много датасетов по много терабайтов каждый, — в сумме объём тянет на петабайты. Лежат в облаке, но это не важно. Важно, что мы эти данные покупаем в «сыром» виде, каким-то образом «готовим», а потом перепродаём конечному потребителю.


Требуется: при подготовке каждого из датасетов разделить его согласно значениям одного или нескольких полей, составляющих его записи, на несколько. И это одна из особенно часто встречающихся в нашем процессе операций.


Довольно-таки сложный, продвинутый ETL у нас. Поясню на типичном примере.

Читать дальше →

Как в Почтатех внедряли отчетность на Luxms BI: интервью тимлида

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров436

Когда в 2022 году в ИТ-системах Почты России стартовал масштабный проект по импортозамещению, команде BI-направления в дочерней компании «Почтатех» предстояло внедрить отечественную альтернативу привычным зарубежным аналитическим решениям – Luxms BI. О том, как проходил процесс внедрения, с какими трудностями столкнулись и какие возможности открылись перед командой — мы поговорили с Евгением Дрензелевым, техлидом BI-направления в Почтатех.

Далее он расскажет о задачах, которые предстояло решить в процессе импортозамещения, а также о тех выгодах и положительных изменениях, которые были получены в результате.

Читать далее

85 вопросов на собеседовании разработчика QlikView/Qlik Sense (с ответами)

Уровень сложностиСредний
Время на прочтение56 мин
Количество просмотров2.4K

Всем привет! Меня зовут Александр Андреев, я старший SRE дата-инженер и бывший BI/DWH-разработчик с многолетним опытом работы с BI‑платформой QlikView/Qlik Sense. В своей статье‑шпаргалке я хочу поделиться с вами практически всеми возможными вопросами и ответами с собеседований на должность Qlik‑разработчика. Данная шпаргалка гарантированно закроет 99% возможных вопросов на собеседованиях на позиции, где упоминается Qlik в качестве BI‑системы. Таких позиций с каждым годом все больше, причем знание Qlik в качестве BI‑системы требуют как с чистых «биайщиков», так и с дата‑инженеров на некоторых сеньорских и lead позициях.

Подготовка к собеседованию на позицию с QlikView/Qlik Sense в качестве BI‑системы требует глубокого понимания как базовых концепций, так и продвинутых техник работы с платформой. В этой статье я собрал 85 наиболее важных вопросов, которые помогут вам систематизировать знания и успешно пройти техническое интервью.

Читать далее

Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.3K

Алгоритм Recovering Difference Softmax (RDS) — полноценный подход к оптимизации уведомлений и контента для повышения вовлеченности пользователей. Алгоритм выбирает единственно лучший вариант, удерживая пользователей дольше и возвращая их чаще.

Если коротко, улучшает работу алгоритмов машинного обучения, особенно когда нужно делать выбор из нескольких вариантов.

Как RDS превращает простые сигналы в рост вовлечённости? Разбираемся в статье!

Читать далее

RAG‑агент для автоматизации инцидент‑менеджмента

Время на прочтение20 мин
Количество просмотров4.8K

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.

Читать далее

Переосмысляя Serverless. Парадигма хранения и обработки данных

Время на прочтение5 мин
Количество просмотров2.2K

Много было сказано про Serverless в нагрузках без сохранения состояния. Действительно, когда у вас есть контейнеры или функции их легко почти мгновенно масштабировать и нет большой разницы, на какой именно машине это делать.

Но данные имеют очень конкретную привязку к диску, на котором размещены. Что создает немало сложностей к самой концепции бессерверных вычислений.

В этой статье я хочу показать, где бессерверная архитектура может быть применима, и рассмотрю несколько новых, и весьма перспективных решений в этой области, таких как Neon, Warpstream и TiDB.

Читать далее

Планировщики процессов — другие open source решения

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.6K

Такие workflow-оркестраторы, как Metaflow или Apache Airflow, на слуху. Однако в их тени существуют не менее интересные решения — например, StepWise, Dagu, Windmill, Flyte и µTask. Они предоставляют интересные возможности для автоматизации, ускорения и упрощения настройки сложных workflow, и часто обладают более современной архитектурой, меньшим порогом входа или ярко выраженной специализацией для типовых задач.

Сегодня познакомимся подробнее с инструментами, которые расширят ваш арсенал и помогут создавать более надёжные и экономичные системы.

Читать далее

SRE в инженерии данных: профессия и ее перспективы

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров3.5K

Всем привет! Меня зовут Александр Андреев, я старший SRE дата-инженер в компании "Криптонит". Сегодня я хочу рассказать о необычной, но набирающей обороты роли в области обработки данных - SRE Data Engineer: кто это такой, чем занимается, как им стать, куда развиваться и какие перспективы у этой профессии.

Читать далее

Машинное обучение в Apache Spark с помощью MLlib

Время на прочтение8 мин
Количество просмотров1.4K

Apache Spark содержит в себе множество различных библиотек, среди которых есть библиотека MLlib, предназначенная для машинного обучения. Она содержит реализации различных алгоритмов машинного обучения и может использоваться во всех языках программирования, поддерживаемых фреймворком Spark.

В этой статье мы покажем вам, как использовать этой библиотекой в своих программах, и дадим некоторые рекомендации по ее применению.

Читать далее

Современные подходы к матчингу товаров с использованием LLM. Опыт в e-commerce

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.9K

Привет, Хабр! Меня зовут Виталий Кулиев и я Data Science Tech Lead из Wildberries. На конференции HighLoad++ 2024 поделился опытом своей команды в решении задачи матчинга товаров с помощью больших языковых (LLM) и визуально-языковых (VLM) моделей. 

Читать далее

Китайская ИИ-революция и развитие BI: чему нам стоит поучиться

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.2K

Привет, Хабр! На связи Business Intelligence GlowByte. 

Три года назад мы в GlowByte провели первую конференцию, на которой рассказали о китайском инструменте продвинутой аналитики FineBI. Тогда же мы впервые познакомили вас и с нашим партнером FanRuan, с которым решили сегодня немного рассказать о том, как в Китае обстоит дело с искусственным интеллектом и как ИИ связан с бизнес-аналитикой. 

Китай сегодня — не просто лидер в области искусственного интеллекта (ИИ), он формирует устойчивую цифровую экосистему, глубоко интегрированную в экономику. Особенно активно технологии развиваются в B2B-сегменте и BI-индустрии. В то время как в России продолжает формироваться культура продвинутой бизнес-аналитики, Китай делает ставку на масштабное внедрение решений нового поколения — ABI (Augmented Business Intelligence). Этот опыт стоит изучить, а, возможно, и перенять, особенно в условиях курса на импортозамещение и цифровой суверенитет.

Читать далее

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3.5K

Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и спрогнозировали дальнейшее развитие на основе выявленных тенденций.

Растущая востребованность Spark объясняется не только открытым исходным кодом и гибкостью, но и лёгкостью интеграции с современными технологиями — от машинного обучения до облачных платформ.

«В России Apache Spark становится не просто популярным фреймворком для обработки данных, а частью экосистемы отечественных решений в сфере Big Data. Особенно это касается объектов критической инфраструктуры, где всегда отдаётся предпочтение только самым надёжным и проверенным решениям», — пояснил Иван Попович, руководитель направления обработки данных компании «Криптонит».

Для критически важных отраслей (госуправление, финансы, энергетика) важна локализация данных и соответствие требованиям регуляторов.

«Открытый исходный код здесь играет ключевую роль, так как обеспечивает прозрачность и возможность тщательной верификации. Также он даёт уникальную возможность адаптировать решение под конкретные требования проекта. Хотя само по себе наличие открытого кода не является гарантией безопасности, Apache Spark за 15 лет своего развития доказал эффективность и надёжность в самых различных областях применения», — добавил эксперт.

В последние годы Spark проникает в новые сферы. Он всё активнее используется в агропромышленном комплексе, энергетике, нефтегазовой и химической отрасли. В основном его применяют для оптимизации производства, прогнозирования аварий и повышения энергоэффективности.

Читать далее

Ближайшие события

Как я удалил clickstream, но его восстановили из небытия

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.5K

Всем привет! Я Дмитрий Немчин из Т-Банка. Расскажу не очень успешную историю о том как я удалил данные и что из этого вышло.

В ИТ я больше 12 лет, начинал DBA и разработчиком в кровавом энтепрайзе с Oracle. В 2015 году познакомился с Greenplum в Т, да так тут и остался. С 2017 года стал лидить команду, потом все чуть усложнилось и команда стала не одна.  Возможно, вы меня могли видеть как организатора Greenplum-митапов в России. 

Но команда командой, менеджмент менеджментом, а руки чешутся..

Читать далее

Можно ли оценить эффективность цифровой трансформации или это просто дань моде?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров970

Цифровая трансформация давно перестала быть громким лозунгом — сегодня это рабочий инструмент, от которого зависит выживание и рост компании. В «Росгосстрахе» я отвечаю за управление отчетностью, и наша задача — не просто автоматизировать процессы, а перестроить архитектуру принятия решений. В этом тексте — о том, как мы измеряем цифровую зрелость, зачем это делать и как использовать метрику как компас в непростом ландшафте изменений. Материал будет полезен тем, кто работает с данными, внедряет новые технологии, управляет трансформацией или просто ищет устойчивые опоры в эпоху цифрового сдвига.

Цифровая трансформация — это не про тренды, а про выживаемость. Но прежде чем менять процессы, важно понять: где мы находимся сейчас и куда действительно стоит двигаться. В этом смысле цифровая зрелость — не модное словосочетание, а инструмент навигации. Я расскажу о нашем подходе: какие шаги мы предпринимаем, какие метрики считаем значимыми и как используем их не ради отчётов, а ради движения вперёд.

По сути, мы решаем одну из самых сложных задач — пытаемся измерить сам процесс перехода, его глубину и устойчивость. Это непросто: цифры упрямы, а перемены часто текут не по линейной шкале. Но без этих измерений всё превращается в хаотичную трату ресурсов. Чтобы что-то улучшить, нужно сначала научиться видеть — не просто глазами, а данными.

Что такое цифровая зрелость и зачем её измерять?

Цифровая зрелость — это не абстрактный рейтинг, а срез состояния компании в моменте: насколько глубоко технологии проникают в процессы, насколько органично они встроены в стратегию, управленческие практики и ежедневные решения. Это не про количество IT-систем, а про то, как устроена ткань бизнеса — от культуры до архитектуры данных.

Читать далее

Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.4K

Почему, по данным экспертов GlowByte, целых 80% проектов внедрения систем бизнес-аналитики выходят за рамки изначально запланированного бюджета? Ответ парадоксально прост и сложен одновременно: компании систематически недооценивают реальную совокупную стоимость владения BI-системами. Наши наблюдения показывают, что большинство заказчиков концентрируются исключительно на очевидных статьях расходов, игнорируя множество "скрытых" факторов, которые неизбежно проявляются по мере развития проекта.

За годы работы с десятками проектов внедрения аналитических систем мы в GlowByte выявили закономерность — даже опытные ИТ-директора порой не учитывают до 40% реальных затрат при планировании бюджета на BI-инициативы. В этой статье я поделюсь инсайтами о наиболее типичных "финансовых ловушках", которые подстерегают компании на этом пути.

Читать далее

Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров4.7K

В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования ускорить обработку данных, как правильно настраивать оконные функции и запускать множество небольших Spark-приложений внутри одного процесса для экономии ресурсов.

Привет, Хабр! Меня зовут Александр Маркачев и я — Data Engineer команды Голосовой Антифрод в билайн. Расскажу, как борьба с мошенниками может обернуться личным вызовом.

Все техники сопровождаются объяснениями, примерами и рекомендациями для самостоятельного повторения.

Читать далее

Управление отставанием lag в Kafka Consumers: как не просто замерить, а стабилизировать

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.7K

Привет, Хабр!

Сегодня рассмотрим, почему отставание у Kafka-консьюмеров — это не просто строчка в kafka-consumer-groups, а метрика, от которой зависит SLA вашего сервиса. Рассмотрим, как её считать без самообмана, как соорудить собственный мониторинг на Python и Go, а главное — чем именно тушить всплески lag’а: throttle, autoscale и backpressure.

Читать далее

Путь в AI: от студента до инженера, исследователя или разработчика

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.5K

Привет, Хабр! Меня зовут Анна Щеникова. Я работаю AI-инженером в Центре RnD МТС Web Services и параллельно лидирую магистерскую программу «Исследования и предпринимательство в искусственном интеллекте» ВШЭ. В МТС занимаюсь всем, что связано с моделями: вместе с коллегами тестирую гипотезы про агентов и мультимодельные подходы.

Переход от студенческой жизни к профессиональной деятельности — важный и сложный этап. Это первые серьезные шаги в карьере, первое понимание, как применить полученные знания в реальном бизнесе.

Я прошла этот путь несколько раз: сначала сама, а потом помогая магистрантам в ВШЭ. Так я увидела, какие ключевые точки нужно проработать, чтобы комфортно и весело перейти от теории к реальным бизнес-задачам. В этом посте расскажу о своем опыте перехода к полноценной работе и поделюсь видением того, что будет актуальным в сфере AI в ближайшем будущем. Надеюсь, это поможет кому-нибудь правильно спланировать карьеру.

Читать далее

LLM-судья: как LLM отсекает правду от лжи?

Время на прочтение27 мин
Количество просмотров1.6K

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM.

Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов.

Оценивать сгенерированные тексты сложно, будь то «простой» саммари или диалог с чат-ботом. Метрики типа accuracy плохо работают, поскольку «правильный» ответ может быть сформулирован множеством способов, не обязательно совпадающих с образцом. Кроме того, стиль или тон — субъективные характеристики, которые сложно формализовать.

Люди способны учитывать такие нюансы, но ручная проверка каждого ответа плохо масштабируется. В качестве альтернативы появилась техника LLM-as-a-judge: для оценки сгенерированных текстов используются сами LLM. Интересно, что LLM одновременно являются и источником проблемы, и её решением!

Читать далее

Вклад авторов