Все потоки
Поиск
Написать публикацию
Обновить
74.84

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Период
Уровень сложности

Как перейти от ручной проверки данных к автоматической: решение ИЦ «Безопасный транспорт»

Время на прочтение10 мин
Количество просмотров1.3K

Об Инновационном центре

Инновационный центр «Безопасный Транспорт» создан в 2017 году на базе ЦОДД для работы с Big data и решения задач Транспортного комплекса Москвы. Команда экспертов изучает и анализирует потребности жителей столицы, а также разрабатывает и внедряет инновационные цифровые сервисы и решения для транспорта и дорог города.

На данный момент на базе Инновационного центра построено хранилище данных Транспортного комплекса столицы, которые используются во многих проектах и продуктах, направленных на оказание поддержки в принятии управленческих решений Правительству Москвы, а также на улучшение транспортной инфраструктуры города в целом.

Хранилище данных — сердце Транспортного комплекса

С 2013 года Москва стремительно росла, улучшалась и расширяла свои границы. Логично, что  это влекло за собой бурное развитие Транспортного комплекса, а вместе с ним увеличивалось и количество обслуживающих его IT-систем и данных, которые эти системы генерируют.

Для реализации концепции data driven нужно было собрать все эти данные в одном месте, а для этого была нужна отдельная команда и отдельное подразделение. С этого в 2017 году и началась история ИЦ, сердцем которого является хранилище данных. 

На данный момент данные хранилища Инновационного Центра используются во множестве информационно-аналитических продуктов.  В их числе — интерактивная аналитическая отчётность, цифровое мастер планирование города, Экологическая карта, Коммуникационная платформа, Карта аварийности, Справка загруженности и другие решения, направленные на улучшение и развитие Транспортного комплекса Москвы.

Читать далее

Совпадение? Не думаю! Удивительные сходства нашего мышления и систем IT-мониторинга в поиске причин проблем (Часть 2)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров875

Привет! Меня зовут Дмитрий Литвиненко, я Data Scientist в компании Prooftech IT. В первой части статьи мы задали довольно обширную базу по событиям, корреляции и причинности. Эта часть статьи более глубоко погружается в причинность и причуды с ней связанные. Что примерно происходит в мозгах людей и мощных системах мониторинга? Как же мы:

- восстанавливаем причинность,

- (не)справляемся с иллюзиями в процессе этого,

- и наконец, находим способы ослабить иллюзии?

Читать далее

Как разметить данные для классификации изображений: руководство с примерами

Время на прочтение6 мин
Количество просмотров1.7K

Представьте, что вам нужно научить машину "видеть" и понимать мир вокруг. Нет, не просто распознавать лица или выделять дороги на фотографиях – а по-настоящему разбираться, что изображено на любом снимке, будь то лес, чашка кофе или картина. Классификация изображений – это ключ к машинному зрению. Но как этому научить модель? 

В этой статье мы поговорим о том, как классификация может использоваться в бизнесе, какие этапы подготовки таких данных существуют, а также разберемся, как выполнить аннотацию для этой задачи.

Читать далее

Data Science и машинное обучение: примеры использования в реальных проектах

Время на прочтение5 мин
Количество просмотров8.5K

Искусственный интеллект (AI) и машинное обучение (ML) уже давно вышли за рамки экспериментальных разработок и стали частью реальных проектов в бизнесе и промышленности. Их применение открывает новые горизонты для анализа данных, автоматизации задач и повышения эффективности работы компаний. В этой статье будут приведены примеры использования машинного обучения в реальных проектах, а также базовые шаги для обработки больших данных и настройки моделей. Для более глубокого изучения будут предложены полезные ресурсы и ссылки на инструментальные библиотеки.

В последние годы Data Science стал одним из самых востребованных направлений в IT-индустрии. ML-модели и алгоритмы анализа данных используются во многих отраслях: от медицины до ритейла, от финансового сектора до промышленного производства. Эти технологии помогают компаниям и организациям принимать обоснованные решения на основе данных, улучшать прогнозирование и автоматизировать многие процессы.

Читать далее

Визуализация и аугментация текстовых данных

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров2K

В современном мире, где данные играют ключевую роль в принятии решений, визуализация и аугментация текстовых данных становятся важными инструментами для анализа и понимания информации. Эти методы позволяют не только представить данные в наглядной форме, но и улучшить их качество, что делает их более полезными для различных задач. Сегодня достаточно быстро генерировать большой объем расширенной, но лишенной лишнего и максимально близкой к исходному запросу в 1-5 предложений информацию.

По данной информации можно принимать определенные решения: что стоит использовать при показе продукта, стартапа, презентации. Что стоит написать, чтобы тот или иной контингент сотрудников лучше понял и усвоил предлагаемый материал с данными. Что стоит рассказать, а о чем можно промолчать. Автоматизация и даже роботизация работы с текстовыми данными и их визуализация позволяет сэкономить колоссальное количество времени на создание контента, а время уделить возможности выбирать из разных набросков, шаблонов, предложений. В будущем и сам выбор может быть автоматизирован системами принятия решений и нейросетями.

Читать далее

Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Время на прочтение5 мин
Количество просмотров2.7K

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом?

Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

Читать далее

Как родился термин «Культура работы с данными»

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров647

Привет, Хабр! С Вами Георгий, автор книги "Оптимизируй ЭТО Немедленно". И сегодня я расскажу о том, как родился перевод термина "Data-Literacy".

В [теперь уже] далеком 2019 году мы разрабатывали новую стратегию по продвижению Бизнес-Аналитики в России: мы верили в продукт и считали рынок сильно недооценённым, но продавать было некому: мы уже и так хорошо прошлись по рынку, имя "Qlik" было всем хорошо известно и у нас уже была хорошая клиентская база. Но мы хотели большего...

Дело в том, что количество потребителей бизнес-аналитики довольно невелико - это или непосредственно бизнес-аналитики, или руководство, для которых данные аналитики готовят отчеты. Руководства в компании счетное количество, да и аналитиков тоже: ну, сколько может быть бизнес-аналитиков в коммерческом отделе или отделе маркетинга? 5, 10? Ну - 40, и это - в очень крупной компании. Ну плюс финансы. Плюс логистика. Кадрам еще пару лицензий. И все - на огромную торговую сеть покупается 100 лицензий, и этого хватает. Конечно, первая идея, как увеличить использование аналитических инструментов - это опустить их на уровень ниже (а лучше - на 2-3 уровня), сделать аналитические инструменты доступными для более широкого круга сотрудников, желательно - не просто для всех желающих, а для всех сотрудников, кто работает с информацией.

Читать далее

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

Время на прочтение6 мин
Количество просмотров2.5K

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые большие языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

Читать далее

Инспектор транзакций: управление конфликтами в СУБД

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2K

В этой статье представлена авторская концепция "Инспектор транзакций", направленная на оптимизацию работы с транзакциями в системах управления базами данных (СУБД). Мы предлагаем использовать инвертированный индекс для выявления конфликтующих транзакций. Перед выполнением новой транзакции инспектор проверяет, пересекается ли ее множество задействованных строк с множеством задействованных строк уже работающих транзакций, сопоставляя инвертированный индекс новой транзакции с общим инвертированным индексом активных транзакций. Если конфликтов нет, транзакция выполняется в режиме READ UNCOMMITTED, при этом общий инвертированный индекс обновляется как при старте транзакции, так и после её завершения. Также рассматриваются вопросы обработки конфликтов, если пересечение есть. Данный подход позволяет заранее точно определить, с какими транзакциями и по каким записям может возникнуть конфликт, что облегчает обработку этого конфликта. Мы надеемся, что предложенная концепция может способствовать улучшению работы СУБД.

Читать далее

Нейтральное сравнение StarRocks и Apache Doris

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров356

Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.

Читать далее

OpenCode: Революция в мире AI-инструментов для разработки

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров12K

Привет, коллеги! Сегодня хочу поделиться с вами своими размышлениями о терминальном AI-агенте OpenCode и его сравнении с другими популярными решениями на рынке. После нескольких месяцев активного использования различных AI-инструментов для кодирования, могу с уверенностью сказать: OpenCode — это действительно что-то особенное.

Читать далее

Data Governencе – это про ответственность за данные и их качество

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

Мой опыт работы больше связан с темой анализа и оптимизации бизнес-процессов, поэтому процессное регулирование (process governance) мне было знакомо не понаслышке: реестр процессов, владельцы процессов, непрерывный цикл улучшения процессов, требования к целевому состоянию процессов (описан, измеряется, оптимизирован, оцифрован). Еще помню еженедельные заседания комитета по бизнес-процессам, секретарем которого я являлся несколько лет, а возглавлял этот комитет – ключевой руководитель в организации.

Поэтому, когда в мне потребовалось разобраться с системой управления данными, мне было не сложно, просто меняется объект управления и добавляется специфика объекта, то есть данных.

Для тех, кто не знает, что такое регулирование (governance) и чем оно отличается от обычного управления, регулирование – это практики для больших организаций, которые фокусируются на создании организационной среды, в которой «классическое» управление сможет эффективно функционировать, а также в поддержании этой среды на необходимом уровне.

Читать далее

«Таргетинг Портал»: как мы сделали рекламные кампании проще и эффективнее

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров471

Привет, Habr! Меня зовут Катя, я продакт-менеджер BigData в «Группе Лента» и отвечаю за развитие цифровых продуктов в направлении монетизации данных. В статье расскажу, как нам удалось уйти от Excel-файлов и ручного согласования сегментов к автоматизированному порталу, с помощью которого рекламные агентства теперь сами собирают нужные им сегменты и выгружают их в MyTarget.

Читать далее

Ближайшие события

Ivory — удобный инструмент для работы с кластерами PostgreSQL

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров3.3K

Ivory — это бесплатный open-source инструмент с веб-интерфейсом, созданный для управления кластерами PostgreSQL, которые работают под контролем Patroni. Если раньше для таких задач приходилось использовать командную строку или Patroni API, то с Ivory всё можно делать через удобный браузерный интерфейс.

Цель проекта — упростить жизнь администраторам баз данных (DBA) и разработчикам:

Читать далее

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 4. Безопасность и ограничения (guardrails)

Время на прочтение7 мин
Количество просмотров4.8K

Это четвертая статья специалиста по архитектуре ИТ-систем и трансформации ИТ-ландшафта Дениса Прилепского из серии «Строим корпоративную GenAI-платформу: от концепции до ROI». Он объясняет, какие бывают guardrails, как они встроены в архитектуру платформы и зачем нужны: от защиты пользователей до соответствия требованиям регуляторов.

Читать далее

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров948

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы.

StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

Читать далее

Time Horizon моделей AI: почему рост скорости зависит от сферы применения

Время на прочтение21 мин
Количество просмотров390

В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.

Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.

Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.

Читать далее

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров483

StarRocks 3.5 приносит точечные улучшения по надёжности, производительности и безопасности: кластерные Snapshot для DR в архитектуре shared-data (разделение хранения и вычислений), оптимизацию пакетной загрузки (Load Spill) для сокращения мелких файлов и пропуска Compaction, более гибкое управление жизненным циклом партиций (слияние по времени и автоматический TTL), многооператорные транзакции для ETL, ускорение запросов по озеру данных через автоматические глобальные словари, а также поддержку OAuth 2.0 и JWT.

Читать далее

Архитектура корпоративных данных: AWS + Snowflake

Время на прочтение21 мин
Количество просмотров1.8K

Одна из самых больших проблем, с которой, как мы видим, сталкиваются дата‑инженеры и инженеры‑аналитики, — это то, что они тратят слишком много времени на поддержание устаревшей инфраструктуры, не имея при этом четкой наблюдаемости сбоев в работе конвейера.

Это приводит к тому, что они постоянно находятся в состоянии тушения пожара и не могут сосредоточиться на решении более важных задач. И хуже всего то, что из‑за этого бизнес теряет доверие к данным.

Читать далее

Сделал простое сравнение Excel и CSV Онлайн без загрузки — MaksPilot

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.7K

Здравствуйте! Меня зовут Максим — я Senior Data Engineer, и мне нравится максимально автоматизировать все в своей работе. Последние несколько лет я активно перевожу проекты с устаревшей системы SAS на Databricks. Мне часто приходится сравнивать разные таблицы, и у меня уже есть многочисленные наработки для этого.

Однако недавно возникла необходимость сравнить данные в двух файлах Excel или файле Excel и CSV. Поскольку результатом работы скрипта в SAS был Excel, а по умолчанию таблица из Databricks может быть выгружена в CSV. Прототип был на Databricks, с помощью Python можно загружать Excel в таблицы и также сравнивать.

Из минусов — получаем таблицу, в которой невозможно выделить отличающиеся ячейки. Поэтому возникла идея: а что если создать простой сайт сравнения, который будет более удобен для этой задачи и может использоваться также бизнес пользователями.

Меня вдохновил продукт с открытым исходным кодом PondPilot, который может легко открывать различные файлы таблиц в браузере, но мне не хватало функциональности, и к тому же нужно было понимать синтаксис Duck SQL.

Так родился мой довольно простой, но удобный проект MaksPilot, который на данный момент решает следующие задачи:

Можно сравнивать Excel и Excel или Excel и CSV. Есть поддержка Excel с вкладками.

Читать далее