Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@ArtemBoiko 20 дек 2024 в 05:37

Мир после BIM. Переход к данным и процессам и нужны ли в строительной отрасли семантика, форматы и интероперабельность

Простой

50 мин

3.2K

Open source * CAD/CAM * Data Engineering * Исследования и прогнозы в IT * IT-инфраструктура *

Аналитика

С появлением цифровых данных в 90-е годы строительная отрасль начала активно трансформироваться. Компьютерные технологии стали внедряться в процессы проектирования, управления и строительства, что привело к появлению таких концепций, как САПР (системы автоматизированного проектирования), PLM (управление жизненным циклом) и, позже, BIM (информационное моделирование зданий).

Однако, как и любые инновации, они не являются конечной точкой развития. Концепции вроде BIM стали важным этапом в истории строительной отрасли, но рано или поздно они уступят место более совершенным инструментам и подходам, которые будут лучше отвечать вызовам будущего.

@Nikerik 9 дек 2024 в 09:32

Каталог данных своими руками из PowerBi и небольшой БД

Средний

6 мин

3.4K

Блог компании ВкусВиллIT-стандарты * Хранение данных * Data Engineering *

Кейс

Привет! Я Николай, аналитик во ВкусВилле, я запустил и поддерживаю проект по каталогу данных в ВВ.

Поиск данных — нелегкая задача, особенно при большом объеме бизнеса. Много источников информации и множество аналитиков связаны со сложностями как при онбординге, так и в процессе работы. Чтобы жить стало проще, мы решили создать свою систему для каталогизации источников и определения единого источника правды.

Сделали каталог своими руками, как подошли к этому вопросу и что получили в итоге —расскажу в этом материале.

@python_leader вчера в 08:59

Почему Python — не лучший язык для data science. Часть 2 — Python против R

Простой

11 мин

4.8K

Программирование * Python * R * Data Engineering *

Мнение

Перевод

Команда Python for Devs подготовила перевод статьи о том, почему Python — несмотря на свою популярность — не всегда идеален для Data Science. Автор показывает, как отсутствие нестандартной оценки выражений усложняет анализ данных, и сравнивает Python с R, где такие задачи решаются куда элегантнее.

@Aimnew 20 ноя в 22:47

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Простой

7 мин

9.7K

Data Engineering * Визуализация данных * Искусственный интеллектМашинное обучение * Учебный процесс в IT

Из песочницы

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат».

Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.

Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание.

Статья будет полезна:

@lovets18 12 ноя в 11:04

Валидация RAG с помощью RAGAS. Часть 1

Средний

5 мин

7.9K

Блог компании Cloud.ruОблачные сервисы * IT-инфраструктура * Искусственный интеллектData Engineering *

Привет, меня зовут Вова Ловцов. Я дата-сайентист, работаю в команде Core DS в Cloud.ru, где мы занимаемся разработкой агентов, RAG-систем и других сопутствующих технологий.

Недавно мы запустили AI-помощника, который не только отвечает на вопросы по документации, разворачивает виртуальные машины и настраивает мониторинг за пользователей, но и помогает с SRE и FinOps. Под капотом это мультиагентная система, и один из ее ключевых компонентов — это RAG (Retrieval-Augmented Generation). Именно он отвечает за поиск информации и формирование понятных ответов.

Как понять, что RAG работает хорошо? Как его измерить, улучшить и выбрать лучшую конфигурацию? Обычные метрики вроде BLEU или ROUGE не всегда отражают качество ответа с точки зрения пользователя. Поэтому мы озадачились поиском автоматизированного и воспроизводимого решения и в итоге выбрали RAGAS — open source библиотеку для оценки RAG-систем. Но оказалось, что «из коробки» она работает далеко не идеально.

В этой части кратко расскажу про оценку и наш выбор исходя из внутренних особенностей. А в следующей — как подошли к адаптации RAGAS, какие проблемы встретили на пути и что придумали, чтобы их решить.

Читать первую часть

@youscriptor 11 ноя в 17:59

Как ИИ помог быстро ввести и нормализовать строительные сметы

Простой

4 мин

9.5K

1С * Data Engineering * Python * Машинное обучение *

Кейс

Recovery Mode

У знакомого есть консалтинговая компания по внедрению продуктов 1С в бизнес и он поделился болью - у его заказчика - среднего размера строительной компании необходимо внести в систему порядка нескольких сотен смет в xlsx формате в 1С конфигурацию, которую они внедряют.

Сложность в том, что другие инженерные отрасли сильно отстают от IT в плане культуры разработки. Во времена моей юности по ФИДО ходила присказка "Если бы строители строили дома, как программисты пишут программы, то первый же залетевший дятел разрушил бы цивилизацию". Скорее всего автор этого афоризма никогда не был знаком с реальными строителями. Сейчас скорее наоборот - если бы строители писали программы, мы бы не вышли из эпохи арифмометров. Мы в IT приучены к тому, что ревью кода не пропустил коммит с лишним пробелом.

У сметчиков же документация выглядит как в буквальном смысле черновики - все файлы разной структуры, с разным числом и содержанием колонок, разделы разного формата, где-то древовидные, где-то плоские, причём оформлены в разном стиле - где помечено цветом, где шрифтом, с комментариями на полях и прочее.

Дело осложняется тем, что одно и то же наименование может быть записано разными сметчиками по-разному. Где просто бетон, где бетон с указанием марки, слова в разном порядке, часто одно и то же наименование, но записано и вовсе разными терминами, где синтаксический анализатор бессилен, при том что термины для неспециалиста неочевидные и незнакомые.

Традиционный автоматический импорт в сметной документации невозможен. В итоге 6 сметчиков вводили одну строительную очередь больше 2-х месяцев - бюджет для компании-внедренца около 2-х миллионов.

@DedaVova 2 ноя в 08:26

Биржи данных как движок экономики данных

Средний

14 мин

6.1K

Блог компании IDXData Engineering * Big Data *

Аналитика

Взгляд с высоты птичьего полета

Дисклеймер: несмотря на облегченный стиль, это не научпоп, это описание реальной исследовательской работы, ее мотивировок и подходов, которые часто остаются за кадром.

Этой публикацией мы начинаем серию статей, в которой хотим изложить наше видение пути, по которому сейчас идет развитие экономики данных, и возможных подходов к его рационализации. В первой статье рассматривается понятие биржи данных, которое мы считаем важным механизмом и двигателем развития экономики данных. Анализируется опыт текущих проектов по созданию платформ для обмена данными. Намечаются направления дальнейшего обсуждения.

Рискуя прослыть занудой, хочу напомнить, что выражение «экономика данных», относительно недавно введенное в оборот скорее как мем, чем как строгое научное понятие, обозначает новый этап развития мировой экономики, следующий после аграрной экономики, промышленной экономики, постиндустриальной (сервисной) экономики, информационной экономики. И вот, настала очередь экономики данных. Также полезно будет держать в уме описание смены технологических переделов, которые характеризуются как революции. Все они называются промышленными революциями, только после каждой из них само понятие промышленности (индустрии) кардинально меняется. По этой шкале мы переживаем четвертую промышленную революцию, если все еще верить Клаусу Швабу, председателю Всемирного экономического форума в Давосе, который, после того, как прослыл изрядным женолюбом, покинул пост после полувека правления.

Читать далее довольно нудную аналитику...

@valiotti 24 окт в 10:24

dbt 101: что нужно знать на старте и лучшие практики

Простой

5 мин

Хранение данных * Data Engineering *

Кейс

dbt — это фреймворк для трансформации данных внутри хранилища и отличный инструмент для аналитиков и дата-инженеров на больших проектах, где число SQL-скриптов может переваливать за сотни. Мы с командой много работаем с dbt, и в этой статье хочу поделиться своим опытом: расскажу о его ключевых элементах и некоторых лучших практиках на примере одного кейса.

Это не гайд, как развернуть dbt и создать проект, а знакомство с тулом для тех, кто пока с ним не работал и хочет разобраться, что это вообще такое.

@SiYa_renko 3 окт в 14:05

Что такое DWH и зачем оно нужно бизнесу?

Простой

5 мин

Блог компании OTUSBig Data * Data Engineering * Хранение данных *

Обзор

Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.

Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.

Подробнее о DWH

@badcasedaily1 4 сен в 13:19

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Средний

11 мин

5.2K

Блог компании OTUSApache * Программирование * Big Data * Data Engineering *

Обзор

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.

@kucev 28 авг в 11:00

Как строить умных AI-агентов: уроки Context Engineering от Manus

9 мин

6.7K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models?

В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5, и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития.

Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering. Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой, а не сваей, вбитой в морское дно.

Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent». Это не изящно, но работает.

В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.

@kucev 27 авг в 05:30

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

7 мин

4.2K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR:

* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;

* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;

* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.

@mipt_digital 25 авг в 09:01

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 3. Retrieval-Augmented Generation (RAG) на службе GenAI

8 мин

9.5K

Блог компании Центр «Пуск» МФТИМашинное обучение * Data Engineering * Визуализация данных * Хранение данных *

Роадмэп

Это третья статья специалиста по архитектуре ИТ-систем и трансформации ИТ-ландшафта Дениса Прилепского из серии «Строим корпоративную GenAI-платформу: от концепции до ROI». Автор разбирает, что такое RAG и зачем он нужен, как устроена архитектура retrieval-уровня и почему он критически важен для достоверных ответов. В статье — пример генерации юридической справки, практические проблемы (задержки, кеширование, актуальность) и подготовка к следующей теме — guardrails.

@mipt_digital 22 авг в 09:00

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 2. Архитектура корпоративной GenAI платформы

13 мин

8.6K

Блог компании Центр «Пуск» МФТИИскусственный интеллектАнализ и проектирование систем * Data Engineering * Машинное обучение *

Роадмэп

Вторая статья специалиста по архитектуре ИТ-систем и трансформации ИТ-ландшафта Дениса Прилепского из серии «Строим корпоративную GenAI-платформу: от концепции до ROI». На этот раз он разбирает GenAI «под капотом» и шаг за шагом выстраивает корпоративную платформу, которая превращает хайп вокруг ИИ в реальные результаты для бизнеса.

@mipt_digital 20 авг в 09:00

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 1. Зачем генеративному ИИ нужна особая архитектура

Средний

13 мин

9.7K

Блог компании Центр «Пуск» МФТИМашинное обучение * Data Engineering * Анализ и проектирование систем * Искусственный интеллект

Роадмэп

Это первая статья специалиста по архитектуре ИТ-систем и трансформации ИТ-ландшафта Дениса Прилепского из серии «Строим корпоративную GenAI-платформу: от концепции до ROI». В этой части он объясняет, зачем вообще нужен архитектурный подход при внедрении GenAI-решений и как грамотная архитектура помогает пройти путь от идеи до реальной бизнес-ценности.

@alealandreev 3 авг в 17:31

Выбор стратегии компактизации в ScyllaDB

Средний

28 мин

7.6K

Data Engineering * Big Data * Базы данных * NoSQL * Высоконагруженные системы *

Туториал

ScyllaDB — это высокопроизводительная NoSQL база данных, созданная как улучшенная версия Apache Cassandra на C++. Она способна обрабатывать миллионы операций в секунду, что делает ее лидером среди распределенных баз данных. Такая производительность достигается благодаря особой архитектуре хранения данных, в центре которой находится процесс компактизации данных. Правильный выбор стратегии компактизации данных и ее оптимизация - это ключ к высокой производительности и отказоустойчивости распределенной базы данных ScyllaDB.

В этой статье рассмотрены все стратегии компактизации, их преимущества и недостатки, а также приведен детальный алгоритм выбора стратегии компактизации под конкретные use cases.

@dmkan 31 июл в 14:00

Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

Средний

5 мин

5.1K

Блог компании Sapiens solutionsData Engineering * ERP-системы * Базы данных *

В современных условиях возрастает актуальность выгрузки данных из SAP ERP в хранилища данных DWH или Data Lakehouse сторонних вендоров. Интеграция с системами, не входящими в экосистему SAP, зачастую сопровождается сложностями: поставщики программного обеспечения, как правило, не поддерживают использование конкурентных продуктов. Нативный механизм выгрузки данных в SAP BW (Business Warehouse) не может быть применен к системам, не принадлежащим к экосистеме SAP.

На нашем проекте внедрения хранилища данных на основе Arenadata DB для одного из крупных банков мы столкнулись со сложностями при интеграции с SAP S/4HANA.

В статье рассматривается решение, которое позволяет быстро и надежно производить выгрузку больших объемов данных.

@kucev 28 июл в 11:00

Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

21 мин

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.

Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции?

Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы.

Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.

@Lanun 24 июн в 09:01

Как мы создали систему раннего предупреждения импульсивных торговых решений: опыт отдела Rapid и Лаборатории инноваций

Средний

5 мин

1.8K

Блог компании MOEXИскусственный интеллектАнализ и проектирование систем * Python * Data Engineering *

Система раннего предупреждения импульсивных торговых решений

🚨 Как машинное обучение помогает предотвратить эмоциональные ошибки в трейдинге

Импульсивные решения — главный враг трейдера. Эмоциональные сделки, увеличение позиций после потерь, торговля в ночное время — все это приводит к убыткам даже у опытных участников рынка.

В этой статье я расскажу, как с помощью анализа данных и машинного обучения создать систему, которая заранее предупреждает о высоком риске принятия импульсивного решения.

Что вы узнаете:
• Какие поведенческие паттерны выдают склонность к импульсивным решениям
• Как XGBoost и логистическая регрессия помогают выявить "группы риска"
• Практические рекомендации по внедрению системы предупреждений
• Реальные результаты анализа данных 1000+ трейдеров

Ключевые находки:

88% точность предсказания импульсивных решений

5 основных факторов риска, которые можно отслеживать автоматически

Снижение убыточных сделок на 23% при использовании системы

Статья будет полезна как начинающим трейдерам, так и разработчикам торговых систем. Все графики, код и методология — в открытом доступе.

#машинноеобучение #трейдинг #анализданных #финтех #python #xgboost

@kucev 23 июн в 11:30

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

11 мин

5.5K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.

1 2 ...

7 8

10 11 ...

18 19

Data Engineering *

Мир после BIM. Переход к данным и процессам и нужны ли в строительной отрасли семантика, форматы и интероперабельность

Каталог данных своими руками из PowerBi и небольшой БД

Почему Python — не лучший язык для data science. Часть 2 — Python против R

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Валидация RAG с помощью RAGAS. Часть 1

Как ИИ помог быстро ввести и нормализовать строительные сметы

Биржи данных как движок экономики данных

dbt 101: что нужно знать на старте и лучшие практики

Что такое DWH и зачем оно нужно бизнесу?

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Как строить умных AI-агентов: уроки Context Engineering от Manus

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 3. Retrieval-Augmented Generation (RAG) на службе GenAI

Ближайшие события

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 2. Архитектура корпоративной GenAI платформы

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 1. Зачем генеративному ИИ нужна особая архитектура

Выбор стратегии компактизации в ScyllaDB

Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Как мы создали систему раннего предупреждения импульсивных торговых решений: опыт отдела Rapid и Лаборатории инноваций

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

Вклад авторов