Разработка

Блог компании Островок!Open source * Data Engineering *

Обеспечиваем качество данных в компании. Подборка open-source-инструментов для Data Quality

Привет, Хабр! Я Алексей Чумагин, Data Quality Team Lead Островка. В компании мы работаем с десятками источников данных: авиакомпании, отели, агрегаторы, платёжные сервисы. При этом источники постоянно обновляются: добавляются партнёры, меняются API и форматы. В таких условиях Data Quality становится непрерывным процессом, встроенным в ежедневную работу, а вовсе не стереотипным «набором тестов, которые раз в сутки что-то проверяют».

Качественные данные зависят от выстроенных процессов: автоматизации, прозрачности, быстрой реакции на инциденты. Мы смотрим на Data Quality как на живую экосистему, где тесты — лишь одна из составляющих. Исходя из этого строим в компании единую Data Quality Platform.

Архитектура нашей платформы организована вокруг следующих задач:

автоматизация создания и выполнения тестов;
их централизованное хранение;
визуализация результатов;
мгновенное оповещение команд об инцидентах.

Вся эта экосистема работает в едином ритме с основными data-процессами компании.

Ниже — подборка инструментов, из которых состоит наша платформа. Их легко внедрить и в других IT-компаниях: стек масштабируемый, гибкий и не требует больших затрат на лицензии.

Какие инструменты мы используем в Data Quality

1. Ядро и автоматизация

В качестве ядра системы мы выбрали Soda Core — движок, который позволяет формализовать правила качества: целостность, уникальность, диапазоны значений. Тесты описываются декларативно, что упрощает поддержку и масштабирование.
После того как тесты написаны, их запуск и оркестрацию мы доверяем Apache Airflow. Он автоматически запускает проверку после ETL-процессов, управляет зависимостями и расписанием, что критично для стабильной работы пайплайнов.
Чтобы не тратить время на рутинное написание DAG’ов для новых тестов, мы используем DAG Factory — генератор DAG’ов, позволяющий держать код тестов и их запусков в едином месте, легко масштабировать количество проверок.

2. Интеграция и доступ

Важной частью платформы стала интеграция с другими системами. Для этого мы подняли сервисный слой на FastAPI: через API можно запускать тесты, получать результаты, интегрировать платформу с внешними инструментами.
Для визуализации выбрали Streamlit — он позволяет быстро собирать дашборды и интерактивные отчёты, которые особенно удобны инженерам для экспресс-проверок и разбора логов ошибок.
Но не все участники процесса хотят разбираться в технических деталях. Менеджеры и аналитики зачастую предпочитают DataHub — каталог метаданных, где хранятся все проверки, их результаты, а также информация о таблицах, lineage и пайплайнах. Это позволяет сделать качество данных частью общего ландшафта данных компании.

3. Оперативность и реакция

Все алерты и уведомления о результатах тестов автоматически отправляются в корпоративный мессенджер, чтобы команды могли оперативно реагировать на проблемы.
Вся DQP-платформа развернута в Kubernetes, — это обеспечивает масштабируемость, отказоустойчивость и централизованное управление компонентами.

И почётное упоминание ещё одной неизбежно важной технологии: для ручных ad-hoc-проверок мы, конечно же, используем старый добрый SQL. Без него ни одна оперативная сверка или исследование гипотез не обходится.

Итого: наш Data-Quality-стек — это комбинация проверенных open-source-инструментов, которые удобны на практике: легко автоматизируем тесты, быстро видим результаты, интегрируемся с чем угодно и не особо беспокоимся о лицензиях. Всё масштабируется, поддерживается инженерами, а не только админами и даёт нам уверенность в качестве данных, даже когда вокруг всё меняется.

А какие инструменты используете вы для контроля качества данных? Что бы вы добавили или изменили в нашем подходе? Будем рады обсудить в комментах!

***

ТГ-канал Ostrovok! Tech

+17

kirillkosolapov

10 окт в 11:525K

Блог компании AmveraPostgreSQL * IT-инфраструктура * Базы данных *

Расширения PostgreSQL в Amvera Cloud

Работа с векторами, временными рядами и геоданными в PostgreSQL требует специальных расширений. И мы наконец их добавили.

Теперь можно создать кластер с pgVector, PostGis и TimescaleDB. Дополнительно появилась возможность управления локалями и некоторыми другими параметрами.

-1

El_Gato_Grande

10 окт в 11:005.5K

Блог компании SelectelИнформационная безопасность * IT-инфраструктура * Сетевые технологии * Учебный процесс в IT

Подборка бесплатных обучающих материалов по информационной безопасности

Привет, Хабр! Наступила пятница, а это значит, я снова несу несколько подборок статей. Сегодня будет ИБ. Условия как всегда: все бесплатно и без регистрации. Читайте, узнавайте новое и применяйте знания на практике. Поехали!

Введение в информационную безопасность

Это база: что такое информационная безопасность (ИБ) и почему так важно ей уделять внимание. Подборка включает 10 статей об угрозах и инцидентах, повышении уровня безопасности и защите систем даже с особо чувствительными данными. На прочтение всех материалов уйдет немногим более двух часов.

Информационная безопасность на практике

В этой подборке вы найдете полезные гайды по настройке средств защиты и советы по их использованию. В заключительной части — задачи, которые помогут ознакомиться с ИБ-инструментами на реальных примерах. Здесь 10 материалов для изучения, займет около 2,5 часов.

Введение в сетевую безопасность

Об этой подборке я уже как-то рассказывал ранее, когда приносил полезные статьи о сетях. Но, во-первых, тот пост вы могли и пропустить, а во-вторых, будем честны, ИБ — такая сфера, что лучше что-то полезное прочитать еще раз. Итак, еще 10 статей на 2,5 часа, чтобы лучше разобраться в файрволах, шифровании трафика, DDoS и сканировании портов. Кроме теории здесь есть и практические задания с пошаговыми гайдами.

Еще больше материалов об информационной безопасности вы найдете в Security Center. Здесь есть статьи, инструкции, обзоры, бизнес-кейсы компаний и так далее.

Surf_Studio

10 окт в 10:095.1K

Блог компании SurfРазработка мобильных приложений * Искусственный интеллект

LLM — инструмент оптимизации

LLM — всё чаще становится инструментом оптимизации в разработке. Как максимизировать пропускную способность пайплайна, не жертвуя качеством кода. Где использовать быструю модель, а где — платить за сложную архитектуру. Разберём, как перестать платить за качество там, где хватит скорости.

Архитектурные отличия

Скорость генерации зависит от числа активных параметров, FLOPs per token, а также методов оптимизации. Лёгкие модели (например, Gemini 2.5 Flash, GPT-4o mini) используют агрессивную квантизацию, меньший размер KV-кэша и оптимизированные операции для быстрого инференса. Это повышает скорость обработки запроса, но увеличивает шанс галлюцинаций в сложных, многоступенчатых рассуждениях.

Тяжёлые модели (наподобие Gemini 2.5 Pro, GPT-5) часто применяют Mixture of Experts (MoE), динамически активируя только нужные экспертные нейронные сети, что позволяет балансировать между вычислительной мощностью и скоростью.

Цели и специализация

Важная метрика — контекстное окно. Лёгкие модели эффективны для локального скоупа: генерация unit-тестов или добавление JSDoc. Тяжёлые модели, благодаря огромному окну (до 2 млн токенов у некоторых версий Gemini), способны анализировать кросс-файловые зависимости, документацию, схемы архитектуры (мультимодальность) и предлагать высокоуровневые изменения, осуществлять глобальное архитектурное ревью и рефакторинг.

Семейства моделей

Так какие модели в итоге использовать? Выбираем по уровню резонинга и надёжности. Качественные модели незаменимы, когда ты мигрируешь легаси-код, проектируешь сложную схему БД или создаёшь подробную техническую документацию — они лучше удерживают цепь рассуждений (chain of thought). Быстрые модели — твой инструмент для автоматической генерации фикстур, CI/CD-скриптов или написания inline-подсказок в IDE.

Выбор и выводы

Интегрируй быстрые модели в IDE для мгновенных подсказок. Это также идеальный выбор для автоматической генерации кода-заглушки, санации данных или создания mock-объектов в тестах. В таких случаях не страшно ошибиться, а выигрыш во времени и, главное, в токенах огромен. Это идеальное решение для рутины. Применяй качественные модели для анализа уязвимостей (например, SQL-инъекций), проверки сложных инъекций зависимостей или проектирования.

Трактуй LLM как специализированный набор микросервисов. Быстрые для потоковых, low-risk задач, где важна скорость. Качественные — для анализа и high-risk рефакторинга. Главное — правильно оценивать риски. Если ошибка в коде LLM стоит тебе дня отладки или, хуже, продакшн-инцидента, выбирай качество. Во всех остальных случаях — скорость.

Больше постов ищите в нашем Telegram-канале

-2

Dasha_N

10 окт в 09:375.2K

Блог компании MWS AIМашинное обучение * Искусственный интеллект

MWS AI выложила в открытый доступ код и валидационный датасет к бенчмарку MWS Vision Bench - для оценки способностей мультимодальных LLM в работе с тяжелым визуально-текстовым контентом на русском: сканами документов, текстом с картинками, графиками, чертежами, таблицами и пр.

Кратко:

Бенчмарк состоит из 5 практических заданий:
- полностраничный OCR (страница→текст),
- структурированный OCR (страница→markdown),
- grounding (координаты текста),
- KIE/JSON (извлечение ключей),
- VQA (вопрос‑ответ).

Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278).

Репозиторий - на GitHub
Валидационный датасет - на HF

Подробно - тут: https://habr.com/ru/companies/mts_ai/articles/953292/ .

techno_mot

10 окт в 09:016.5K

Блог компании SelectelИнформационная безопасность * Системное администрирование * IT-инфраструктура * DevOps *

Просто напоминаю про багбаунти от Selectel с призами до 30 000 рублей

В центре внимания — сам образ, его конфигурация, скрипты для автоматизации, настройки операционной системы и Keycloak. Всё остальное, включая DDoS-атаки, фишинг и внешние угрозы, находится вне рамок мероприятия.

Количество участников ограничено: 30 человек, из которых будут выбраны 3 победителя. Регистрация уже открыта, стартуем в октябре — присоединяйтесь и покажите, на что вы способны!

Призы:

1 место: 30 000 бонусных рублей

2 место: 20 000 бонусных рублей

3 место: 10 000 бонусных рублей

Как устроено под капотом

Мы сделали образ Keycloak в облаке Selectel. Он содержит docker-compose c Keycloak, Postgres, Nginx и скриптами бэкапов. Настраивается через cloud-init: все подставляется из user-data. Поддержка cron-задач, логика запуска, безопасность по умолчанию. Образ рассчитан на стабильную работу из коробки.

Внутри образа Nginx работает как обратный прокси, Certbot выпускает сертификаты. Есть cron-задачи для обновлений и создания дампов. Закрытые URL’ы, доступ по white-list — ради безопасности админского контура. Настройка происходит автоматически при запуске образа.

+10

denis-19

10 окт в 02:378.8K

Машинное обучение * Учебный процесс в ITИскусственный интеллектБудущее здесь

Google опубликовала список из 1001 варианта использования генеративного ИИ в различных секторах, таких как автомобилестроение, финансовые услуги, производство, здравоохранение, бизнес, гостиничный бизнес, туризм и СМИ.

toxicmt

9 окт в 17:239.5K

Программирование * Качество кода *

Управление сложностью

Со временем, сложность проектов только растет. Какие бы мы изменения в коде не делали, переходили на новые фреймворки, базы, языки или подходы, алгоритмическая сложность (то что в бизнес логике) будет становиться только выше. Технические улучшения максимум могут убрать случайную сложность, когда мы выбрали неверный или не самый эффективный инструмент, но если с точки зрения логики нужно выполнить 30 разных сценариев, мы их запрограммируем в любом случае независимо от выбранных технологий.

Фактически все за что мы боремся когда занимаемся архитектурой проекта, это возможность сделать так, чтобы эта сложность росла как можно медленнее. Потому мы добавляем абстракции (когда без них больно), откладываем принятие ключевых решений и делаем много всякого разного. Естественно все это с учетом требований по производительности, надежности и т.п.

Ниже 5 рекомендаций, по тому, как определить, что выстрелит, а что можно отложить на потом и не сильно париться с кодом.

Грамотное управление состоянием

Говорил, говорю и буду говорить. За всем многообразием принципов и шаблонов, в самой глубине скрывается то как мы работаем с эффектами и процессами (состояния и переходы). Умение видеть это добро в коде и правильно с этим работать это ключ к тому, чтобы система оставалась поддерживаемой и устойчивой к ошибкам на самом нижнем уровне, когда мы на код смотрим как на код.

Изолированная сложность

В любом проекте есть какие-то вычислительные функции, которые работают как черный ящик и ни с чем не связаны. Сюда например, можно отнести все математические функции. Насколько принципиально если внутри грязь и копоть? Практически без разницы, такой техдолг изолирован и не растит общую сложность системы. Его можно воспринимать как библиотечный код, который пришел из зависимостей. Такой код можно переписать в любой момент, когда это станет нужным (например нужно повысить производительность) и с таким кодом отлично справляются LLM.

Приоритеты слоев

Ошибки на уровне формирования моделей и их связей, решают намного больше чем ошибки допущенные при выводе этих данных в api или на фронтенде. Вывод это всегда терминальная стадия, его результаты никак не используются в коде, а вот модели и то как организованы связи, это основа всего, что пронизывает все приложение на самом глубоком уровне. Если тут накосячить, страдать будем в каждой точке сталкивания. Можно сказать что порядок приоритета такой:

модели + структура базы => обработчики (контроллеры, сервисная история) => вывод (сюда же переводы и работа со строками)

Публичные контракты (API)

Все что выставляется наружу, будет иметь серьезные последствия в будущем. Хрен что поменяешь и поправишь. Поэтому на проектирование API нужно уделять внимание. А для этого нужно немного прокачаться, например, в том как делать REST API, знать про открытые и закрытые схемы, про принципы формирования ответов, обработки ошибок и всего такого (а они там есть). Это не хухры мухры, когда речь идет про проектирование каких-то сложных действий, авторизаций и других механизмов.

Отложенные решения

Хорошая архитектура не в том, чтобы заранее все продумать, а в том, чтобы отложить принятие решений до момента, когда у нас есть достаточно информации. Плохие архитектуры чаще всего страдают от преждевременных оптимизаций: усложнили, чтобы “на будущее”, а это будущее не наступило.

- Все, что можно поменять без боли - оставляем простым.- Все, что будет трудно поменять (API, модели, схемы БД, протоколы взаимодействия) - продумываем особенно тщательно.

Больше про разработку в моем телеграм-канале Организованное программирование

Daria-dd

9 окт в 14:067.1K

Блог компании ВкусВиллТестирование IT-систем * CRM-системы * WebGL * Управление разработкой *

ВкусВилл объявляет о ребрендинге Автомакона и переименовывает его в «ТехВилл» — технологии, которые двигают ритейл вперед

ВкусВилл проводит ребрендинг своей технологической «дочки» — компании Автомакон. Новое название — «ТехВилл» (полное наименование — «Технологии ВкусВилл») — отражает смысл и миссию компании: создание современных ИТ-решений, которые уходят в основу развития ритейла будущего. В ближайшее время к ТехВиллу присоединятся ООО «ДатаЛаб» и ООО «Фулстек».

В июле 2025 года ВкусВилл объявил о завершении сделки по приобретению части структур ГК “Автомакон” (ООО «Автомакон», ООО «ДатаЛаб», ООО «Фулстек»), которые занимались развитием информационных технологий сети ВкусВилл в течение последнего десятилетия. Этот шаг стал началом нового этапа в развитии ИТ ВкусВилла, больших перспектив для расширения возможностей и реализации новых амбициозных проектов для обеих компаний и сотрудников.

Логичным продолжением стало концептуальное брендинговое объединение трёх компаний. Название “ТехВилл” родилось из желания сохранить сильную связь с материнским брендом ВкусВилл, при этом отразить технологическую составляющую компании. Это не просто игра слов — это отражение ДНК компании: технологии, встроенные в повседневную жизнь покупателей и сотрудников ВкусВилла.

ТехВилл будет заниматься теми же задачами, что и прежде, но под новым, ярким и понятным названием: разработкой программного обеспечения как для покупателей (мобильное приложение, сайт, сервисы доставки, персонализация), так и для внутреннего пользования (системы управления складами, логистикой, аналитикой, CRM, автоматизация магазинов). Фокус работы — создание технологий, которые делают ВкусВилл лидирующим технологическим ритейлером в России.

Помимо ребрендинга и создания бренд-бука компании со своими атрибутами, команда запустила новый сайт techvill.ru, который стал полноценной платформой, на которой можно узнать о технологиях компаний, услугах, открытых вакансиях и принципах работы. Сайт станет витриной для IT-специалистов, партнёров и всех, кто интересуется цифровой трансформацией ВкусВилла.

“Мы запустили трансформацию бренда, чтобы он отвечал текущим вызовам рынка и нашим амбициям. ТехВилл — это полноценный технологический центр компетенций внутри экосистемы ВкусВилла. Мы видим его как новатора, который будет формировать цифровое лицо компании в ближайшие годы. Мы объединяем развитие и масштабирование существующих решений. Но как и в любом тех-бизнесе — двери для инноваций всегда открыты. Главное — стабильность, качество и соответствие потребностям пользователей”, — Дмитрий Апаршев, Управляющий по ИТ ВкусВилл.

darkrain

9 окт в 13:377.1K

Open source * IT-инфраструктура * IT-стандарты * Solidity *

Сегодня будет стрим в 21:00

Представление 2-х проектов:

32 Ampere - Open Source протокол для зарядной инфраструктуры с запуском на EVM совместимой блокчейн инфраструктуре
EVMPack - Управление жизненным циклом блокчейн проекта, применение в проекте 32 Ampere

DimDimDimDimDim

9 окт в 12:415.7K

Блог компании SelectelЗанимательные задачкиРазработка мобильных приложений * Тестирование мобильных приложений * IT-компании

Квиз: сможете ли вы найти ошибку в мобильном приложении?

Проверьте свои навыки и получите 1 000 бонусов на тестирование в мобильной ферме Selectel.

Представьте ситуацию: команда разработки подготовила обновление для мобильного приложения, но нужно проверить его работоспособность и выявить ошибки перед релизом. Мы подготовили тест из 7 вопросов, прохождение которого займет буквально несколько минут.

Пройти квиз →

🎁 За участие — 1 000 бонусов в панели управления. Важно: количество промокодов ограничено.

Editor_cloud_ru

9 окт в 12:134.3K

Блог компании Cloud.ruIT-инфраструктура * Машинное обучение * Облачные сервисы * Искусственный интеллект

Идеи, с чем интегрировать LLM из Evolution Foundation Models 🖥

В сервисе Evolution Foundation Models представлены open source модели, к которым вы можете делать запросы по API. А еще есть возможность интегрировать эти LLM в разные фреймворки, библиотеки и редакторы кода, чтобы автоматизировать часть задач и облегчить себе работу.

⬇️ Расскажем о четырех сценариях применения LLM из Evolution Foundation Models с разными инструментами. А еще дадим ссылки на руководства по подключению:

Создайте своего Code Agent с Aider и VS Code. Подключите в свой сервис по API подходящую под ваши задачи LLM, а потом используйте редакторы кода, чтобы создать интеллектуального помощника по программированию. Тот поможет писать и рефакторить код, искать баги, проводить тесты и составлять документацию.
Встройте LLM в чат-интерфейс платформ Chatbox, Open WebUI или LibreChat. Так вы сможете, например, настроить работу команды с LLM и контролировать расход токенов, создавать собственных AI-ассистентов, использовать RAG и поиск в интернете.
Напишите своего чат-бота с фреймворком LangChain, который предназначен для создания AI-ориентированных приложений. Добавьте созданного чат-бота в беседу, чтобы он делал выжимки из диалогов и отслеживал в них задачи. Или интегрируйте получившегося AI-помощника в службу поддержки, чтобы быстрее отвечать клиентам.
Организуйте LLM-шлюз с библиотекой Litellm. Например, она на дает доступ к разным LLM по единому API-ключу и возможность выбрать резервную модель на случай, если с основной что-то случится. LLM-шлюз упростит вам работу: он может управлять сразу несколькими LLM, помогает балансировать нагрузку и контролировать траты.

Кстати, более 20 LLM, эмбеддеров и реранкеров из Evolution Foundation Models доступны бесплатно до 31 октября. Выберите модели, которые по бенчмаркам лучше подходят к вашим задачам, и протестируйте их в работе 🤖

Arenadata

9 окт в 09:243.8K

Блог компании ArenadataBig Data *

Вебинар «ADQM Control глазами DBA»

14 октября присоединяйтесь к нашему вебинару, где мы на примере практических кейсов покажем, как ADQM Control помогает упростить эксплуатацию и повысить производительность кластеров ClickHouse.

В программе

Краткий обзор ADQM Control и новых возможностей, появившихся после майского вебинара.
Разбор типовых проблемных кейсов эксплуатации кластеров ClickHouse.
Live-demo практических примеров их решения.
Тизер релиза начала 2026 г.
Q&A.

Эксперты Группы Arenadata:

Дмитрий Безруков, руководитель отдела технических менеджеров — основной докладчик, Q&A
Антон Коваленко, руководитель департамента продуктового маркетинга — модератор дискуссии, Q&A

Зарегистрироваться на вебинар можно тут.

vaniacer

8 окт в 18:007.7K

ГовнокодИнтерфейсы * DevOps *

Эгегей! Радость, kui снова подрос! Добавлена команда 'SSL update' для обновления сертификатов и ключей в секретах типа 'kubernetes.io/tls'. Как это работает?

Кладете в какую-нибудь папку новый сертификай, файл должен называться tls.crt и ключ с именем tls.key
Запускаете kui в этой папке, находите секрет с сертификатом который необходимо обновить
Обновляете через 'SSL update'

Под капотом, обновление выполняется вот такой командой:

printf -v ssl_patch_data '{"data": {"tls.crt": "%s", "tls.key": "%s"}}' "$(base64 -w0 tls.crt)" "$(base64 -w0 tls.key)"
kubectl patch secret/<secret_name> -n <namespace> --patch="$ssl_patch_data"

Творите, выдумывайте, пробуйте!)

diderevyagin

8 окт в 17:246.5K

Go *

Вышел Goose 3.26.0.

Goose — это инструмент для миграции баз данных. Он представляет собой одновременно CLI и библиотеку. Управление схемой базы данных выполняется с помощью инкрементных миграций. Поддерживается SQL и Golang.

Поддержка БД: Postgres, MySQL, SQLite, YDB, ClickHouse, MSSQL и другие.

Ключевые изменения релиза:

Добавлена поддержка slog.Logger в Goose-провайдере, работает через опцию WithSlog
Добавлена более удобная опция WithTableName в Goose-провайдере
Добавлен универсальный интерфейс Locker для поддержки блокировки Postgres с табличной реализацией через lock.NewPostgresTableLocker
Исправлены незначительные ошибки и улучшены зависимости

GitHub: https://github.com/pressly/goose

ChangeLog: https://github.com/pressly/goose/releases/tag/v3.26.0

denis-19

8 окт в 16:027.1K

Машинное обучение * Управление продажами * Искусственный интеллектФинансы в IT

OpenAI и Nvidia раздувают пузырь искусственного интеллекта объёмом в 1 триллион долларов с помощью сети циклических сделок.

AlfaTeam

8 окт в 14:276.9K

Блог компании Альфа-БанкПрограммирование * Разработка мобильных приложений *

Мощный инструмент для Android-разработчиков

Retrofit — это библиотека, которая стала стандартом для работы с REST API в Android-приложениях. В нашей статье «Погружаемся в недра Retrofit» мы подробно разбираем, как использовать Retrofit максимально эффективно, чтобы упростить код и повысить стабильность приложений.

Погружаемся в недра Retrofit

Привет! Меня зовут Абакар, я работаю главным техническим лидером разработки в Альфа-Банке. Думаю, мн...

habr.com

Что внутри?

Обзор основных возможностей Retrofit: от простой отправки запросов до работы с асинхронностью и обработкой ошибок.
Интеграция с OkHttp — что дает и как использовать на полную мощность.
Механизмы конвертации данных: Gson, Moshi и как кастомизировать парсинг.
Реальные примеры кода, которые можно сразу применять в своих проектах.
Советы по тестированию Retrofit-клиентов и особенностям работы с сетевыми вызовами.

Для кого статья? Для Android-разработчиков всех уровней, которые хотят улучшить качество сетевого кода и сделать его более поддерживаемым. Для тех, кто только пробует Retrofit и тех, кто хочет расширить свои знания и узнать внутренние тонкости работы этой библиотеки.

13tean

8 окт в 12:464.7K

Блог компании Страховой Дом ВСКOpen source * Открытые данные * Машинное обучение * Data Engineering *

OutBoxML: как мы построили свою ML‑платформу от архитектуры до продакшена

Если вы хоть раз выводили ML‑модель в прод, то знаете этот сценарий.

Папки final_final_v2, десятки Python‑скриптов, неотслеженные версии данных, ручной деплой на сервер, и тревожное чувство, что «где‑то что‑то точно отвалится».

Со временем даже хорошо построенный ML‑процесс превращается в хаос — набор несовместимых пайплайнов и моделей, где каждый инженер решает задачу по‑своему.

Мы столкнулись с этим тоже. Но вместо того чтобы латать процессы по частям, мы решили построить собственную ML‑платформу OutBoxML — систему, которая централизует всё: от обучения и управления фичами до продакшн‑деплоя и мониторинга качества моделей.

OutBoxML — это не концепция на слайдах, а реальный проект, который мы внедрили в продакшн, чтобы стабилизировать и масштабировать ML во всём ИТ‑контуре Страхового Дома ВСК.

В серии из трёх статей на Хабре наши инженеры подробно разбирают, как мы прошли путь от архитектуры до продакшена, какие решения приняли — и какие ошибки помогли нам вырасти.

Решение: платформа OutBoxML

Мы не остановились на обёртках вокруг сторонних инструментов — мы создали OutBoxML: платформу, способную управлять жизненным циклом моделей от разработки до стабильного продакшена.

Мы шаг за шагом описываем во всех трёх статьях, как родилась архитектура, как устроен компонент работы с признаками и как устроена надёжность при выводе моделей.

Часть 1: Библиотека OutboxML от Страхового Дома ВСК

В первой статье мы показываем конструкцию ядра OutBoxML и обоснование архитектурных подходов.

Ключевой технический инсайт: мы ушли от монолитных систем и отдали предпочтение сервисам с чёткими границами ответственности, использованию событийной коммуникации и контейнеризации.

Мы описываем принципы маршрутизации данных, версионирования и взаимодействия между сервисами, а также как обеспечиваем воспроизводимость экспериментов.

Часть 2: Автоматизированное машинное обучение с помощью нашего Open Source фреймворка: задача о Титанике

В следующее статье мы разбирали моменты, в которых классический ML выигрывает у сложных нейросетей, на примере страховой индустрии.

К тому же обсудили как мы автоматизировали обучение и инференс моделей с помощью OutBoxML и модульную архитектура и гибкие настройки процессов.

Часть 3: Data Drift в ML Страхового Дома ВСК: от PSI‑анализа до пересборки фичей и сравнения моделей

Машинное обучение в страховании — это не только про красивые метрики на этапе тестирования. Самая большая проблема приходит позже, когда модель выходит «в прод»: данные начинают меняться, и точность предсказаний падает. Это явление называется Data Drift. В статье мы делимся практическим опытом:

как диагностировать дрифт с помощью PSI‑метрики;
как использовать SHAP‑анализ для переосмысления модели;
чем отличается модель «с дрифтом» от модели «без дрифта» на реальных страховых данных.

Мы показываем не теорию, а эксперимент с открытым кодом и цифрами: какие признаки пришлось исключить, как изменилась логика модели и что это дало бизнесу на практике.

Совсем скоро выйдет заключительная статья нашего первого цикла open source проекта OutBoxML!

Присоединяйтесь к нашему проекту на GitHub и в Telegram. К тому же, библиотека опубликована в pypi и доступна к установке через pip install outboxml

Пишите в комментариях, о каких аспектах автоматизации ML вам хотелось бы узнать подробнее. Удачи в реализации ваших проектов!

bodyawm

8 окт в 12:165.4K

Реверс-инжиниринг *

Помните телефон российский разработки Маском?

Я планирую все таки рискнуть, сдампить прошивку с МК (если она не защищена от вычитывания) и в иде поковырять, а затем написать статью о внутрянке.

Затея рискованная, но гиковские глаза горят от желания поковырять прошивку!

+12

Yu5uf

8 окт в 11:384.9K

Windows *

Как пофиксить V2Ray маршрутизацию или "Почему у меня работает ChatGPT без VPN?.."

Где-то 2-3 недели назад я хотел включить V2RayTun для того, чтобы использовать ChatGPT. Перед запуском десктопной программы я хотел проверить мою IP-локацию. И это странно - я нахожусь в России.
Как бы я не настроил VPN или роутер - ничего не сработало, однако я заметил один признак: ChatGPT в веб-сайтах и десктопной программе прекрасно работал, но это начало меня пугать.
Я использовал вторичный браузер - Edge, тот же результат.
Однако у меня была другая проблема: никакие VPN V2Ray клиенты не маршрутизировали мой IP под другой регион - как и был российским, так и остался, даже платные конфиги не работали.
Это кстати не работало только на компьютере (ОС: Windows 10 22H2), в остальных устройствах всё нормально.

Прошу помочь с данной проблемой. Буду рад за ответ.

1 2 ...

27 28

30 31 ...

49 50

Разработка

Ближайшие события

Хабы

Вклад авторов