Привет, Хабр! После перерыва возвращаюсь с новым выпуском полезных материалов, которые помогут лучше разобраться в ML, AI и дата-аналитике. Сегодня в программе — эволюция СУБД, миграция с Apache Druid на ClickHouse и подходы к экономии ресурсов для инфраструктуры. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Используйте навигацию, если не хотите читать текст полностью:
→ Теория
→ Практика
→ Инструменты
→ Мнение
→ Инфраструктура
→ Обзоры рынка
→ Видео
Теория
New Book: Implementing MLOps in the Enterprise
Игуазио Ярон Хавив и Ноа Гифт из Pragmatic AI Labs поделились основными выводами из книги о MLOps. Сильнее всех мне откликается шестой: «Вместо обслуживания модели, посмотрите на общую картину доставки приложения в целом». Соглашусь с авторами: во многих платформах пользователю пытаются показать всю глубину технических абстракций и «продать» возможность управлять ими через красивый интерфейс. При этом системный взгляд на решение практических задач размывается очень сильно.
Книга Iguazio Yaron Haviv и Noah Gift.
Introduction to Apache Doris: A Next-Generation Real-Time Data Warehouse
Обзорная статья по работе с аналитической базой данных Apache Doris. Авторы поделились ее особенностями, архитектурой и пользовательскими сценариями. Все это вместе с подробными схемами и характеристикой инфраструктурных компонентов.
Data Monetization? Cue the Chief Data Monetization Officer
Автор решил раскрыть роль директора по монетизации данных (CDMO) и его отличия от директора по данным (CDO) и IT-директора (CIO). В тексте есть несколько примеров решаемых задач и форматов взаимодействия с другими специалистами. Но кажется, что это история про очень большие компании.
CNCF White Paper по observability: инструменты, виды, стратегии и проблемы
Некоммерческая организация CNCF написала статью о построении observability для ML-систем. Она содержит верхнеуровневый обзор разных видов и паттернов мониторинга, которые могут понадобиться при работе с высокими нагрузками в облаке. Чтобы вы понимали, чтение занимает около 40 минут. Я пока не дочитал, но планирую закончить за выходные.
Первичные observability-сигналы.
Data Governance: MDM and RDM (Part 3)
Третья часть ликбеза по Data Governance, в котором рассказывают об управлении референсными (RDM) и мастер-данными (MDM). Особенно понравились описания разных стилей имплементации MDM. Встретить такое на рынке — удивительная удача!
БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году
Если вы находитесь в постоянном поиске СУБД, советую присмотреться к этой статье. Автор разделил системы на четыре класса: реляционные, in-memory, NoSQL, Distributed SQL — и рассказал подробнее о каждом.
Эволюция функциональности in-memory баз данных.
Про эволюцию СУБД принято рассказывать, что сначала были реляционные базы данных, потом появились NoSQL, а после — распределенные. Но автор рассмотрел, как эти системы эволюционировали одновременно и к чему это привело.
Переход с ETL на ELT
Коллеги из ITSumma перевели статью об извлечении, загрузке и трансформации данных. Без вечного холивара между ETL и ELT-подходам, естественно, не обошлось. Несмотря на хейт в комментариях, статья показалась мне полезной. Для тех, кто не владеет иностранными языками, это отличная возможность ознакомиться с материалом.
Практика
Visualizing Feature Lineage with Tecton DataFlow
Чтобы понять, какие преобразования приводят функцию к текущему состояния, нужно постоянно отслеживать цепочку ее трансформаций. При этом делать это вручную, поскольку готовых решений нет. Ребята в Tecton решили «хватит это терпеть» и выкатили красивый визуализатор этапов преобразования. Кажется, это только начало, но уже сейчас можно им вдохновиться.
Safeguarding Your RAG Pipelines: A Step-by-Step Guide to Implementing Llama Guard
В первый раз вижу практически применимую статью об обеспечении безопасности для ML-моделей. Для людей, мало знакомых с best practice по информационной безопасности, такой подход выглядит жутковато. Похоже к prompt-инженерам добавятся guard-инженеры или просто переложат эту ответственность на первых. А как у вас с этим?
Druid Deprecation and ClickHouse Adoption at Lyft
Подробный рассказ от Lyft о миграции с Apache Druid на ClickHouse. Интересно, что не наоборот. У ребят, как всегда, все подробно описано и сопровождено схемами используемых решений.
Инструменты
Discover, download, and run local LLMs
Появилось время подробнее ознакомиться с инструментом для локального запуска LLM. Раньше я всем рассказывал о h2oGPT, но теперь буду советовать LM Studio. Его главная функция — запуск локального сервера с выбранной моделью. Причем он нативно поддерживается API OpenAI.
Simplify End-To-End MLOps with PostgresML
Какие только инструменты не встретишь. Например, плагин на Rust для создания MLOps-системы в PostgreSQL. Если у нас в сообществе есть администраторы по базам данных, покажите им этот инструмент — пусть переквалифицируются в MLOps-инженеры!
Мнение
Cutting Your Data Stack Costs: How To Approach It And Common Issues
Статья-размышление о подходах к экономии средств на поддержку аналитической инфраструктуры. Из материала узнаете, как выбрать подходящее решение и определить его точную стоимость.
How To Plan To Data Roadmap For 2024 – Elevating Your Data Strategy
Небольшое напоминание о том, что для управления аналитикой и данными нужно формулировать стратегию. В статье автор предлагает для этого следующие шаги:
- поговорить со стейкхолдерами и зафиксировать ожидания,
- оценить сильные стороны команды и прошлые успешные проекты,
- не забыть про проекты на поддержке,
- предложить собственные идеи улучшений.
Дальше остается только приоритезировать — и в бой!
Инфраструктура
Inference performance on AMD Instinct™ MI300X
В последнее время NVIDIA и AMD спорят о правильности тестов своих GPU. Если не слышали, AMD выпустила тесты Instinct™ MI300X, но результаты не понравились NVIDIA, и она выпустила свою версию тестов. А теперь результаты не понравились AMD, поэтому они опубликовали статью-опровержение. Напоминает маркетинговые войны Audi и BMW, ну или Pepsi и Coca Cola. Теперь ждем ответ от NVIDIA.
Показатели инференсов Llama-70B.
MTT S4000 48GB AI GPU with MTLink and zero-cost NVIDIA CUDA® framework translation
Китайская GPU, которую можно сравнивать с RTX™ A6000 Ada. Вот вам и реальность. Берете бывшего вице-президента из NVIDIA, даете ему ресурсы и поддержку правительства и в результате получаете альтернативную железку, хоть и не на современной архитектуре. Особенно я повеселился с MTLink — альтернативе популярной NVlink™. Также заявлена нативная трансляция в CUDA®, но без тестов я не поверю.
Обзоры рынка
Платформы бизнес-аналитики BI 2023
Ежегодный рейтинг отечественных BI-инструментов от CNews. У меня есть вопросы к методологии и выставлению оценок. Например, они не затронули open-source и облачные решения. Тем не менее, можно изучить, если хотите ознакомиться с рынком коробочных инструментов.
Топ-5 BI-платформ 2023. Источник.
How To Read Gartner’s Magic Quadrants & 2024 Predictions
Каждый год выходят отраслевые отчеты Gartner и ровно каждый год может возникнуть вопрос, что с ними делать. Для этого предлагаю ознакомиться с материалом, который помогает их интерпретировать. Прекрасный способ подвести итоги года для тех, кто интересуется не только настоящим, но и будущим в мире аналитических решений.
15 Leading Cloud Providers for GPU-Powered LLM Fine-Tuning and Training
Неплохой обзор по ресурсам для LLM от разных провайдеров. Среди них — Lambda Labs, Microsoft Azure, Google Cloud и другие. Пригодится, если хотите посмотреть стоимость некоторых решений и составить по ним общее впечатление.
Характеристики ресурсов для LLM от Microsoft Azure.
GenAI companies valuations
Нестандартный формат: делюсь не статьей, а картинкой со стоимостью главных GenAI-компаний в мире. Кажется, что если и нужно следовать рекомендациям в стиле «Топ-10 самых перспективных направлений для инвестирования», то нужно было выбрать генеративные модели, но увы. Удивительно, как сильно Open AI опережает конкурентов!
Видео
Подкаст “Что такое MLOps?”
В ноябре вышел подкаст с участием моего коллеги Антона, но делюсь с ним только сейчас. За полтора часа он подробно рассказал о использовании MLOps в российских реалиях: чем он отличается от DevOps, нужно ли внедрять эту практики любому бизнесу, а также как ML-инженерам убедить руководство в этой необходимости. Пригодится компаниям, которые изучают или планируют построение MLOps-платформы.
MLOps Hands-on Guide: From Training to Deployment and Monitoring
Полуторачасовое видео о построении MLOps. В нем спикер Алексей Григорьев подробно рассказывает на реальных инструментах и подходах, позволяющих организовать минимально достаточный процесс работы с ML-моделями. Для опытных специалистов пользы будет не так много, а вот начинающие смогут своими глазами увидеть весь процесс построения чего-то похожего на production ML.
MNC — MLOps
Я всегда за то, чтобы повышать насмотренность, поэтому представляю короткое демо-видео о корейской MLOps-платформе. Нового, к сожалению, я тут не увидел, но в видео есть общие паттерны работы с моделями и их публикации в сервисы.
Building your ML Ops strategy for generative AI
В одном из предыдущих дайджестов я рассказывал о видео по MLOps от AWS, а теперь — от Google. Понятно, что там много про Vertex AI, но и концептуальных вещей достаточно. Специфика GenAI сейчас многим важна, так что пользуйтесь опытом лидеров.
Community Paper Reading: Mixtral – Part One
На YouTube-канале Arize AI есть формат Community Paper Reading, в котором несколько специалистов обсуждают какую-то тему. В этом выпуске нашумевшая модель Mixtral. Если вам тоже интересно, как можно на модели с 7 миллиардами параметров опережать более крупные модели по качеству получаемого результата, то приятного чтения.
Qwak MLOps Platform Demo 2024
Уважаю компании, которые делают видео-гайды по своим продуктам. Не нужно читать огромные документации и сопоставлять концепции. Достаточно посмотреть один раз и получить комплексное представление по решению. Так, например, ребята из Qwak выпустили простое и понятие видео о своей MLOps-платформе
The future of BI: Exploring the impact of BI-as-code tools with DuckDB
Помимо взгляда BI-аналитиков на BI-системы есть еще и взгляд разработчиков. В последнее время растет популярность именно «кодового» подхода, как более гибкого и настраиваемого. Отсюда и появляются фреймворки для создания дашбордов с помощью написания кода.
В видео автор рассказывает о трех таких решениях — Evidence, Rill и Streamlit. Они выглядят перспективно и могут кому-то подойти, но для массового распространения порог входа высок.
Возможно, эти тексты тоже вас заинтересуют:
→ Экономим на Kubernetes с помощью OpenCost — и другие прелести FinOps
→ HoloTile от Disney и проблема свободного движения в VR
→ Импортозамещение по-американски: США начинают выделять серьезные средства полупроводниковым компаниям внутри страны