Как стать автором
Обновить
Selectel
IT-инфраструктура для бизнеса

Ликбез по Data Governance, защита LLM, рейтинг BI-инструментов и другие новинки в мире ML и DA

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.1K

Привет, Хабр! После перерыва возвращаюсь с новым выпуском полезных материалов, которые помогут лучше разобраться в ML, AI и дата-аналитике. Сегодня в программе — эволюция СУБД, миграция с Apache Druid на ClickHouse и подходы к экономии ресурсов для инфраструктуры. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Используйте навигацию, если не хотите читать текст полностью:

Теория
Практика
Инструменты
Мнение
Инфраструктура
Обзоры рынка
Видео

Теория


New Book: Implementing MLOps in the Enterprise


Игуазио Ярон Хавив и Ноа Гифт из Pragmatic AI Labs поделились основными выводами из книги о MLOps. Сильнее всех мне откликается шестой: «Вместо обслуживания модели, посмотрите на общую картину доставки приложения в целом». Соглашусь с авторами: во многих платформах пользователю пытаются показать всю глубину технических абстракций и «продать» возможность управлять ими через красивый интерфейс. При этом системный взгляд на решение практических задач размывается очень сильно.


Книга Iguazio Yaron Haviv и Noah Gift.

Introduction to Apache Doris: A Next-Generation Real-Time Data Warehouse


Обзорная статья по работе с аналитической базой данных Apache Doris. Авторы поделились ее особенностями, архитектурой и пользовательскими сценариями. Все это вместе с подробными схемами и характеристикой инфраструктурных компонентов.

Data Monetization? Cue the Chief Data Monetization Officer


Автор решил раскрыть роль директора по монетизации данных (CDMO) и его отличия от директора по данным (CDO) и IT-директора (CIO). В тексте есть несколько примеров решаемых задач и форматов взаимодействия с другими специалистами. Но кажется, что это история про очень большие компании.


CNCF White Paper по observability: инструменты, виды, стратегии и проблемы


Некоммерческая организация CNCF написала статью о построении observability для ML-систем. Она содержит верхнеуровневый обзор разных видов и паттернов мониторинга, которые могут понадобиться при работе с высокими нагрузками в облаке. Чтобы вы понимали, чтение занимает около 40 минут. Я пока не дочитал, но планирую закончить за выходные.


Первичные observability-сигналы.

Data Governance: MDM and RDM (Part 3)


Третья часть ликбеза по Data Governance, в котором рассказывают об управлении референсными (RDM) и мастер-данными (MDM). Особенно понравились описания разных стилей имплементации MDM. Встретить такое на рынке — удивительная удача!

БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году


Если вы находитесь в постоянном поиске СУБД, советую присмотреться к этой статье. Автор разделил системы на четыре класса: реляционные, in-memory, NoSQL, Distributed SQL — и рассказал подробнее о каждом.


Эволюция функциональности in-memory баз данных.

Про эволюцию СУБД принято рассказывать, что сначала были реляционные базы данных, потом появились NoSQL, а после — распределенные. Но автор рассмотрел, как эти системы эволюционировали одновременно и к чему это привело.

Переход с ETL на ELT


Коллеги из ITSumma перевели статью об извлечении, загрузке и трансформации данных. Без вечного холивара между ETL и ELT-подходам, естественно, не обошлось. Несмотря на хейт в комментариях, статья показалась мне полезной. Для тех, кто не владеет иностранными языками, это отличная возможность ознакомиться с материалом.

Практика


Visualizing Feature Lineage with Tecton DataFlow


Чтобы понять, какие преобразования приводят функцию к текущему состояния, нужно постоянно отслеживать цепочку ее трансформаций. При этом делать это вручную, поскольку готовых решений нет. Ребята в Tecton решили «хватит это терпеть» и выкатили красивый визуализатор этапов преобразования. Кажется, это только начало, но уже сейчас можно им вдохновиться.

Safeguarding Your RAG Pipelines: A Step-by-Step Guide to Implementing Llama Guard


В первый раз вижу практически применимую статью об обеспечении безопасности для ML-моделей. Для людей, мало знакомых с best practice по информационной безопасности, такой подход выглядит жутковато. Похоже к prompt-инженерам добавятся guard-инженеры или просто переложат эту ответственность на первых. А как у вас с этим?

Druid Deprecation and ClickHouse Adoption at Lyft


Подробный рассказ от Lyft о миграции с Apache Druid на ClickHouse. Интересно, что не наоборот. У ребят, как всегда, все подробно описано и сопровождено схемами используемых решений.


Инструменты


Discover, download, and run local LLMs


Появилось время подробнее ознакомиться с инструментом для локального запуска LLM. Раньше я всем рассказывал о h2oGPT, но теперь буду советовать LM Studio. Его главная функция — запуск локального сервера с выбранной моделью. Причем он нативно поддерживается API OpenAI.

Simplify End-To-End MLOps with PostgresML


Какие только инструменты не встретишь. Например, плагин на Rust для создания MLOps-системы в PostgreSQL. Если у нас в сообществе есть администраторы по базам данных, покажите им этот инструмент — пусть переквалифицируются в MLOps-инженеры!

Мнение


Cutting Your Data Stack Costs: How To Approach It And Common Issues


Статья-размышление о подходах к экономии средств на поддержку аналитической инфраструктуры. Из материала узнаете, как выбрать подходящее решение и определить его точную стоимость.


How To Plan To Data Roadmap For 2024 – Elevating Your Data Strategy


Небольшое напоминание о том, что для управления аналитикой и данными нужно формулировать стратегию. В статье автор предлагает для этого следующие шаги:

  • поговорить со стейкхолдерами и зафиксировать ожидания,
  • оценить сильные стороны команды и прошлые успешные проекты,
  • не забыть про проекты на поддержке,
  • предложить собственные идеи улучшений.

Дальше остается только приоритезировать — и в бой!

Инфраструктура


Inference performance on AMD Instinct MI300X


В последнее время NVIDIA и AMD спорят о правильности тестов своих GPU. Если не слышали, AMD выпустила тесты Instinct™ MI300X, но результаты не понравились NVIDIA, и она выпустила свою версию тестов. А теперь результаты не понравились AMD, поэтому они опубликовали статью-опровержение. Напоминает маркетинговые войны Audi и BMW, ну или Pepsi и Coca Cola. Теперь ждем ответ от NVIDIA.


Показатели инференсов Llama-70B.

MTT S4000 48GB AI GPU with MTLink and zero-cost NVIDIA CUDA® framework translation


Китайская GPU, которую можно сравнивать с RTX™ A6000 Ada. Вот вам и реальность. Берете бывшего вице-президента из NVIDIA, даете ему ресурсы и поддержку правительства и в результате получаете альтернативную железку, хоть и не на современной архитектуре. Особенно я повеселился с MTLink — альтернативе популярной NVlink™. Также заявлена нативная трансляция в CUDA®, но без тестов я не поверю.

Обзоры рынка


Платформы бизнес-аналитики BI 2023


Ежегодный рейтинг отечественных BI-инструментов от CNews. У меня есть вопросы к методологии и выставлению оценок. Например, они не затронули open-source и облачные решения. Тем не менее, можно изучить, если хотите ознакомиться с рынком коробочных инструментов.


Топ-5 BI-платформ 2023. Источник.

How To Read Gartner’s Magic Quadrants & 2024 Predictions


Каждый год выходят отраслевые отчеты Gartner и ровно каждый год может возникнуть вопрос, что с ними делать. Для этого предлагаю ознакомиться с материалом, который помогает их интерпретировать. Прекрасный способ подвести итоги года для тех, кто интересуется не только настоящим, но и будущим в мире аналитических решений.

15 Leading Cloud Providers for GPU-Powered LLM Fine-Tuning and Training


Неплохой обзор по ресурсам для LLM от разных провайдеров. Среди них — Lambda Labs, Microsoft Azure, Google Cloud и другие. Пригодится, если хотите посмотреть стоимость некоторых решений и составить по ним общее впечатление.


Характеристики ресурсов для LLM от Microsoft Azure.

GenAI companies valuations


Нестандартный формат: делюсь не статьей, а картинкой со стоимостью главных GenAI-компаний в мире. Кажется, что если и нужно следовать рекомендациям в стиле «Топ-10 самых перспективных направлений для инвестирования», то нужно было выбрать генеративные модели, но увы. Удивительно, как сильно Open AI опережает конкурентов!


Видео


Подкаст “Что такое MLOps?”


В ноябре вышел подкаст с участием моего коллеги Антона, но делюсь с ним только сейчас. За полтора часа он подробно рассказал о использовании MLOps в российских реалиях: чем он отличается от DevOps, нужно ли внедрять эту практики любому бизнесу, а также как ML-инженерам убедить руководство в этой необходимости. Пригодится компаниям, которые изучают или планируют построение MLOps-платформы.

MLOps Hands-on Guide: From Training to Deployment and Monitoring


Полуторачасовое видео о построении MLOps. В нем спикер Алексей Григорьев подробно рассказывает на реальных инструментах и подходах, позволяющих организовать минимально достаточный процесс работы с ML-моделями. Для опытных специалистов пользы будет не так много, а вот начинающие смогут своими глазами увидеть весь процесс построения чего-то похожего на production ML.

MNC — MLOps


Я всегда за то, чтобы повышать насмотренность, поэтому представляю короткое демо-видео о корейской MLOps-платформе. Нового, к сожалению, я тут не увидел, но в видео есть общие паттерны работы с моделями и их публикации в сервисы.

Building your ML Ops strategy for generative AI


В одном из предыдущих дайджестов я рассказывал о видео по MLOps от AWS, а теперь — от Google. Понятно, что там много про Vertex AI, но и концептуальных вещей достаточно. Специфика GenAI сейчас многим важна, так что пользуйтесь опытом лидеров.

Community Paper Reading: Mixtral – Part One


На YouTube-канале Arize AI есть формат Community Paper Reading, в котором несколько специалистов обсуждают какую-то тему. В этом выпуске нашумевшая модель Mixtral. Если вам тоже интересно, как можно на модели с 7 миллиардами параметров опережать более крупные модели по качеству получаемого результата, то приятного чтения.

Qwak MLOps Platform Demo 2024


Уважаю компании, которые делают видео-гайды по своим продуктам. Не нужно читать огромные документации и сопоставлять концепции. Достаточно посмотреть один раз и получить комплексное представление по решению. Так, например, ребята из Qwak выпустили простое и понятие видео о своей MLOps-платформе

The future of BI: Exploring the impact of BI-as-code tools with DuckDB


Помимо взгляда BI-аналитиков на BI-системы есть еще и взгляд разработчиков. В последнее время растет популярность именно «кодового» подхода, как более гибкого и настраиваемого. Отсюда и появляются фреймворки для создания дашбордов с помощью написания кода.

В видео автор рассказывает о трех таких решениях — Evidence, Rill и Streamlit. Они выглядят перспективно и могут кому-то подойти, но для массового распространения порог входа высок.

Возможно, эти тексты тоже вас заинтересуют:

Экономим на Kubernetes с помощью OpenCost — и другие прелести FinOps
HoloTile от Disney и проблема свободного движения в VR
Импортозамещение по-американски: США начинают выделять серьезные средства полупроводниковым компаниям внутри страны
Теги:
Хабы:
Всего голосов 24: ↑21 и ↓3+25
Комментарии0

Публикации

Информация

Сайт
slc.tl
Дата регистрации
Дата основания
Численность
1 001–5 000 человек
Местоположение
Россия
Представитель
Влад Ефименко