Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мегадайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.
Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.
Используйте навигацию, чтобы выбрать интересующий блок:
→ Дайджесты на Хабре
→ Инфраструктура для ML(Ops)
→ Профессиональное развитие и практика
→ Конференции и доклады
Дайджесты
Формат дайджестов нельзя назвать чем-то новым для нас: мы с коллегой Антоном Чунаевым начали регулярно публиковать материалы по Data-аналитике и ML еще в 2021 году, на самой заре существования Telegram-сообщества «MLечный путь». С тех пор общее количество дайджестов перевалило за 200 и продолжает расти.
В 2023 году, собрав обратную связь от читателей, мы добавили новый формат — «дайджест дайджестов» на Хабре. В нем мы рассказываем о самых значимых и обсуждаемых статьях за прошедшие месяцы.
Всего мы выпустили юбилейные десять дайджестов:
От редакции хочу выразить благодарность всем, кто читает, комментирует и добавляет в закладки. Реакция аудитории сподвигает нас продолжать эту работу, так как основная ее цель — развитие русскоязычного сообщества Data- и ML-специалистов.
Инфраструктура для ML(Ops)
Мы, как провайдер IT-инфраструктуры, также занимаемся адаптацией наших инфраструктурных и платформенных сервисов для решения ML-специфичных задач под современные запросы. Постоянно исследуем и учимся чему-то новому.
Если бы нужно было выбрать название какой-то технологии в качестве слова года, то победу одержал бы Kubernetes. Именно прикладная работа с ним стала самой частой темой статей, которые писали наши инженеры. Что же они сделали?
Научились делить видеокарты
Представьте: есть у вас команда из десятка Data Science-специалистов, каждому нужна видеокарта для работы. И вроде нет ничего сложного: взял GTX 1050 Ti — и в бой. Однако это устроено немного не так.
Схема работы с партициями видеокарты.
Для вычислений, например, больших ML-моделей или предиктивной аналитики на массивных датасетах нужны производительные видеокарты. И если доступных ресурсов окажется недостаточно, образуется очередь: какие-то специалисты будут отдыхать на кофепоинтах, пока другие работают.
Антон aka @antonaleks605 подготовил серию статей, в которой разобрал различные способы экономии ресурсов за счет разделения (шеринга) и совместного использования GPU — с помощью технологий MIG, TimeSlicing и MPS:
- Как разбить GPU на несколько частей и поделиться с коллегами: практическое пособие по работе с MIG
- Делим неделимое в Kubernetes: шеринг GPU с помощью MIG и TimeSlicing
- Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing
Эти статьи — нечто большее, чем простые тексты. В них мы поделились результатами собственных исследований и экспериментов, а также технологиями, которые запускаем в прод для наших клиентов.
Ускорили проведение экспериментов
Часто проведение ML-экспериментов сводится к долгому поиску и загрузке нужных датасетов и моделей, скрупулезной настройке гиперпараметров с целью проверки гипотез. Но что делать, когда времени мало, а за ночь нужно зафайнтюнить «ламу»?
ML-эксперимент на примере языковой модели LLama 2.
Ефим aka @feanoref потратил ночь (и даже не одну) и разобрал особенности кэширования датасетов и рабочих окружений для ускорения работы с экспериментами:
Кстати, статья написана по мотивам доклада на Selectel Tech Day. Если вы аудиал — welcome на YouTube.
Забэкапили кластеры
Разработчикам и системным администраторам важно обеспечивать надежность и доступность данных в приложениях Kubernetes. Несмотря на высокую степень автоматизации и управления контейнерами, всегда остаются риски сбоев или человеческих ошибок — поэтому необходимо заранее задуматься о резервном копировании.
Филипп aka @fil106 изучил этот вопрос подробнее и описал несколько способов резервного копирования значимой информации в Kubernetes:
Если любите большие и сложные технические материалы, то статья для вас.
Наш исследовательский опыт вложен не только в статьи на Хабр. В сентябре вышла из беты ML-платформа Selectel — облачное решение с преднастроенными аппаратными и программными компонентами для обучения и развертывания ML-моделей.
Мы разворачиваем платформу индивидуально для каждого клиента и можем реализовать все фичи, о которых пишем. А также добавить в сборку такие open source-инструменты, как ClearML или Kubeflow — в общем, все для того, чтобы вы смогли организовать полный цикл обучения и тестирования ML-моделей.
Профессиональное развитие и практика
Вклад в ML-сообщество — это не только про обзор новых технологий и исследований, но и идеологический взгляд на наше ремесло. В прошлом году мы выпустили не одну статью, в которых постарались собрать «портрет» современного специалиста.
Взаимосвязи в Data Science.
Ефим aka @feanoref поделился своим видением необходимого и достаточного пути развития для разностороннего ML-специалиста. Более того, собрал подборки материалов, которые помогут этот путь «найти»:
- Часть 1: Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов
- Часть 2: От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению
А для тех, кто только начинает погружаться в MLOps или инфраструктурные решения для ML, мы написали несколько статей с практическими примерами работы с генеративными сетями:
- «Midjourney на коленке». Как развернуть нейросеть в облаке за 5 минут, или начало работы с Diffusers
- Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут
Конференции и доклады
Статьи читают не все: часть нашей аудитории предпочитает посещать конференции и слушать доклады. Поэтому в 2023 не обошлось и без публичных выступлений и прочего амбассадорства.
MLечный путь
Провели ежегодную конференцию MLечный путь, на которой вместе с коллегами из Русагро, Neoflex, СКБ. Контур рассказали про:
- Определение дрифта данных и моделей на MLOps-платформе Neoflex Dognauts,
- Хостинг сотни моделей машинного обучения в Контуре,
- Стек технологий и инфраструктурной базе для пилотных проектов внедрения LLM,
- Оптимизации работы видеоаналитических сервисов в животноводстве с помощью Prefect.
А также провели дискуссию на тему «Потребности ML-рынка России». Записи с прошлых конференций можно найти в плейлисте.
Selectel Tech Day 2023
Кроме того, мы провели первую секцию, посвященную ML/AI, в рамках конференции Selectel Tech Day 2023:
- Инфраструктурные технологии для ML-систем
- Почему сложно сделать собственный ChatGPT?
- Как ускорить выполнение ML-экспериментов в несколько раз?
ML Podcast
А еще сходили в гости в ML Podcast и поделились своим мнением о том, что такое MLOps. Кстати, если не читали без преувеличения «монструозную» статью Антона — рекомендую ознакомиться.
Кроме того, наши инженеры отлично съездили на конференцию Smart Data и Conversations AI, а также выступили приглашенными экспертами на Highload++. Если будете на отраслевых конференциях в этом году и увидите нас, смело подходите — пообщаемся. ?
Понравились материалы из дайджеста? Оставляйте комментарии и делитесь, что из мира аналитики и ML запомнилось вам в прошедшем году. Увидимся в следующем месяце!