Pull to refresh
Selectel
IT-инфраструктура для бизнеса

Годовой дайджест по аналитике и ML за 2023

Level of difficultyMedium
Reading time5 min
Views5.1K

Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мегадайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.

Используйте навигацию, чтобы выбрать интересующий блок:

Дайджесты на Хабре
Инфраструктура для ML(Ops)
Профессиональное развитие и практика
Конференции и доклады

Дайджесты


Формат дайджестов нельзя назвать чем-то новым для нас: мы с коллегой Антоном Чунаевым начали регулярно публиковать материалы по Data-аналитике и ML еще в 2021 году, на самой заре существования Telegram-сообщества «MLечный путь». С тех пор общее количество дайджестов перевалило за 200 и продолжает расти.

В 2023 году, собрав обратную связь от читателей, мы добавили новый формат — «дайджест дайджестов» на Хабре. В нем мы рассказываем о самых значимых и обсуждаемых статьях за прошедшие месяцы.

Всего мы выпустили юбилейные десять дайджестов:От редакции хочу выразить благодарность всем, кто читает, комментирует и добавляет в закладки. Реакция аудитории сподвигает нас продолжать эту работу, так как основная ее цель — развитие русскоязычного сообщества Data- и ML-специалистов.

Инфраструктура для ML(Ops)


Мы, как провайдер IT-инфраструктуры, также занимаемся адаптацией наших инфраструктурных и платформенных сервисов для решения ML-специфичных задач под современные запросы. Постоянно исследуем и учимся чему-то новому.

Если бы нужно было выбрать название какой-то технологии в качестве слова года, то победу одержал бы Kubernetes. Именно прикладная работа с ним стала самой частой темой статей, которые писали наши инженеры. Что же они сделали?

Научились делить видеокарты


Представьте: есть у вас команда из десятка Data Science-специалистов, каждому нужна видеокарта для работы. И вроде нет ничего сложного: взял GTX 1050 Ti — и в бой. Однако это устроено немного не так.


Схема работы с партициями видеокарты.

Для вычислений, например, больших ML-моделей или предиктивной аналитики на массивных датасетах нужны производительные видеокарты. И если доступных ресурсов окажется недостаточно, образуется очередь: какие-то специалисты будут отдыхать на кофепоинтах, пока другие работают.

Антон aka @antonaleks605 подготовил серию статей, в которой разобрал различные способы экономии ресурсов за счет разделения (шеринга) и совместного использования GPU — с помощью технологий MIG, TimeSlicing и MPS:


Эти статьи — нечто большее, чем простые тексты. В них мы поделились результатами собственных исследований и экспериментов, а также технологиями, которые запускаем в прод для наших клиентов.

Ускорили проведение экспериментов


Часто проведение ML-экспериментов сводится к долгому поиску и загрузке нужных датасетов и моделей, скрупулезной настройке гиперпараметров с целью проверки гипотез. Но что делать, когда времени мало, а за ночь нужно зафайнтюнить «ламу»?


ML-эксперимент на примере языковой модели LLama 2.

Ефим aka @feanoref потратил ночь (и даже не одну) и разобрал особенности кэширования датасетов и рабочих окружений для ускорения работы с экспериментами:


Кстати, статья написана по мотивам доклада на Selectel Tech Day. Если вы аудиал — welcome на YouTube.

Забэкапили кластеры


Разработчикам и системным администраторам важно обеспечивать надежность и доступность данных в приложениях Kubernetes. Несмотря на высокую степень автоматизации и управления контейнерами, всегда остаются риски сбоев или человеческих ошибок — поэтому необходимо заранее задуматься о резервном копировании.

Филипп aka @fil106 изучил этот вопрос подробнее и описал несколько способов резервного копирования значимой информации в Kubernetes:


Если любите большие и сложные технические материалы, то статья для вас.

Наш исследовательский опыт вложен не только в статьи на Хабр. В сентябре вышла из беты ML-платформа Selectel — облачное решение с преднастроенными аппаратными и программными компонентами для обучения и развертывания ML-моделей.

Мы разворачиваем платформу индивидуально для каждого клиента и можем реализовать все фичи, о которых пишем. А также добавить в сборку такие open source-инструменты, как ClearML или Kubeflow — в общем, все для того, чтобы вы смогли организовать полный цикл обучения и тестирования ML-моделей.


Профессиональное развитие и практика


Вклад в ML-сообщество — это не только про обзор новых технологий и исследований, но и идеологический взгляд на наше ремесло. В прошлом году мы выпустили не одну статью, в которых постарались собрать «портрет» современного специалиста.


Взаимосвязи в Data Science.

Ефим aka @feanoref поделился своим видением необходимого и достаточного пути развития для разностороннего ML-специалиста. Более того, собрал подборки материалов, которые помогут этот путь «найти»:


А для тех, кто только начинает погружаться в MLOps или инфраструктурные решения для ML, мы написали несколько статей с практическими примерами работы с генеративными сетями:


Конференции и доклады


Статьи читают не все: часть нашей аудитории предпочитает посещать конференции и слушать доклады. Поэтому в 2023 не обошлось и без публичных выступлений и прочего амбассадорства.

MLечный путь


Провели ежегодную конференцию MLечный путь, на которой вместе с коллегами из Русагро, Neoflex, СКБ. Контур рассказали про:


А также провели дискуссию на тему «Потребности ML-рынка России». Записи с прошлых конференций можно найти в плейлисте.

Selectel Tech Day 2023


Кроме того, мы провели первую секцию, посвященную ML/AI, в рамках конференции Selectel Tech Day 2023:


ML Podcast


А еще сходили в гости в ML Podcast и поделились своим мнением о том, что такое MLOps. Кстати, если не читали без преувеличения «монструозную» статью Антона — рекомендую ознакомиться.

Кроме того, наши инженеры отлично съездили на конференцию Smart Data и Conversations AI, а также выступили приглашенными экспертами на Highload++. Если будете на отраслевых конференциях в этом году и увидите нас, смело подходите — пообщаемся. ?

Понравились материалы из дайджеста? Оставляйте комментарии и делитесь, что из мира аналитики и ML запомнилось вам в прошедшем году. Увидимся в следующем месяце!
Tags:
Hubs:
Total votes 34: ↑34 and ↓0+34
Comments0

Articles

Information

Website
slc.tl
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия
Representative
Влад Ефименко