Комментарии / Профиль serebryakovsergey / Хабр

Research Engineer

Профиль Публикации Комментарии 34Закладки 735

Как лучше обучать RNN для прогнозирования временных рядов?

serebryakovsergey 28 ноя 2022 в 17:18

Насчет data leak вы так и не поняли. По простому ,например если у вас интервал 1 минута, надо как минимум ставить gap 60минут, (все индивидуально), ибо значения тренировки могут быть инертны и залезть в будущее. Поищите обязательно это уже давно стандарт.

Порекомендуйте, пожалуйста, статью на эту тему.

Посмотреть

Как лучше обучать RNN для прогнозирования временных рядов?

serebryakovsergey 27 ноя 2022 в 00:41

Интересно, а насколько лучше работают такие модели по сравнению с базовыми? Например, использование константы (среднее на обущающем множестве) в качестве прогноза для всего тестирующего множества. Или использование X[t] напрямую в качестве прогноза для X[t+N] (где N - горизонт прогноза). Ну или стандартный ARIMA.

Посмотреть

Введение в суррогатные модели. Часть 1: Актуальность

serebryakovsergey 24 мая 2022 в 22:31

В общем случае аналитик не может предугадать количество выборок

Мне кажется, тут речь скорее идет про количество образцов (samples == instances == examples).

Посмотреть

Почему в «Северсталь Диджитал» сделали свою библиотеку для организации кода в машинном обучении и к чему это привело

serebryakovsergey 19 мая 2022 в 22:08

Круто! Пара вопросов:

Как бы вы сравнили blocks с Faust и Streamz?
Оценивали ли вы накладные расходы (не знаю, правильное ли это слово - хотел написать тут overhead) вышего фреймворка? Если у меня простая модель которая выдает решение за 1-2 миллисекунды, то сколько мне прибавит blocks в простейшем конвеере (провалидировать данные, применить модель)?

Посмотреть

7 правил английского, которые носители нарушают чаще, чем пьют Колу

serebryakovsergey 17 фев 2022 в 00:23

Есть же классическое "How you doin'?" )

Посмотреть

7 правил английского, которые носители нарушают чаще, чем пьют Колу

serebryakovsergey 15 фев 2022 в 22:13

Секцию про вспомогательный глагол do можно разбавить примерами с does - очень популярная тема в разговорах (вопрос / ответ) : Make sense? / Makes sense, Sound good? / Sounds good.

А вот "I have went" звучит дико, вообще ни разу не слышал.

Посмотреть

Прогнозируем реальные вероятности

serebryakovsergey 31 янв 2022 в 22:22

В первом фрагменте с кодом где-то опечатка - количество информативных и избыточных фич превышает общее количество фич.

Посмотреть

Теорема Байеса: просто о сложном

serebryakovsergey 3 янв 2022 в 20:27

Я в свое время стал "переводить" на автомате чувствительность/специфичность в полноту (recall) для классов 1 и 0. Ну а полнота это уже достаточно простая метрика для понимания. А так да, в терминилогии можно легко потеряться.

Посмотреть

Интеллектуальные сервисы для управления облачной инфраструктурой

serebryakovsergey 13 дек 2021 в 19:38

Спасибо! Мы в одном из проектов похоже дигались в этом же направлении, и да, мы тоже написали наш Anomaly Injector (для временных рядов) который мы используем для валидации моделей.

Посмотреть

Проект автодома для Cybertruck пытается собрать $400 млн

serebryakovsergey 12 дек 2021 в 07:11

У них на сайте в разделе Features есть анимация того, что внутри.

Посмотреть

Интеллектуальные сервисы для управления облачной инфраструктурой

serebryakovsergey 12 дек 2021 в 07:00

А еще было бы интересно узнать, есть ли у вас проблема дрифта данных или самих предсказывающих моделей (concept drift), и если есть, то как это дело мониторите и какие алгоритмы используете. И в целом, были ли какие-нибудь интересные и неочевидные трудности, с которыми пришлось бороться при разработке и развёртывании этих сервисов?

Посмотреть

MLflow: вывод моделей в продакшн и инструмент MLOps

serebryakovsergey 9 дек 2021 в 20:58

Глобально, задача заключается в логировании артефактов и метаданных выполнения всех пайплайнов, каждый из которых состоит из множества шагов. Это может быть полезно с разных точек зрения:

Удобный совместный (связанный) трекинг артефактов (параметры, наборы данных, модели) и метаданных.
Многие пайплайны, особенности в HPC ("AI for science") представляют собой сложные пайплайны с множеством индивидульных шагов, иногда с обратными связями (например, active learning).
Логирование, отладка и поиск ошибок
Повторное выполнение пайплайна, возобновление выполнения с определённой стадии.
Поиск всех вариантов конкретного, необработанного, набора данных.
Поиск всех моделей, которые были построены на основе конкретного набора данных.
Поиск наборов данных, которые были использованы для построения конкретной модели.
Рекомендация конфигурации пайплайна и гипер-параметров для новых задач.

Такие инструменты уже существуют, например TFX Pipelines / KubeFlow с MLMD. Некоторая поддержка есть в закрытых платформах, типа Weights and Biases.

Я не знаю, есть ли в открытом доступе нативная поддержка всего этого для MLFlow, и насколько такая поддержка может быть полезной в целом. Я разговаривал с исследователями и командами, у которых кроме MLFlow / W&B больше ничего нет, и для них такая поддержка была бы полезна.

Вот здесь есть немного информации о различиях в метаданных ML экспериментов и метаданных пайплайнов.

Посмотреть

MLflow: вывод моделей в продакшн и инструмент MLOps

serebryakovsergey 3 дек 2021 в 22:19

Было бы интересно почитать про детали интеграции MLFlow и Apache Airflow. В частности, используете ли вы MLFlow для трекинга метаданных конвееров (пайплайнов) машинного обучения? Например, если мой конвеер состоит из нескольких этапов (загрузка данных, предобработка, тренировка и тестирование), и каждый этап представляет собой отдельный MLFlow run, то связываете ли вы эти этапы друг с другом через метаданные входов/выходов каким-нибудь образом? Мы ради экспермента написали слой поверх MLFlow для решения этой задачи, посути получив достаточно простую реализацию того, что доступно при использовании TFX Pipelines / KubeFlow с MLMD (ML Metadata от Google). Интересно узнать, если кто-либо еще думает в этом направлении.

Посмотреть

Суперкомпьютеры Яндекса: взгляд изнутри

serebryakovsergey 16 ноя 2021 в 22:58

Очень круто! По ходу чтения появилось пару вопрсоов:

90 GB/s в all-reduce тестах удалось достичь при запуске теста на всех 137 машинах (т.е. используя 137 * 8 = 1,096 карт)?
Если это не является коммерческой тайной, то какие бенчмарки вы запускали что-бы оценить 4 vs 8 сетевых карт на узел? В частности, оценивали ли вы, например, влияние конфигурации с 4ми картами на узел на тренировку таких моделей, как GPT-3 (Megatron-LM), в которой есть все 3 типа паралелизма (tensor/pipeline/data) и которой нужно 16 узлов с 8 GPU каждой для одной реплики?

Посмотреть

5 обычных английских слов, которые британцы считают очень грубыми (ни разу не ругательства)

serebryakovsergey 5 ноя 2021 в 20:58

"Say that again please" - еще один безумно распространенный разговорный вариант.

Посмотреть

Как контейнеризировать среды ML разработки и не посадить на мель процессы MLOps

serebryakovsergey 13 июл 2021 в 22:10

Ватерлиния не параллельна воде.

На мели сидит.

Посмотреть

Как «подружить» инженеров и дата-сайентистов с помощью одной библиотеки

serebryakovsergey 11 ноя 2020 в 23:38

Проекту больше 2х лет, не похоже что Facebook его как-то развивает.

Посмотреть

Deep Learning Inference Benchmark — измеряем скорость работы моделей глубокого обучения

serebryakovsergey 22 окт 2020 в 18:02

Круто, я в одном из прошлых проектов занимался похожей задачей. Кстати, только вчера MLPerf опубликовал очередные результаты (статья).

Посмотреть

Найти комбинацию соседних чисел, имеющих самое большое произведение

serebryakovsergey 10 авг 2020 в 12:27

Да, верно. Я думал про ядра W как 3D тензор размерности (4, 4, N) состоящий из нулей и единиц, где N — количество валидных цепочек в матрице 4x4. Тогда операция Conv2D(X, W) даст 3D тензор, в котором пространственные индексы максимального элемента укажут на под-матрицу (4,4) исходной матрицы, а третий индекс укажет на конкретное ядро, т.е. укажет какие 4 элемента надо выбрать.

Посмотреть

Найти комбинацию соседних чисел, имеющих самое большое произведение

serebryakovsergey 10 авг 2020 в 11:50

Если бы речь шла про сумму, можно было бы все распараллелить и оптимизировать через операцию свертки (Conv2D в данном случае) с несколькими ядрами. С другой стороны, так как числа по определению > 0, то логарифм произведения есть сумма логарифмов. Так что можно посчитать поэлементно логарифм, а потом применить операцию свертки.
PS — идея абсолютно не протестирована ).

Посмотреть