VM запускается с теми ресурсами, которые указаны в требованиях (в аргументах к dstack run, либо в YAML) на время выполнения скрипта, и потом автоматически удаляется.
И это имеет смысл для запуска скриптов, которые подготавливают данные или тренируют модель.
Для генерации картинок, в этом нет смысла. В данном примере генерация картинок скорее для примера. Реальный юз-кейз dstack - запуск ML workflows - подготовка данных и тренировка моделей.
Stable Diffusion выше - лишь для примера. Это может быть что угодно. При желании WebUI тоже можно использовать вместе с dstack - чтобы запускать его локально или в облаке по необходимости.
Кстати, по поводу conda pack, а это действительно влияет на скорость развертывания conda environment. По сравнениею с хранением в незаархивированном виде.
О, интересно. Про conda pack до этого не слышал. Обязательно посмотрю. Уже сейчас можно сохранять conda environment в качестве артифакта и подключать его к workflow. Если получится глянуть dstack, буду очень признателен за фидбек! Кстати, потенциально поддержка распределенных workflow тоже в плане.
В том, что не нужно вручную создавать и настраивать машину. Плюс, dstack помогает в версионировании артифактов (например датасетов или моделей). Вот тут немного про то, как команда dstack tags работает: https://docs.dstack.ai/reference/cli/tags/ Это очень простая (в этом и ее ценность) альтернатива DVC.
Прямо сейчас dstack поддерживает запуск скриптов для "разработки": это обработка данных, тренировка моделей, и запуск приложений в целях отладки.
Над развертыванием моделей в продакшн мы пока серьезно не думали. Хотя, как мне лично кажется, все что написано выше применимо и к развертыванию моделей.
> Не получится ли что выигрыш получается только при +- крупных задачах?
Иногда действительно может быть удобно 1 раз поднять машину и в интерактивном режиме выполнить задачу. Собственно, это делается с помощью dstack одной командой: https://docs.dstack.ai/examples/devs/. Зато в поднятой машине уже развернута среда разработки, выкачан код, настроены зависимости. В этом плане dstack вполне себе альтернатива SSH.
В любом случае, учитывая, что dstack бесплатный и опенсорсный, можно проверить и отписаться. Буду очень рад обратной связи!
Надеюсь, что будет. Зависит от этого тикета: https://youtrack.jetbrains.com/issue/PY-39750 Планирую обсудить его с командой. Сори, за наивный вопрос. А в чем преимущества Black над встроенным форматтером PyCharm?
В частности Data Science режим в JetBrains DataSpell включён по умолчанию и должен быть удобным. Это включает поддержку ячеек в Python скриптах и удобный REPL. И то и другое есть в видео. Рекомендую посмотреть.
Если человек привык настраивать проекты, вероятно PyCharm будет удобнее. У всех разные привычки.
Дробление инструментов действительно не всегда хорошо. В этом случае мы верим, что есть категория дата-сайентистов, которым весь PyCharm будет скорее неудобен и они бы предпочли инструмент заточенный именно на Data Science.
Там все сложнее. В DataSpell мы переделали поддержку ноутбуков с нуля и сделали ее более интерактивной: результаты выполнения под ячейкой, командный режим работы с ячейками, поддержка виджетов, интерактивных графиков и т.п.
Привет! Работаем над этим. У вас была возможность уже глянуть на http://jetbrains.com/dataspell? К осени эта функциональность будет доступна в PyCharm тоже.
> ну ок если sparksql синтаксис втащите, самое ценное перформанс тюнниг, план запросов и ну вы поняли, поддержку разбора и анализа графа — вот что круто
Будем думать. Уже есть мысли.
Для интерактива кстати можно запустить "code" провайдер: https://docs.dstack.ai/usage/providers/#code
Он позволяет из VS Code онлайн работать. Потом в любой момент остановить.
А еще мы в процессе добавления поддержки SSH, чтобы вообще можно было запустить workflow и сразу к ней свой я PyCharm приконнектить.
VM запускается с теми ресурсами, которые указаны в требованиях (в аргументах к dstack run, либо в YAML) на время выполнения скрипта, и потом автоматически удаляется.
И это имеет смысл для запуска скриптов, которые подготавливают данные или тренируют модель.
Для генерации картинок, в этом нет смысла. В данном примере генерация картинок скорее для примера. Реальный юз-кейз dstack - запуск ML workflows - подготовка данных и тренировка моделей.
Stable Diffusion выше - лишь для примера. Это может быть что угодно.
При желании WebUI тоже можно использовать вместе с dstack - чтобы запускать его локально или в облаке по необходимости.
Кстати, по поводу conda pack, а это действительно влияет на скорость развертывания conda environment. По сравнениею с хранением в незаархивированном виде.
О, интересно. Про
conda pack
до этого не слышал. Обязательно посмотрю.Уже сейчас можно сохранять conda environment в качестве артифакта и подключать его к workflow.
Если получится глянуть dstack, буду очень признателен за фидбек!
Кстати, потенциально поддержка распределенных workflow тоже в плане.
Спасибо! Полностью согласен. Как раз хотим сделать больше разных и подробных примеров!
В том, что не нужно вручную создавать и настраивать машину.
Плюс, dstack помогает в версионировании артифактов (например датасетов или моделей). Вот тут немного про то, как команда
dstack tags
работает: https://docs.dstack.ai/reference/cli/tags/Это очень простая (в этом и ее ценность) альтернатива DVC.
Прямо сейчас dstack поддерживает запуск скриптов для "разработки": это обработка данных, тренировка моделей, и запуск приложений в целях отладки.
Над развертыванием моделей в продакшн мы пока серьезно не думали. Хотя, как мне лично кажется, все что написано выше применимо и к развертыванию моделей.
> Не получится ли что выигрыш получается только при +- крупных задачах?
Иногда действительно может быть удобно 1 раз поднять машину и в интерактивном режиме выполнить задачу. Собственно, это делается с помощью dstack одной командой: https://docs.dstack.ai/examples/devs/. Зато в поднятой машине уже развернута среда разработки, выкачан код, настроены зависимости. В этом плане dstack вполне себе альтернатива SSH.
В любом случае, учитывая, что dstack бесплатный и опенсорсный, можно проверить и отписаться. Буду очень рад обратной связи!
Надеюсь, что будет. Зависит от этого тикета: https://youtrack.jetbrains.com/issue/PY-39750
Планирую обсудить его с командой. Сори, за наивный вопрос. А в чем преимущества Black над встроенным форматтером PyCharm?
Да, конечно! JetBrains DataSpell будет включен в All Products Pack.
В частности Data Science режим в JetBrains DataSpell включён по умолчанию и должен быть удобным. Это включает поддержку ячеек в Python скриптах и удобный REPL. И то и другое есть в видео. Рекомендую посмотреть.
Если человек привык настраивать проекты, вероятно PyCharm будет удобнее. У всех разные привычки.
Дробление инструментов действительно не всегда хорошо. В этом случае мы верим, что есть категория дата-сайентистов, которым весь PyCharm будет скорее неудобен и они бы предпочли инструмент заточенный именно на Data Science.
Есть такие планы.
Понял, спасибо. Посмотрю тикет!
О какой именно проблеме идет речь? https://youtrack.jetbrains.com/issue/IDEA-248140? Вроде бы она пофикшена.
Привет! Прошу прощение за поздний ответ. Да, все это планируется и в большей степени уже работает.
И да, удаленная поддержка тоже будет исправлена.
Там все сложнее. В DataSpell мы переделали поддержку ноутбуков с нуля и сделали ее более интерактивной: результаты выполнения под ячейкой, командный режим работы с ячейками, поддержка виджетов, интерактивных графиков и т.п.
Привет! Работаем над этим. У вас была возможность уже глянуть на http://jetbrains.com/dataspell? К осени эта функциональность будет доступна в PyCharm тоже.
Будем думать. Уже есть мысли.
Действительно. Пока работает только начиная с 0.8.x. Вот тикет: https://youtrack.jetbrains.com/issue/BDIDE-375
Планируем в ближайшем апдейте починить