Как стать автором
Обновить
21
-3
Волынский Александр @volinski

Пользователь

Отправить сообщение

Pythia-12B взял по нескольким причинам:
- полностью Open source с возможностью коммерческого использования;
- оптимальное число параметров с учетом доступных на тот момент ресурсов для обучения;
- поддержка из коробки данной модели в различных библиотеках как при fine tunning, так и при serving;
Смотрел еще множество разных моделей. Все сейчас не вспомню.
Они не подходили, либо по модели лицензирования, либо по числу параметров, уровню поддержки в популярных библиотеках.

Относительно датасета. Это датасет в формате Вопрос/Ответ.
Собран был частично из датасетов Dolly и Alpaca на русском языке, далее дополнен по модели Alpaca по требуемым темам и задачам.

MLflow и Kubeflow позиционируют себя как платформы полного цикла при решения MLOps задач. Поэтому и сравнивают)
При этом инструменты сильно отличаются по функционалу между собой.

Делают акцент на разные фичи. MLflow больше про воспроизводимость и трекинг экспериментов, единый реестр моделей, а Kubeflow больше про пайплайны внутри кубера плюс управление ресурсами внутри кубера под задачи DS.

Если использовать Kubernetes Operator For Spark, то в cluster mode.

github.com/GoogleCloudPlatform/spark-on-k8s-operator/blob/master/docs/user-guide.md#specifying-deployment-mode
A SparkApplication should set .spec.deployMode to cluster, as client is not currently implemented. The driver pod will then run spark-submit in client mode internally to run the driver program. Additional details of how SparkApplications are run can be found in the design documentation.

Если через spark-submit, то можно client и cluster режим использовать.
Подробнее можно здесь почитать
www.lightbend.com/blog/how-to-manage-monitor-spark-on-kubernetes-introduction-spark-submit-kubernetes-operator

Насчет jupyter не подскажу. Есть подробная документация, надеюсь будет полезна
zero-to-jupyterhub.readthedocs.io/en/latest
Kubeflow, скорее всего, не поможет вам в решении задачи. По умолчанию Kubeflow не распараллелит за вас data science эксперименты. Нужно смотреть какой фреймворк используете. Умеет ли он работать в кластерном режиме. Предлагаю вам для начала посмотреть в сторону Spark. Его кстати тоже можно запускать в кубере.
www.youtube.com/watch?v=fYGc4elKW-g

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность