Pythia-12B взял по нескольким причинам: - полностью Open source с возможностью коммерческого использования; - оптимальное число параметров с учетом доступных на тот момент ресурсов для обучения; - поддержка из коробки данной модели в различных библиотеках как при fine tunning, так и при serving; Смотрел еще множество разных моделей. Все сейчас не вспомню. Они не подходили, либо по модели лицензирования, либо по числу параметров, уровню поддержки в популярных библиотеках.
Относительно датасета. Это датасет в формате Вопрос/Ответ. Собран был частично из датасетов Dolly и Alpaca на русском языке, далее дополнен по модели Alpaca по требуемым темам и задачам.
MLflow и Kubeflow позиционируют себя как платформы полного цикла при решения MLOps задач. Поэтому и сравнивают) При этом инструменты сильно отличаются по функционалу между собой.
Делают акцент на разные фичи. MLflow больше про воспроизводимость и трекинг экспериментов, единый реестр моделей, а Kubeflow больше про пайплайны внутри кубера плюс управление ресурсами внутри кубера под задачи DS.
Kubeflow, скорее всего, не поможет вам в решении задачи. По умолчанию Kubeflow не распараллелит за вас data science эксперименты. Нужно смотреть какой фреймворк используете. Умеет ли он работать в кластерном режиме. Предлагаю вам для начала посмотреть в сторону Spark. Его кстати тоже можно запускать в кубере. www.youtube.com/watch?v=fYGc4elKW-g
Pythia-12B взял по нескольким причинам:
- полностью Open source с возможностью коммерческого использования;
- оптимальное число параметров с учетом доступных на тот момент ресурсов для обучения;
- поддержка из коробки данной модели в различных библиотеках как при fine tunning, так и при serving;
Смотрел еще множество разных моделей. Все сейчас не вспомню.
Они не подходили, либо по модели лицензирования, либо по числу параметров, уровню поддержки в популярных библиотеках.
Относительно датасета. Это датасет в формате Вопрос/Ответ.
Собран был частично из датасетов Dolly и Alpaca на русском языке, далее дополнен по модели Alpaca по требуемым темам и задачам.
MLflow и Kubeflow позиционируют себя как платформы полного цикла при решения MLOps задач. Поэтому и сравнивают)
При этом инструменты сильно отличаются по функционалу между собой.
Делают акцент на разные фичи. MLflow больше про воспроизводимость и трекинг экспериментов, единый реестр моделей, а Kubeflow больше про пайплайны внутри кубера плюс управление ресурсами внутри кубера под задачи DS.
github.com/GoogleCloudPlatform/spark-on-k8s-operator/blob/master/docs/user-guide.md#specifying-deployment-mode
A SparkApplication should set .spec.deployMode to cluster, as client is not currently implemented. The driver pod will then run spark-submit in client mode internally to run the driver program. Additional details of how SparkApplications are run can be found in the design documentation.
Если через spark-submit, то можно client и cluster режим использовать.
Подробнее можно здесь почитать
www.lightbend.com/blog/how-to-manage-monitor-spark-on-kubernetes-introduction-spark-submit-kubernetes-operator
Насчет jupyter не подскажу. Есть подробная документация, надеюсь будет полезна
zero-to-jupyterhub.readthedocs.io/en/latest
www.youtube.com/watch?v=fYGc4elKW-g