Комментарии / Профиль volinski / Хабр

Волынский Александр @volinski

Пользователь

Профиль Публикации 10Комментарии 4Закладки 11

Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций

volinski 18 сен 2023 в 16:42

Pythia-12B взял по нескольким причинам:
- полностью Open source с возможностью коммерческого использования;
- оптимальное число параметров с учетом доступных на тот момент ресурсов для обучения;
- поддержка из коробки данной модели в различных библиотеках как при fine tunning, так и при serving;
Смотрел еще множество разных моделей. Все сейчас не вспомню.
Они не подходили, либо по модели лицензирования, либо по числу параметров, уровню поддержки в популярных библиотеках.

Относительно датасета. Это датасет в формате Вопрос/Ответ.
Собран был частично из датасетов Dolly и Alpaca на русском языке, далее дополнен по модели Alpaca по требуемым темам и задачам.

Посмотреть

Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями

volinski 9 мар 2023 в 17:51

MLflow и Kubeflow позиционируют себя как платформы полного цикла при решения MLOps задач. Поэтому и сравнивают)
При этом инструменты сильно отличаются по функционалу между собой.

Делают акцент на разные фичи. MLflow больше про воспроизводимость и трекинг экспериментов, единый реестр моделей, а Kubeflow больше про пайплайны внутри кубера плюс управление ресурсами внутри кубера под задачи DS.

Посмотреть

Как работать с Big Data быстрее и эффективнее: Kubernetes для Data Science

volinski 2 июл 2021 в 14:55

Если использовать Kubernetes Operator For Spark, то в cluster mode.

github.com/GoogleCloudPlatform/spark-on-k8s-operator/blob/master/docs/user-guide.md#specifying-deployment-mode
A SparkApplication should set .spec.deployMode to cluster, as client is not currently implemented. The driver pod will then run spark-submit in client mode internally to run the driver program. Additional details of how SparkApplications are run can be found in the design documentation.

Если через spark-submit, то можно client и cluster режим использовать.
Подробнее можно здесь почитать
www.lightbend.com/blog/how-to-manage-monitor-spark-on-kubernetes-introduction-spark-submit-kubernetes-operator

Насчет jupyter не подскажу. Есть подробная документация, надеюсь будет полезна
zero-to-jupyterhub.readthedocs.io/en/latest

Посмотреть

MLOps без боли в облаке: как развернуть Kubeflow в продакшен-кластере Kubernetes

volinski 18 мар 2021 в 14:09

Kubeflow, скорее всего, не поможет вам в решении задачи. По умолчанию Kubeflow не распараллелит за вас data science эксперименты. Нужно смотреть какой фреймворк используете. Умеет ли он работать в кластерном режиме. Предлагаю вам для начала посмотреть в сторону Spark. Его кстати тоже можно запускать в кубере.
www.youtube.com/watch?v=fYGc4elKW-g

Посмотреть