Спасибо за список. К сожалению, у вас выключены входящие сообщения на Хабре, поэтому отпишусь тут)
Список ваш впечатляет, у меня просто NAS и 2 ПК на инженерных intel i9 1200 сокета (описывал в своих статьях сборку)

Kamil_GR 16 мая в 08:27

Добрый день! Прекрасная статья!

Подскажите, есть ли возможность протестировать мой промпт на вашей модели (я интересуюсь его применимостью на разных LLM и влиянием фильтров разработчиков)?

Myskat_90 16 мая в 09:49

Конечно, написал детали в ЛС)

DimanODG 16 мая в 15:19

Здравствуйте! Спасибо за такое подробное описание работы распределенных вычислений.

Скажите, возможно мне провести этот эксперимент на моих домашних ноутбуках? Всего 3 ноутбука. У одного (13900hx) дискретная 4080 (12gb). У 2-х других (12700h и 13500h) есть внешние видеокарты через TB4: 2080ti и 3090.

Myskat_90 16 мая в 15:27

Здравствуйте!

Да, провести возможно, но надо подумать как лучше объединить ваше оборудование в единый ray кластер с проброшенными GPU - на это может потребоваться много времени)

Плюс надо понимать, что при разнородной инфраструктуре, распределение будет ограничено по самой наименьшей по видеопамяти карте (особенности vLLM)

Мне кажется проще будет в вашем случае использовать решение Exo https://github.com/exo-explore/exo

Достаточно будет поставить docker и прокинуть в контейнер GPU и в этой среде поставить exo

nekoluchiy 17 мая в 04:08

Большое спасибо за такую подробную и интересную статью. Подчеркнул для себя несколько идей)

diafour 21 мая в 11:38

Про картинку в ответ интересно, если по капотом stable diffusion, то она обычно 4 картинки на выбор даёт, а здесь только одна — это в serve.py такие настройки вызова SD?

И можно следующим промтом картинку доработать, т.е. сохранить seed и поправить промпт в SD, чтобы работало скажем такое "добавь к картинке пчёл летающих вокруг цветка"?

Myskat_90 22 мая в 15:59

Здравствуйте!

Вы правы, это настройки в serve.py, делал для совместимости с Open WebUI (в нем генерация картинок еще в экспериментальном режиме и там достаточно немного параметров)

SD запущена в отдельном ray кластере и и там отдельный serve.py, вот вызов:

# Если используем автокаст для FP16/bfloat16 на GPU
            autocast_enabled = (torch.cuda.is_available() and self.torch_dtype in [torch.float16, torch.bfloat16])
            with torch.autocast("cuda", enabled=autocast_enabled):
                for _ in range(body.n):
                    out = self.pipe(
                        prompt="",
                        prompt_3=body.prompt,
                        negative_prompt=body.negative_prompt,
                        num_inference_steps=body.steps,
                        guidance_scale=body.guidance_scale,
                        width=width,
                        height=height
                    )
                    # В данном примере возвращается только первый элемент из out.images,
                    # так как обычно SD генерирует 1 картинку за вызов.
                    # Если нужно возвращать batch, можно извлечь все элементы.
                    images.append(out.images[0])
            return images

Отдельной опции в UI для хранения seed пока что нет, поэтому дополнить не получается

При желании можно доработать serve.py и передавать seed в параметр generator

Зарегистрируйтесь на Хабре, чтобы оставить комментарий