
Стартап Black Forest Labs объявил о своём формировании и немедленно представил три модели для генерации изображений по текстовому промпту. FLUX.1, созданный выходцами из Stability AI, претендует на звание лучшей системы генерации изображений в индустрии.
Вчера, 1 августа 2024 года, стартап Black Forest Labs объявил о своём формировании. В посте в блоге стартапа список сотрудников напрямую не называется, перечислены лишь проекты, над которыми они работали в прошлом. Однако в объявлении фонда венчурных инвестиций Andreessen Horowitz указано, что управляют стартапом 3 специалиста с отличным послужным списком:
Робин Ромбах. Исследователь искусственного интеллекта, индекс Хирша 22. В 2022 году начал работать в лондонском стартапе Stablity AI, который известен моделью генерации изображений Stable Diffusion. Внутри организации руководил командой исследователей. В марте 2024 года покинул компанию. Слухи утверждают, что он грозился сделать ещё летом 2023 года из-за проблем с инвестициями.
Андреас Блаттманн. Соавтор (индекс Хирша 18) оригинальной работы Latent Diffusion в исследовательской группе CompVis. 4 из 5 соавторов этой работы затем перешли на работу в Stability AI, Блаттманн был в их числе. В марте 2024 года трое из них, опять включая Андреаса, покинули компанию.
Патрик Эссер. Автор множества работ по генерации изображений, индекс Хирша 18. Главный исследователь в Runway, одного из стартапов, которые вели разработку первой Stable Diffusion. Входит в число уволившихся из Stability AI в марте этого года.
Black Forest Labs уже получил $31 млн посевных инвестиций. Вложился не только фонд Andreessen Horowitz, подтянулись разнообразные бизнес-ангелы калибра Брендана Ирибе, Майкла Овица, Гарри Тана.
Объявлением о собственном основании новый стартап не ограничился. Black Forest Labs выпустила первые продукты, которые сразу же претендуют на звание SOTA (state of the art), статус лучших в индустрии. Это семейство генеративных моделей вида «текст в изображение» FLUX.1.

В FLUX.1 задействована гибридная архитектура мультимодальных и параллельных диффузионных трансформерных блоков с 12 млрд параметров. Black Forest Labs заявляет, что достичь новых высот помогли техники flow matching, positional embeddings и parallel attention layers. На этом технические детали в посте стартапа кончаются, остальное обещают рассказать позднее.
На данный известных моделей FLUX.1 три.
FLUX.1 [pro]. Наиболее мощная модель для генерации картинок по текстовому промпту. Black Forest Labs заявляет, что этот продукт лучше всего следует промпту и генерирует изображения с высочайшими в области показателями качества, разнообразия и проработанности деталей.
Веса́ этой модели стартап не выпустил. FLUX.1 [pro] работает только через платный API. Обычным пользователям для оценки возможностей модели рекомендуется зайти на fal.ai и Replicate.
Стоимость генерации одного изображения на Replicate составляет $0,055, на fal.ai — $0,05 за мегапиксель, а в API самого стартапа Black Forest Labs — пять центов с настройками по умолчанию или по по формуле $0,05 × ширина / 1024 × высота / 1024 × итераций / 50.
FLUX.1 [dev]. Получена из [pro] с помощью дистилляции. Веса́ этой модели открыты, то есть её может скачать и запустить на собственном компьютере любой желающий.
Black Forest Labs заявляет для этой модели схожие параметры качества, но бо́льшую эффективность. Пользователи сообщают, что для запуска с точностью FP16 всё же желательно 24 ГиБ видеопамяти. Впрочем, есть сообщения, что в варианте на FP8 получается обходиться видеокартой на 12 ГиБ видеопамяти на компьютере со свободными 18 ГиБ ОЗУ.
Собственно файлы выложены на аккаунте компании на Hugging Face, а если хочется попробовать модель, то сделать это предлагается на fal.ai или на Replica. Стоимость за одну картинку от [dev] на Replica составляет $0,030, на fal.ai — $0,025 за мегапиксель.
Модель лицензируется под некоммерческой лицензией FLUX.1.
FLUX.1 [schnell]. Научные исследования, которые привели к появлению Stable Diffusion, начались в Германии, поэтому выбор названия для быстрого варианта модели не вызывает вопросов.
[schnell] выпущена на Hugging Face под обычной лицензией Apache 2.0.

Код для инференса опубликован в репозитории на GitHub. Модели с открытыми весами также имеют интеграцию с ComfyUI.

Black Forest Labs заявлет, что [pro] и [dev] превосходят популярные на рынке модели Midjourney 6.0, DALL·E 3 (HD) и Stable Diffusion 3 Ultra в критериях визуального качетва, следования промпту, варьированию размеров и аспектов, типографии и разнообразию вывода. Для [schnell] заявлено превосходство над Midjourney 6.0 и DALL·E 3 (HD).
![Сравнение [pro] и [dev] и сравнение [schnell] с ближайшими конкурентами. Black Forest Labs Сравнение [pro] и [dev] и сравнение [schnell] с ближайшими конкурентами. Black Forest Labs](https://habrastorage.org/r/w1560/webt/kw/qk/dr/kwqkdrtwhi7gfoiexrbx3kg1qcc.png)
Обычные пользователи уже попытались оценить выпущенные продукты. Часть из них немедленно подтвердила заявление Black Forest Labs, что это открытый генератор не хуже Midjourney.

![Сравнение FLUX.1 [dev] в варианте точности FP8 c Stable Diffusion 3 Medium, Stable Diffusion XL 1.0 и Stable Diffusion 1.5. @toyxyz3 Сравнение FLUX.1 [dev] в варианте точности FP8 c Stable Diffusion 3 Medium, Stable Diffusion XL 1.0 и Stable Diffusion 1.5. @toyxyz3](https://habrastorage.org/r/w1560/webt/kj/fm/uj/kjfmujzlo5u3gkkp-i8kslhhrsc.jpeg)


meme image with two men in it. On the left side the man is taller and is wearing a shirt that says Black Forest Labs. On the right side the other smaller scrawny man is wearing a shirt that says Stability AI and is sad. The taller man is hitting the back of the head of the small man. A caption coming from the tall man reads "That's how you do a next-gen model!"
. Видна ошибка: у облачка почему-то два говорящих. AngryVix![Пример генерации пальцев рук на [dev] с точностью FP8. Среди других примеров реддитора Herr_Drosselmeyer есть случай с ошибкой, когда нож проходит сквозь пальцы Пример генерации пальцев рук на [dev] с точностью FP8. Среди других примеров реддитора Herr_Drosselmeyer есть случай с ошибкой, когда нож проходит сквозь пальцы](https://habrastorage.org/r/w1560/webt/6k/ff/ok/6kffokor1kid88jd-bgvj4m2dc4.jpeg)

На сайте Black Forest Labs три ссылки в верхней плашке, и третья из них ведёт на заглушку Up Next (на сленге телеканалов это значит «далее в программе») с играющим анимации телевизором. Первый пост в блоге стартапа заканчивается угрозой создать систему генерации видео по текстовому промпту. На данный момент модели «текст в видео» уже существуют, но стартап обещает превзойти конкурентов и, если судить по словам «for all», выпустить веса́ для запуска на оборудовании пользователя.