Как стать автором
Обновить

Локальные нейросети (генерация картинок, локальный chatGPT). Запуск Stable Diffusion на AMD видеокартах

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров53K
Всего голосов 57: ↑57 и ↓0+57
Комментарии22

Комментарии 22

Интересно было бы почитать про Zero-Shot Text-Guided Object Generation with Dream Fields.

Все говорят про Alpaca и Llama. А их, вроде как, стырили у Цукерберга. Неужели нет СВОБОДНЫХ проектов текстового ИИ? Вот бы кто прошёлся по ним, сравнил и написал статью. Я просто мимокрокодил, но совсем не против был бы побаловаться с чем-то на своём компьютере.

Как бы есть Gpt-j, но до Лламы она вроде не дотягивает. Не говоря уже о Gpt-4

Ну можешь глянуть тут.

https://arxiv.org/abs/2303.18223

Но не от больших корпораций сеток немного BLOOM, gpt-j и т.д. Просто потому что языковые модели самые большие монстры в плане требований на компьютерные вычисления при обучении. И если не можешь себе позволить пару сотен a100 на несколько месяцев, то с нуля ты ничего не сделаешь. Поэтому языковыми моделями в основном занимаются только большие ребята.

А как это оценить количественно? Вот скажем есть 13B-моделька Llama (или любая другая похожего уровня), и есть статья из Википедии на 1500 символов. Какие мощности, объёмы памяти и сроки нужны, чтобы обученную сетку дообучить на статье?

(Если что, я не про конкретные цифры, а про положение между полюсами "8-ядерный процессор сможет править веса исходной сетки эквивалентно упихиванию в неё 1000 токенов минут за 5, лишь бы ОЗУ хватило" и "Нее, вам понадобятся минимум 32 штуки а100 и по паре часов времени на те же 1000 токенов)

Тут

https://arxiv.org/pdf/2203.15556.pdf

это наиболее влиятельная работа по оценке оптимальной тренировки языковых моделей для заранее заданных вычислительных бюджетов.

Я пытался погрузится в эту тему, у меня даже получилось что-то собрать. В итоге: моделей уровня GPT-3, кроме LLaMA, нет, но есть хорошие нейронки уровнем пониже, которые запускаются на условно-домашних компьютерах и абсолютно свободные, под Apache 2. Например, GPT-NEOX, GPT-NEOXT, Pythia. Все они выдают человеко-читаемый текст, но как чат-википедию их использовать не получится - мало знают и много врут.

открыв для себя аналог stable-diffusion-webui для текстовых моделей https://github.com/oobabooga/text-generation-webui ( который так же заявляет поддержку amd через rocm ) я так же открыл для себя глубокий мир очень больших открытых языковых моделей galactica (вплоть до galactica-120b) и OPT (вплоть до OPT-175b)

так, и как там на очень больших моделях с программированием? А с пониманием шуток? Галактика знает, в чем юмор "Колобок повесился"? А с объяснением анатомии Колобка - поймет?

Deliberate с пустым запросом почему-то в половине случаев рисует голых баб. :)

Звучит как реклама

Deliberate в любых непонятных случаях рисует голых баб. Иногда даже в понятных.

В любой непонятной ситуации рисуй голую бабу!

Наверное в коде прописано изучить историю браузера и предугадать ожидания.

У любой нейросети ограниченный объём знаний. Базовая модель может рисовать всё, но плохо. Кастомные модели могут рисовать что-то сильно лучше, зато остальное хуже. Поэтому большинство таких моделей обучают на порно/эротике для улучшения понимания анатомии, ну и соответственно при денойзе без гайданса (промпта) она склоняется к тому, на чём её обучали. Негативным промптом можно отбить уклон в обнажёнку, оставив качественную анатомию в целом. Могу ещё посоветовать Liberty и RealisticVision, последний даёт хорошие сцены без голых баб.

Ну и поскольку модель всё равно вероятностная, 100% гарантии отсутствия мутаций и странных рук никто не даст. Можно лишь эту вероятность повысить через разного рода эмбеддинги (типа Bad Hands) и генерации нескольких вариантов с последующим отбором из них наиболее удачных. В частности, проблема с руками связана с тем, что в датасетах никто не описывает их положение достаточно детально (например, вместо "holding/gripping a phone" могут написать "with a phone", так что модель связывает человека и телефон с соответствующими изображениями, но не улавливает их связь и роль руки в ней), и из-за этого сеть не привязывает изображение рук к конкретной ситуации. Остальные части тела удостаиваются большего внимания, такие как пол, взгляд, выражение лица, цвет глаз/волос и т.п., поэтому их модель распознаёт и рисует намного лучше.

То есть денойз без промпта — это тест Роршаха для нейронки, по которому можно диагностировать исходный датасет.

Поэтому большинство таких моделей обучают на порно/эротике для улучшения понимания анатомии, ну и соответственно при денойзе без гайданса (промпта) она склоняется к тому, на чём её обучали.

Скорее потому что на это есть большой спрос и первые люди которые дообучали обнаженку неплохо так с патреона денег собирали.

Анатомия, пальцы...
Недавно читал в одном TG канале:
в Китае разоблачили организаторов роскошной вечеринки: мошенников выдали "криво" сгенерированные пальцы моделей.

История началась с того, что внимание местных жителей из провинции Цзянсу привлекла яркая реклама вечеринки на яхте — организаторы обещали предоставить индивидуальные услуги "девушек-горничных" для VIP-клиентов.

Стоимость "личной горничной" на целый вечер была очень демократичной: всего 3 000 юаней (около $430). При этом половину суммы организаторы требовали перевести в качестве предоплаты.

Однако заинтересованные клиенты заподозрили неладное, когда обнаружили у девушек на фото проблемы с пальцами: они либо отсутствовали, либо были сильно деформированы.

В итоге оказалось, что мероприятие представляет из себя банальный скам, а фотографии были сгенерированы нейросетью.

Интересно а, как можно запустить на Nvidea GTX660 на ней 2 gb памяти и выдает ошибку. Есть ли возможности ? В документации , пока не понятно.

Все же запустил ! :) ./webui.sh --lowvram --precision full --no-half --skip-torch-cuda-test

model name : Intel(R) Core(TM) i7-4770K CPU @ 3.50GHz
stepping : 3
microcode : 0x28
cpu MHz : 4107.095
cache size : 8192 KB

MemTotal: 16 318 360 kB
MemFree: 959 780 kB

VGA compatible controller: NVIDIA Corporation GK106 [GeForce GTX 660] (rev a1) 270MiB / memTotal 1996MiB

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории