Shannon 8 апр 2023 в 22:01

Локальные нейросети (генерация картинок, локальный chatGPT). Запуск Stable Diffusion на AMD видеокартах

Простой

5 мин

79K

Машинное обучение*Искусственный интеллект

+57

Комментарии 22

css0101 9 апр 2023 в 01:27

Интересно было бы почитать про Zero-Shot Text-Guided Object Generation with Dream Fields.

Kogolbok 9 апр 2023 в 04:20

Все говорят про Alpaca и Llama. А их, вроде как, стырили у Цукерберга. Неужели нет СВОБОДНЫХ проектов текстового ИИ? Вот бы кто прошёлся по ним, сравнил и написал статью. Я просто мимокрокодил, но совсем не против был бы побаловаться с чем-то на своём компьютере.

Evengard 9 апр 2023 в 07:45

Как бы есть Gpt-j, но до Лламы она вроде не дотягивает. Не говоря уже о Gpt-4

Inkor 9 апр 2023 в 15:59

Ну можешь глянуть тут.

https://arxiv.org/abs/2303.18223

Но не от больших корпораций сеток немного BLOOM, gpt-j и т.д. Просто потому что языковые модели самые большие монстры в плане требований на компьютерные вычисления при обучении. И если не можешь себе позволить пару сотен a100 на несколько месяцев, то с нуля ты ничего не сделаешь. Поэтому языковыми моделями в основном занимаются только большие ребята.

Tamul 9 апр 2023 в 18:33

А как это оценить количественно? Вот скажем есть 13B-моделька Llama (или любая другая похожего уровня), и есть статья из Википедии на 1500 символов. Какие мощности, объёмы памяти и сроки нужны, чтобы обученную сетку дообучить на статье?

Tamul 9 апр 2023 в 18:54

(Если что, я не про конкретные цифры, а про положение между полюсами "8-ядерный процессор сможет править веса исходной сетки эквивалентно упихиванию в неё 1000 токенов минут за 5, лишь бы ОЗУ хватило" и "Нее, вам понадобятся минимум 32 штуки а100 и по паре часов времени на те же 1000 токенов)

Inkor 10 апр 2023 в 06:39

Тут

https://arxiv.org/pdf/2203.15556.pdf

это наиболее влиятельная работа по оценке оптимальной тренировки языковых моделей для заранее заданных вычислительных бюджетов.

Kristaller486 9 апр 2023 в 16:18

Я пытался погрузится в эту тему, у меня даже получилось что-то собрать. В итоге: моделей уровня GPT-3, кроме LLaMA, нет, но есть хорошие нейронки уровнем пониже, которые запускаются на условно-домашних компьютерах и абсолютно свободные, под Apache 2. Например, GPT-NEOX, GPT-NEOXT, Pythia. Все они выдают человеко-читаемый текст, но как чат-википедию их использовать не получится - мало знают и много врут.

mm3 9 апр 2023 в 04:21

открыв для себя аналог stable-diffusion-webui для текстовых моделей https://github.com/oobabooga/text-generation-webui ( который так же заявляет поддержку amd через rocm ) я так же открыл для себя глубокий мир очень больших открытых языковых моделей galactica (вплоть до galactica-120b) и OPT (вплоть до OPT-175b)

Zoolander 9 апр 2023 в 06:02

так, и как там на очень больших моделях с программированием? А с пониманием шуток? Галактика знает, в чем юмор "Колобок повесился"? А с объяснением анатомии Колобка - поймет?

Fedorkov 9 апр 2023 в 14:21

Deliberate с пустым запросом почему-то в половине случаев рисует голых баб. :)

masterKub 9 апр 2023 в 19:12

Звучит как реклама

css0101 9 апр 2023 в 21:58

Deliberate в любых непонятных случаях рисует голых баб. Иногда даже в понятных.

Kenya-West 10 апр 2023 в 08:50

В любой непонятной ситуации рисуй голую бабу!

onegreyonewhite 10 апр 2023 в 00:56

Наверное в коде прописано изучить историю браузера и предугадать ожидания.

rkfg 10 апр 2023 в 10:57

У любой нейросети ограниченный объём знаний. Базовая модель может рисовать всё, но плохо. Кастомные модели могут рисовать что-то сильно лучше, зато остальное хуже. Поэтому большинство таких моделей обучают на порно/эротике для улучшения понимания анатомии, ну и соответственно при денойзе без гайданса (промпта) она склоняется к тому, на чём её обучали. Негативным промптом можно отбить уклон в обнажёнку, оставив качественную анатомию в целом. Могу ещё посоветовать Liberty и RealisticVision, последний даёт хорошие сцены без голых баб.

Ну и поскольку модель всё равно вероятностная, 100% гарантии отсутствия мутаций и странных рук никто не даст. Можно лишь эту вероятность повысить через разного рода эмбеддинги (типа Bad Hands) и генерации нескольких вариантов с последующим отбором из них наиболее удачных. В частности, проблема с руками связана с тем, что в датасетах никто не описывает их положение достаточно детально (например, вместо "holding/gripping a phone" могут написать "with a phone", так что модель связывает человека и телефон с соответствующими изображениями, но не улавливает их связь и роль руки в ней), и из-за этого сеть не привязывает изображение рук к конкретной ситуации. Остальные части тела удостаиваются большего внимания, такие как пол, взгляд, выражение лица, цвет глаз/волос и т.п., поэтому их модель распознаёт и рисует намного лучше.

Fedorkov 10 апр 2023 в 17:45

То есть денойз без промпта — это тест Роршаха для нейронки, по которому можно диагностировать исходный датасет.

Inkor 11 апр 2023 в 06:35

Поэтому большинство таких моделей обучают на порно/эротике для улучшения понимания анатомии, ну и соответственно при денойзе без гайданса (промпта) она склоняется к тому, на чём её обучали.

Скорее потому что на это есть большой спрос и первые люди которые дообучали обнаженку неплохо так с патреона денег собирали.

alekssamos 9 апр 2023 в 15:54

Анатомия, пальцы...
Недавно читал в одном TG канале:
в Китае разоблачили организаторов роскошной вечеринки: мошенников выдали "криво" сгенерированные пальцы моделей.

История началась с того, что внимание местных жителей из провинции Цзянсу привлекла яркая реклама вечеринки на яхте — организаторы обещали предоставить индивидуальные услуги "девушек-горничных" для VIP-клиентов.

Стоимость "личной горничной" на целый вечер была очень демократичной: всего 3 000 юаней (около $430). При этом половину суммы организаторы требовали перевести в качестве предоплаты.

Однако заинтересованные клиенты заподозрили неладное, когда обнаружили у девушек на фото проблемы с пальцами: они либо отсутствовали, либо были сильно деформированы.

В итоге оказалось, что мероприятие представляет из себя банальный скам, а фотографии были сгенерированы нейросетью.

roverseti 15 апр 2023 в 13:07

Интересно а, как можно запустить на Nvidea GTX660 на ней 2 gb памяти и выдает ошибку. Есть ли возможности ? В документации , пока не понятно.

roverseti 15 апр 2023 в 14:17

Все же запустил ! :) ./webui.sh --lowvram --precision full --no-half --skip-torch-cuda-test

model name : Intel(R) Core(TM) i7-4770K CPU @ 3.50GHz
stepping : 3
microcode : 0x28
cpu MHz : 4107.095
cache size : 8192 KB

MemTotal: 16 318 360 kB
MemFree: 959 780 kB

VGA compatible controller: NVIDIA Corporation GK106 [GeForce GTX 660] (rev a1) 270MiB / memTotal 1996MiB

Shannon 15 мая 2023 в 15:15

Появилась Alpaca 65B (а также в формате 5bit): https://huggingface.co/TheBloke/alpaca-lora-65B-GGML
Для запуска требуется обновить llama.cpp и 50гб оперативной памяти.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий