jstmeowme 9 мая в 15:33

Новый агрегатор GPU от Kuzco: распределенный кластер на блокчейне Solana

2 мин

1.9K

Блог компании BotHubИскусственный интеллектКомпьютерное железоМонетизация IT-систем*

Комментарии 8

Идея конечно хорошая, возможность продавать и покупать мощности минуя какой то центр?
Но!..
Вот зашел я на сайт, и ничего не понятно, какая цена то? что за токены? какая их цена на рынке? где их купить продать?

Из доступных моделей только llama3-8b? кто же клиенты этой модели в обсуждаемом бизнес процессе? кому нужно платить за маленькую модель там где ее можно запустить на cpu с приемлемой скоростью, или на видеокарте 8Gb (т.е. почти любой игровой) без потери качества или на видеокартах 4Gb с потерей качества в 3-5% (это вообще почти на любом старье).

Сеть позволяет только запуск запросов к модели? нет finetuning? А свои веса? А как будущие клиенты скажут поставщикам GPU мощностей о том что они хотят?.. это я про то что нормальный рынок это когда не только берут что дают, но и предлагают свои пожелания (т.е. не только лимитные buy но и sell).

А как можно проверить что продавец вместо ожидаемой модели не подсунул более дешевую но тупую? А если на практике доказать, то как наказать?

Zibx 9 мая в 17:18

И облачный рендеринг туда же прикрутить чтоб сначала даёшь свою простаивающую GPU, а когда нужно — сцена в блендере рендерилась не час, а секунду. Все инди трёхмерщики с радостью бы пользовались.

GennPen 9 мая в 20:44

кому нужно платить за маленькую модель там где ее можно запустить на cpu с приемлемой скоростью

Простые модели, типа llama3-8b проще на GPU запустить и иметь отличную скорость.

RTX3080 Liama 3 8B Q4 выжимает 75-80 токенов/сек, Q6 - 55-60 т/с, Q8 - 50-55 т/с.

i7-13700K почти на порядок медленней, Q4 - 8.5 т/с, Q6 - 7.2 т/с, Q8 - 6.4 т/с.

GennPen 9 мая в 20:31

Вот лучше бы майнеры использовали свои мощности на нейросетки или рендеринг, а не пустое высчитывание хэшей.

Moog_Prodigy 10 мая в 00:07

Я думаю к этому придут тоже, как расписал комментатор выше - чтобы отдавать свою видеокарту сети, а когда надо - рендерить изображение не за час а за секунду. Уже есть проект Stable Horde, оно еще довольно сырое и подобного функционала не дает - условно говоря у энтузиастов в этой сети тоже такая же видяха как у тебя, и нет прироста в скорости. Твое задание уходит только одному воркеру и генерируется так же медленно. Зато позволяет генерировать когда видяхи вообще нет. Тоже куча технических сложностей - поддерживаются только самые распространенные модели, никаких плагинов типа контролнета и тд.

А вот как я вижу развитие подобного проекта - куча "воркеров" с условными 3060, одно задание раскидывается на много инстансов по кусочкам (честно говоря я не представляю как это должно работать), каждый "майнер" зарабатывает условные "SD-коины", которые может затем потратить в будущем для ускорения своих же генераций. Эти коины возможно будет продавать (тем, у кого например нет видеокарт), введение экономической составляющей может привлечь как владельцев видеокарт, так и обычных пользователей. В сухом остатке получаем - как раньше майнили на видеокартах, так и сейчас майним :) Но хоть польза есть. Либо в качестве денег, либо в скорости генерации.

Классические 3д рендеры вполне себе параллелятся. А вот нейронки...

И еще одна фантастическая мысль. Может быть, в будущем, из-за появления экономической составляющей нейронок как и криптовалют до того - создадут специализированые асики. Пусть одни будут для LLM, другие для SD условно говоря. С кучей памяти на борту, куда там A100. Накидал планок памяти и гоняй себе нейронку. Сами asic чипы можно сделать на частотах намного меньших, чем GPU видеокарт, ядра попроще, зато их можно напихать сотнями на одну плату-лезвие, и таких плат много. Но это только всего лишь моя буйная разыгравшаяся фантазия, ведь для такого в отрасль нужно привлечение миллиардов денег.

mazagama 10 мая в 04:24

По нейронкам есть вот такое. Правда пока не совсем понимаю как оно работает, но выглядит вполне интересно. Если кто шарит в этом, был бы рад пояснениям.

https://github.com/bigscience-workshop/petals

Moog_Prodigy 23 мая в 16:16

Судя по описанию, это очень похоже, на то что я описал, работает только с LLM, но и то хлеб. Интересно, сколько воркеров? Надо настраивать.

rajce 9 мая в 21:22

Тоже решил пощупать проект, запустил у себя их ПО, установилось одной строчкой в терминале, запустилась LLama-8b, и к ней идут какие-то запросы - несколько десятков в день, накапали поинты их. Не понял смысл в это действии, если такую простую модель можно запустить и самому. А вот модели на сотни миллиардов параметров уже не смогут работать в такой сети, т.к. в её основе лежат обычные ноутбуки и ПК, а не профессиональные карты вроде H100

Зарегистрируйтесь на Хабре, чтобы оставить комментарий