Но ввиду того, что это всё добровольно-индивидуально, то доступность моделей и размеры очередей соответствующие. Ну и никаких гарантий, что по ту сторону API действительно модель работает, а не группа специально обученных индусов.
Про ферму сказать не могу, но при прочих "условно равных", 1070 заметно медленее условной 6900XT.
В LLM многое решает пропускная способность памяти. По карточкам с Techpowerup, у 1070 эта цифра - 256.3 GB/s, у 4060Ti - 288 GB/s, у 6900ХТ - 512 GB/s, у 4090 - 1.01 TB/s.
"After tackling classic Winamp skins it was only natural that I should be curious about modern skins, and I was! Could I get modern skins to run in the browser?"
Генерацию текста я б малине доверять не стал, тут как раз можно использовать облако\runpod. А вот анализ голоса и синтез TTS - это запросто. У spchat заявлена поддержка RPi4, Piper как раз изначально под малину делали.
Отредактировать комментарий уже не могу, поэтому раскрою мысль отдельно.
llamacpp - позволяет запускать GGUF-модели. Основной плюс - умеет делить модель между VRAM и RAM, и запускать модели целиком из RAM, хоть и с огромным ударом по скорости. На маках М-серии удар не такой сильный, там вполне можно использовать для запуска +70B.
KoboldCPP - питоний гуй поверх llamacpp, в основном удобен именно тем, что настройки можно нащёлкать вместо написания простыней в командной строке. Бонусом интегрирует в себя веб-интерфейс, Whisper STT (преобразование речи в текст) и SD.cpp (переделка StableDiffusion на крестах). Есть форк с интеграцией ROCm для запуска на Radeon.
TabbyAPI - реализация EXL2. Работает быстрее, чем llama, и не тормозит при большом размере контекста. Главный минус - жёстко ограничен размерами VRAM, не умеет отгружать "лишние" части модели в RAM.
vLLM - почти чистый Transformers, умеет загружать "оригинальные" модели. Вроде как умеет отгружать лишнее в RAM, но в целом больше заточен под работу с GPU-фермами. Главный минус - модели на FP16 зело жирные (Llama 3 8B в FP16 весит 16 гигабайт сама по себе, а ведь ещё память под контекст нужна). Есть методы "сжатия" NF4 и bitsandbytes, но они сильно бьют по "умственным" способностям модели. Насколько мне известно, это единственный способ запустить vision-модели не прибегая к костылям с подгрузкой внешнего mmproj.
oobabooga - огромный комбайн из всего и вся, позволяет запускать модели, смешивать их, перетренировывать, писать бенчмарки и ещё по мелочи. Сам по себе модели не запускает, но в комплекте идут несколько разных движков (AWQ, GPTQ, EXL2, Llamacpp и чистый Transformers) и REST API для генерации текста.
Магазин приложений вроде как работает, а вот обновления прошивки с сервера стянуть - это уже проблема. Причём на шлеме это ещё можно обойти через андроидовский WireGuard, а вот с Touch Pro такой фокус уже не катит.
Вроде того. Разработчик может повесить заглушку типа "у вас приложение некошерное, скачайте из GP", насколько я понимаю. Вполне себе usecase для приложений от банков, например, чтоб пользователей отучить ставить версии с APKPure.
Т.е. давайте под шумок выпилим меинтейнеров из всех тех стран, которые волею судьбы оказались в составе СССР на момент Финской войны? Нравы и идеи-то общие, получается.
Может, и можно. Просто в сообщении выглядит как ни к селу, ни к городу.
Личное ИМХО - для меня это на том же уровне, что и "бывшие" россияне, которые уехали в условную Латвоманию, а потом оттуда рассказывают, какая Россия на самом деле замечательная страна, и как они ею гордятся изо всех щелей. Вот только обратно что-то ехать не хотят.
То ли дело когда свободно-демократический ChatGPT отваливается посреди ответа про Дэвида Майера [де Ротшильда].
Так оно есть, с оговорками: https://github.com/exo-explore/exo
Есть добровольные бесплатные хостеры: https://aihorde.net/
Но ввиду того, что это всё добровольно-индивидуально, то доступность моделей и размеры очередей соответствующие. Ну и никаких гарантий, что по ту сторону API действительно модель работает, а не группа специально обученных индусов.
Попробовал сделать замеры через hdparm, получилось... странно.
mmcblk0 - eMMC, mmcblk1 - SD-карта.
Ощущение, будто оно какие-то пятна на солнце "замеряет".
Грузиться с секундомером не стал, вместо этого ради интереса потыкал dd на OrangePi, благо что моя модель оснащена тремя типами дисков.
Контекст: nvme - это просто папка (ОС запущена с NVMe), emmc и flash - это маунты на eMMC и Samsung PRO Plus microSDXC соответственно.
eMMC - это, вроде бы, те же SD, только припаянные.
Про ферму сказать не могу, но при прочих "условно равных", 1070 заметно медленее условной 6900XT.
В LLM многое решает пропускная способность памяти. По карточкам с Techpowerup, у 1070 эта цифра - 256.3 GB/s, у 4060Ti - 288 GB/s, у 6900ХТ - 512 GB/s, у 4090 - 1.01 TB/s.
"After tackling classic Winamp skins it was only natural that I should be curious about modern skins, and I was! Could I get modern skins to run in the browser?"
Для вас будет не ЕГЭ, по-идее, а внутренние экзамены ВУЗа. Хотя они их как-то сравнивают с результатами тех, кто по ЕГЭ поступал.
Генерацию текста я б малине доверять не стал, тут как раз можно использовать облако\runpod. А вот анализ голоса и синтез TTS - это запросто. У spchat заявлена поддержка RPi4, Piper как раз изначально под малину делали.
Отредактировать комментарий уже не могу, поэтому раскрою мысль отдельно.
llamacpp - позволяет запускать GGUF-модели. Основной плюс - умеет делить модель между VRAM и RAM, и запускать модели целиком из RAM, хоть и с огромным ударом по скорости. На маках М-серии удар не такой сильный, там вполне можно использовать для запуска +70B.
KoboldCPP - питоний гуй поверх llamacpp, в основном удобен именно тем, что настройки можно нащёлкать вместо написания простыней в командной строке. Бонусом интегрирует в себя веб-интерфейс, Whisper STT (преобразование речи в текст) и SD.cpp (переделка StableDiffusion на крестах). Есть форк с интеграцией ROCm для запуска на Radeon.
TabbyAPI - реализация EXL2. Работает быстрее, чем llama, и не тормозит при большом размере контекста. Главный минус - жёстко ограничен размерами VRAM, не умеет отгружать "лишние" части модели в RAM.
vLLM - почти чистый Transformers, умеет загружать "оригинальные" модели. Вроде как умеет отгружать лишнее в RAM, но в целом больше заточен под работу с GPU-фермами. Главный минус - модели на FP16 зело жирные (Llama 3 8B в FP16 весит 16 гигабайт сама по себе, а ведь ещё память под контекст нужна). Есть методы "сжатия" NF4 и bitsandbytes, но они сильно бьют по "умственным" способностям модели. Насколько мне известно, это единственный способ запустить vision-модели не прибегая к костылям с подгрузкой внешнего mmproj.
oobabooga - огромный комбайн из всего и вся, позволяет запускать модели, смешивать их, перетренировывать, писать бенчмарки и ещё по мелочи. Сам по себе модели не запускает, но в комплекте идут несколько разных движков (AWQ, GPTQ, EXL2, Llamacpp и чистый Transformers) и REST API для генерации текста.
ComfyUI тут не при чём, гуглите TabbyAPI, KoboldCCP и oobabooga.
Магазин приложений вроде как работает, а вот обновления прошивки с сервера стянуть - это уже проблема. Причём на шлеме это ещё можно обойти через андроидовский WireGuard, а вот с Touch Pro такой фокус уже не катит.
Вроде того. Разработчик может повесить заглушку типа "у вас приложение некошерное, скачайте из GP", насколько я понимаю. Вполне себе usecase для приложений от банков, например, чтоб пользователей отучить ставить версии с APKPure.
Т.е. давайте под шумок выпилим меинтейнеров из всех тех стран, которые волею судьбы оказались в составе СССР на момент Финской войны? Нравы и идеи-то общие, получается.
Может, и можно. Просто в сообщении выглядит как ни к селу, ни к городу.
Личное ИМХО - для меня это на том же уровне, что и "бывшие" россияне, которые уехали в условную Латвоманию, а потом оттуда рассказывают, какая Россия на самом деле замечательная страна, и как они ею гордятся изо всех щелей. Вот только обратно что-то ехать не хотят.
Эк у него душа-то болит за Карелию, будучи гражданином США, проживающим в США, последние лет 14.
Более того, у openjdk в репо написано, что их образы помечены как deprecated. Вместо них предлагают использовать образы amazoncorretto, они сделаны на базе образа amazonlinux, который собран от alpine 3.17.
Видимо, та самая "эффективная коммуникация" из числа их ценностей
А есть статьи на Хабре/разборы по этому поводу? Звучит как крайне интересная история.