Pull to refresh
10
32
Марат Цконян @OrkBiotechnologist

Системный аналитик, техпис и немного биолог

Send message

Там ещё забавный момент, что 2024 стал для них первым годом когда они начали генерировать прибыль, а не выручку в минус.
Всё благодаря тому, что они начали продавать пользовательские данные для обучения ИИ.

https://9to5mac.com/2024/02/19/reddit-user-content-being-sold/
https://www.newsweek.com/social-media-platform-reddit-hits-first-profit-fueled-ai-feature-1977304

Пожалуйста!
Вам спасибо за прочтение и что ссылкой на ваш проект по расшифровке на Гитхабе поделились!

docker pull fedirz/faster-whisper-server:latest-cpu

Либо, если есть GPU - docker pull fedirz/faster-whisper-server:latest-cuda

В RAM маленький Whisper по идее должен влезть, но на счёт скорости инференса меня терзают сомнения.

Спасибо! Интересные данные.
Жаль конечно что 4090 Хуанг зажал VRAM, мог бы и побольше, чем у предшественника 3090 отсыпать.
Впрочем, если сливы по 5000 поколению верны, атракцион невиданной не-щедрости продолжится и дальше.

Конфигурация VPS для всех экспериментов остаётся незименной в рамках этого цикла с первого поста -

Ядер берём 4, хотя хотелось бы и побольше. Впрочем, всего хотелось бы побольше, но тогда уже не поместимся в 5000 рублей в месяц. А вот оперативки не жалеем и берём на весь оставшийся бюджет 12 гигабайт. ОС берём, конечно, Linux. За неимением возможности поставить свой ISO-шник выбираю CentOS — RPM-дистрибутивы мне почему-то нравятся больше, чем Debian и его отпрыск Ubuntu.

К сожалению точные данные замеров в процессе написания были утеряны, в отличие от первого поста где LLM тестировал. В следующем посте упомяну параллельно.

Из-за санкций не хотят светить или они ещё до торговой войны там решили не палиться?

Извинись(тм) дон и смени название дон, а иначе мы тебя забаним дон. (с)

На Reddit в угоду политкорректности как обычно недоговаривают, так как мужик которого забанили был членом проекта и волонтёрил за долго до того как LLM и ChatGPT конкретно, стали пригодны для автоматизации работы программиста.

https://www.youtube.com/watch?v=SLPVo6tsFXo&lc=UgzP0KBM6S8U2zB7_zp4AaABAg.ABajuV3tkgJABcI5Ah4xp2

Для мультимодальных моделей по типу LLaMA 3.2 разве используется llama.cpp? Но, там же до сих пор нету поддержки мультимодальных сеток умеющих в распознание изображений, 3.2 по крайней мере точно. Так что скорее всего Ollama какой-то свой скрипт для инференса писали, а не просто обёртку.

Плюс, они в целом судя по их документации ряд оптимизаций своих накидывают и там где llama.cpp точно используется.

Мда, досадно. Не менее досадно, что LLM судя по статистике от дата-центров гробят GPU также быстро как майнинг. И когда популярность спекулятивно раздутая пойдёт на спад, на рынке окажется много БУ железа далеко не лучшего качества.

Llama на 450 миллиардов параметров квантизированная до 4х битов по идее должна легко поместиться, как и всё что меньше. Из интересных моделей - Pixtral, но там всего 12B, Qwen-2VL и производные от него Molmo всякие.

Если докидывать карточки зелёных, то попробовать с БУшным железом, P40 и P100 так как там VRAM много и стоят они копейки. Но они технологически устарели, и тот же vLLM на них запускаться не хочет.
3090 с её 24 гигами ещё очень вкусное предложение, в моём регионе их БУ за 500-600 евро можно найти.

С карточками красных и ROCm ещё можно поэскпериментировать, в интернете большая часть тестов где люди жрут кактус и тестируют их из под Винды, но на Линукс по идее производительность должна быть сравнимой с карточками зелёных из аналогичного ценового сегмента. С поправкой на то, что у красных VRAM в среднем больше и токенов в секунду может и меньше, но модель большего размера можно засунуть.

Речь идёт о коммерческом сценарии применения, в рамках которого VPS на 12 гигов и 4 ядра является мини-демкой и прототипом.

Да и в целом, если это не стартап или микрокомпания, то размещать инфраструктуру дома как мне кажется не лучшая затея. Как минимум из соображений безопасности, особенно если сеть общая.

Злоключения при использование консольных утилит на Windows.

Спасибо что подметили, я как раз хотел рассмотреть вариант когда не всё в одно горло уходит LLM, но и про параллельно идущие процессы не забыли. Хочу попробовать без контейнеров, так как оперативки они в таких ужатых условиях отъедают заметно. Собственно из-за этого же Open Web UI с сервера на локальную машину вынес.

Вся «"безопасность"» Claude заключается в его большей степени кастрированности цензурой.
Где GPT-4o достаточно 1-2 ломающих логику запросов, для Claude 3.5 нужно городить целый сюжет, чтобы он выдал то, чего обычно не хочет.

Сравнивал LLaMA 3.2 1B и 3B, как в fp16, так и в q4.

Системный промпт пустой во всех тестах. В Ollama эти две модели ведут себя скорее как генераторы случайных слов, особенно при попытке спросить что-то на русском. На HuggingFace они же показывают способность к базовой коммуникации и пригодность их запихнуть как того же чат-бота к примеру в онлайн-магазин.

Зачем? Затем. Любое железо проверяют на что оно способно в целом и можно ли на нём запустить тот же Doom.

Обычная гражданская видеокарта будет крутить нейронки дома или в офисе, если нужен удалённый доступ не из дома/офиса и развёртывание какой-то инфраструктуры, то это либо colocation с размещением своего железа. Но это нужно весь сервак собирать, а не одну видюху, плюс платить за размещение в ЦОДе.
Либо VPS/частное облако и т.п., GPU-варианты которых стоят на порядок больше инференса на CPU.
И тут как раз в миниатюре можно проверить, что сможет осилить CPU.

Тут я просто не до конца объяснился, разница есть, но я проверял разную температуру и сравнивал Ollama с Transformers на HuggingFace и какую бы я не ставил, результат в Ollama был стабильно хуже.

1
23 ...

Information

Rating
221-st
Location
Alicante/Alacant, Испания
Works in
Date of birth
Registered
Activity

Specialization

Systems Analyst, Technical Writer
Middle
Python
C++
Linux
English
Docker
Journalism
Technical director
Interview
Support projects
CIO