Pull to refresh
2
0
Send message

Это работает на уровне слухов. Нужно разбирать конкретные примеры. Там куча нюансов но основной тейк - смотря какая игра.

У меня буквально была система из атлона 4х ядерного на fm2 сокете и 4070ти. Большая часть игр работала отлично и выдавала мощные запасы. Работало хреново то, что очень много считало плавучку(по факту 2ядра с гипертредом) многопоток мультиплеер на +10 человек или симуляции, остальные 80% игр летали отлично.

По ощущениям ответ более сухой получается, но не у всех так. Некоторые умело игнорируют этот промт, надо на конкретных моделях тестить.

Это беда, объективно посчитать мощность процессора. Но в целом логично, что если упор в TDP то надо считать метрики, если нет упора то лучше TDP. Но и с ним проблемы бывают, допустим на гибридных системах у тебя подсистема IO жрёт 15Вт, Е ядра 45Вт И ядра 70Вт, но так ли это? Вдруг E ядра отдыхают, а на самом деле Р ядра пашут на всю?

Это тема отлично подходит под GPU, из-за того что там нету возможности перепланировать конвейер на блокировках, бывает такое что видеокарта пишет 100% а по факту 15Вт всего.

Ну, когда ты стыришь 100М у гос-ва то неожиданно для себя узнаешь что у них есть вся твоя переписка из телеги. После увиденного понимаю почему люди с ума сходят и создают "приватный интернет", и вообще бумагой пользуются)

У "обычных пользователей" есть тема про "раскрытие протанцевала". Их много и они хорошо маскируются под "знающих".

Я когда торговлей занимался там 70-80% было раскрывателей по гайдам. На вопрос почему вы не берёте 3070ти а 3060, мне говорили - "процессор видяху не раскроет".

Уже стандартизируют "ИИ-шейдеры", в целом роль ИИ в таких вещах будет сильно ограничены, но на основе этого можно будет строить новый класс архитектур. Условно, ИИ извлекает где лучи для кадра будут приоритетнее и вероятностно считает откуда их лучше пустить, чтоб лишние ресурсы не тратить. А так хз-хз

Составил системный промт типа: ответь избегая когнитивных ошибок человеческого мышления которые могут возникнуть в при ответе на вопрос пользователя. Перечисли их в начале ответа
Забавно что малые модели не сильно меняют суть ответа, но стиль меняется сильно. Условно вместо "Есть А, есть Б, есть В, а вообще это всё Г" отвечает в формате "Ответ на ваш вопрос: А и Г. но иногда Б и В"

Так понимаю, масштабировать дорого, практическое применение в мелких встроенных системах где экономичность главное

Проблема не в масштабировании а в интерпретации и обучении. Обучать большие спайковые сети правильными методами долго, у прецептрона можно закинуть весь интернет и он за день тебе его переварит.
Интерпретируемость в основном - как перевести результат в двоичный вид? У нас есть карта активаций по времени, как их перевести в классические float? Это повторяемый результат? Есть ли какие-то однозначные тесты где покажется что в 100 случаях из 100 одинаковая реакция?

В итоге спайковые имеет смысл применять только в военке и робототехнике. Можно построить всю логику на спайковых компонентах, получив адскую скорость отклика при минимальном энергопотреблении. Даже зрение можно реализовать через нейроморфные камеры, что уже делают в рамках исследований и результаты там впечатляющие.

Но если серьезно - много мелких моделей не заменят большую

Недавно тесты проводил, походу заменят... Ансамбль разных нейросетей невероятно хорошо решают задачи. На приколе запустил 6 разных 8В нейросеток и они за приемлимое время писали рабочий код, когда каждая из них по одиночке пишет херню.

Задачи были относительно тривиальны, по ТЗ работать с сокетами или написать консольную игру. Но удивляет что после долго срача, когда все нейронки приходят к консенсусу, ошибки могут быть максимум синтаксические. Довольно занимательно...

Но результаты зависят от сеток, вот недавно GPT с Qwen сраться заставил, GPT в итоге ушёл в отрицалово мол он во всём прав и задавил Qwen своим мнением, лол

Они есть, прогресс даже идёт, но темп совершенно не впечатляет) Уже разобрались в целом как бионейроны обучаются, и как это моделировать в железе без особых проблем, только интересна эта тема в серьёз 2.5 студентам) Гораздо больше можно получить решая проблемы, а не создавая новые.

Работаю с опенсорсными версиями, могу сказать что там GPT слишком упорствует в своей правоте. Доходит до абсурдного, что когда одна модель пытается доказать GPT какую-то идею, GPT тупо уходит в отрицалово и морально душит другие модели и те в итоге соглашаются что их критика "не обоснована".

У меня было несколько попыток таких экспериментов, довольно забавно.

И ещё из моих выводов: Qwen не очень хочет спорить и соглашаетсяс аргументами, а gemma пытается "принять точку зрения" чтоб понять о чём говорят

Крутая штука для VR может выйти. Там не проблема локально гонять поток в +400МБит, проблема пожать картинку за приемлемое время. Если транскодирование будет занимать условных 8мс, из которых 7мс сеть, то это будет своего рода микрореволюция! Сейчас самые крутые задержки которые только получается у меня выжать на Pico это 20мс. Из которых сеть 6мс на wifi5

Беда что большинство реально хороших архитектур плохо ложаться на цифровые вычислители. Есть отличные самообучающиеся сети, которые вроде и круче, но требуют х10 времени на обучение/ответ. Есть хорошие архитектуры которые позволяют упорядочивать образы как вектора в пространстве, но на фактических данных разницы ReLu DeepL, той же вычислительной сложности, - нет. (Они есть но только в пипец шумных данных)

И в итоге нахерачить ReLu + фигануть матрицу и сделать так 32B параметров выгоднее, чем пилить что-то "математически/семантически правильное". Обучать большие сети уже умеют, просто пилим пока пилиться а там посмотрим.

ЗЫ. Есть ещё направление спайковых сетей, но там сами не понимают что они делают и как это в железе реализовать, как обучать и всё такое. Но если найти как правильно сделать под конкретную задачу то результаты впечатляющие...

Производительность набить можно, вопрос в эффективности под конкретные задачи. Условно будет...

Можно ли считать на тензорный ускорителях? Можно! Мощнее ли они типичных GPGPU решений? Конечно! У нас целых 160TFlops! Какая производительность будет не в матричных операциях? Ну.... Для скаляров раз в 16 медленнее обычных... Но мы стараемся исправить это и сделать всего в 8 раз медленнее!

Ставил через LMStudio DeepSeek R1 на двухсокетную железку. Видеокарт нет (есть HD4800) Ест порядка 200-240ГБ работает от 5-0.5 токен\с в диапазоне 0-8192 токенов. При этом крутится на одном сокете, если можно как-то на 2 сокете запустить, буду признателен.

По памяти всё весело, RDIMM=256ГБ, LRDIMM=512ГБ, цена вопроса LRDIMM на 512 около 50-60Кр на 08.2025 (2400МТ, к сожалению больше не тянет)

Для инференса на CPU имеет смысл купить более новые Xeon, которые 6 поточные. EPIC 7К рекомендую только если GPU сервер делать, ибо там память быстрее и больше (1ТБ изи) но ядра слабее ощутимо. (2699v4 почти 2TFlops выдаёт, когда "народные" 7К еле-еле 1TFlops)

Сборка сервера из говна и палок очень сложная задача)

Закупить память на 512ГБ стоит около 50К рублей, на EPIC из-за 8канала можно за х2 собрать 1ТБ. LRDIMM модули на 64ГБ можно за 6-7К найти.

На счёт EPIC, китайцы продают относительно доступные сборки на 7000х серии за 100-150К можно собрать себе даже 2х сокетные версии, но там обычно очень мало PCIe слотов. Учитывая что на БУ рынке появились интересные видеокарты с 32ГБ VRAM за 20К рублей, это уже сомнительная покупка. (Причина дешёвости - прекращение поддержки ПО. Обнов больше не будет)

Самое грустное что все новомодные "AI системы для смертных" не годятся в реальном использовании из-за медленной памяти...

На удивление не всё так однозначно. Xeon 2699v4 показал мне почти 2ТФлопса мощей, в то время как ноутбучный процессор около 1ТФлопса. Из-за чего отрыв в некоторых нагрузках относительно ощутимый, даже с учётом того что память у Xeon DDR4-2133МТ, что на ~10-15% хуже чем если бы было 2400. Но у GPT-OSS упор всё-же в память, у других наоборот.

Интересно что я думал купить EPIC, но там плавучка в разы слабее, но память быстрее работает(8 канал). Нигде нету золотой середины...)

Ну потому его классическую реализацию и не использовали для +3 скрытых слоёв, из-за неоднозначных результатов, а потом придумали "градиент бустинг" которые там как-то деревья хитрые строил и резко появился термин "Глубокие обучение". И дальше народ начал развлекаться, вплоть до сеток где по сотни слоёв вообще не проблема

Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.

Мне интересна настройки моделей под неизвестное оборудование. Некий движок который бы сам находил оптимальные конфигурации под железо и сам раскидывал слои на разные вычислительные юниты или строил полноценный вычислительный граф, хз-хз. Сам не потяну за приемлемое время, а вот с "умными LLM" уже хз.

Но если серьезно - много мелких моделей не заменят большую. 

Лично мне и не нужны большие. У меня много довольно тривиальных задач которые малые модели отлично выполняют. Не перегружаю их контекстом и задаю чисто одну конкретную задачку. Единственное мне бы пригодилась большая модель для разработки стратегий, ибо малые хоть и справляются, но мне приходится накидывать Graph-RAG'ами контекст и пылесосить кучу книжек чтоб этот граф составить, а потом предоставлять модели все детали, что муторно.

Из личных тестов нашёл что малые сетки хорошо работают если мало инфы\контекст и задача конкретная. После примерно 8B показывают практическую пользу, до это просто штуки которые "что-то помнят". МоЕ в этом плане спасение, можно довольно много знаний и умений уместить в небольшую сетку, это просто космос, лишь бы ОЗУ\Видеокарт хватило.

У меня на сокет 128ГБ, думаю должно хватить)

У меня как раз пакетная обработка должна быть. Надо всякие метрики в параллели извлекать. Заметил что LLM лучше работают если явно графы или данные задавать. Банально если текст переводить и предварительно извлечь имена собственные то оно перестаёт ошибаться в этом моменте.

З.Ы. Вот и меня напрягает что в теории у нас должно всё работать, а на практике как-то хреново. Вроде в llama.cpp есть флаги для работы с NUMA, но пока не тестил ничего. Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...

З.З.Ы. У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями. У меня получается где-то 10 агентов на одну китайскую железку, должно нормально по скорости работать.
(На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах)

1
23 ...

Information

Rating
Does not participate
Registered
Activity