Это работает на уровне слухов. Нужно разбирать конкретные примеры. Там куча нюансов но основной тейк - смотря какая игра.
У меня буквально была система из атлона 4х ядерного на fm2 сокете и 4070ти. Большая часть игр работала отлично и выдавала мощные запасы. Работало хреново то, что очень много считало плавучку(по факту 2ядра с гипертредом) многопоток мультиплеер на +10 человек или симуляции, остальные 80% игр летали отлично.
Это беда, объективно посчитать мощность процессора. Но в целом логично, что если упор в TDP то надо считать метрики, если нет упора то лучше TDP. Но и с ним проблемы бывают, допустим на гибридных системах у тебя подсистема IO жрёт 15Вт, Е ядра 45Вт И ядра 70Вт, но так ли это? Вдруг E ядра отдыхают, а на самом деле Р ядра пашут на всю?
Это тема отлично подходит под GPU, из-за того что там нету возможности перепланировать конвейер на блокировках, бывает такое что видеокарта пишет 100% а по факту 15Вт всего.
Ну, когда ты стыришь 100М у гос-ва то неожиданно для себя узнаешь что у них есть вся твоя переписка из телеги. После увиденного понимаю почему люди с ума сходят и создают "приватный интернет", и вообще бумагой пользуются)
У "обычных пользователей" есть тема про "раскрытие протанцевала". Их много и они хорошо маскируются под "знающих".
Я когда торговлей занимался там 70-80% было раскрывателей по гайдам. На вопрос почему вы не берёте 3070ти а 3060, мне говорили - "процессор видяху не раскроет".
Уже стандартизируют "ИИ-шейдеры", в целом роль ИИ в таких вещах будет сильно ограничены, но на основе этого можно будет строить новый класс архитектур. Условно, ИИ извлекает где лучи для кадра будут приоритетнее и вероятностно считает откуда их лучше пустить, чтоб лишние ресурсы не тратить. А так хз-хз
Составил системный промт типа: ответь избегая когнитивных ошибок человеческого мышления которые могут возникнуть в при ответе на вопрос пользователя. Перечисли их в начале ответа Забавно что малые модели не сильно меняют суть ответа, но стиль меняется сильно. Условно вместо "Есть А, есть Б, есть В, а вообще это всё Г" отвечает в формате "Ответ на ваш вопрос: А и Г. но иногда Б и В"
Так понимаю, масштабировать дорого, практическое применение в мелких встроенных системах где экономичность главное
Проблема не в масштабировании а в интерпретации и обучении. Обучать большие спайковые сети правильными методами долго, у прецептрона можно закинуть весь интернет и он за день тебе его переварит. Интерпретируемость в основном - как перевести результат в двоичный вид? У нас есть карта активаций по времени, как их перевести в классические float? Это повторяемый результат? Есть ли какие-то однозначные тесты где покажется что в 100 случаях из 100 одинаковая реакция?
В итоге спайковые имеет смысл применять только в военке и робототехнике. Можно построить всю логику на спайковых компонентах, получив адскую скорость отклика при минимальном энергопотреблении. Даже зрение можно реализовать через нейроморфные камеры, что уже делают в рамках исследований и результаты там впечатляющие.
Но если серьезно - много мелких моделей не заменят большую
Недавно тесты проводил, походу заменят... Ансамбль разных нейросетей невероятно хорошо решают задачи. На приколе запустил 6 разных 8В нейросеток и они за приемлимое время писали рабочий код, когда каждая из них по одиночке пишет херню.
Задачи были относительно тривиальны, по ТЗ работать с сокетами или написать консольную игру. Но удивляет что после долго срача, когда все нейронки приходят к консенсусу, ошибки могут быть максимум синтаксические. Довольно занимательно...
Но результаты зависят от сеток, вот недавно GPT с Qwen сраться заставил, GPT в итоге ушёл в отрицалово мол он во всём прав и задавил Qwen своим мнением, лол
Они есть, прогресс даже идёт, но темп совершенно не впечатляет) Уже разобрались в целом как бионейроны обучаются, и как это моделировать в железе без особых проблем, только интересна эта тема в серьёз 2.5 студентам) Гораздо больше можно получить решая проблемы, а не создавая новые.
Работаю с опенсорсными версиями, могу сказать что там GPT слишком упорствует в своей правоте. Доходит до абсурдного, что когда одна модель пытается доказать GPT какую-то идею, GPT тупо уходит в отрицалово и морально душит другие модели и те в итоге соглашаются что их критика "не обоснована".
У меня было несколько попыток таких экспериментов, довольно забавно.
И ещё из моих выводов: Qwen не очень хочет спорить и соглашаетсяс аргументами, а gemma пытается "принять точку зрения" чтоб понять о чём говорят
Крутая штука для VR может выйти. Там не проблема локально гонять поток в +400МБит, проблема пожать картинку за приемлемое время. Если транскодирование будет занимать условных 8мс, из которых 7мс сеть, то это будет своего рода микрореволюция! Сейчас самые крутые задержки которые только получается у меня выжать на Pico это 20мс. Из которых сеть 6мс на wifi5
Беда что большинство реально хороших архитектур плохо ложаться на цифровые вычислители. Есть отличные самообучающиеся сети, которые вроде и круче, но требуют х10 времени на обучение/ответ. Есть хорошие архитектуры которые позволяют упорядочивать образы как вектора в пространстве, но на фактических данных разницы ReLu DeepL, той же вычислительной сложности, - нет. (Они есть но только в пипец шумных данных)
И в итоге нахерачить ReLu + фигануть матрицу и сделать так 32B параметров выгоднее, чем пилить что-то "математически/семантически правильное". Обучать большие сети уже умеют, просто пилим пока пилиться а там посмотрим.
ЗЫ. Есть ещё направление спайковых сетей, но там сами не понимают что они делают и как это в железе реализовать, как обучать и всё такое. Но если найти как правильно сделать под конкретную задачу то результаты впечатляющие...
Производительность набить можно, вопрос в эффективности под конкретные задачи. Условно будет...
Можно ли считать на тензорный ускорителях? Можно! Мощнее ли они типичных GPGPU решений? Конечно! У нас целых 160TFlops! Какая производительность будет не в матричных операциях? Ну.... Для скаляров раз в 16 медленнее обычных... Но мы стараемся исправить это и сделать всего в 8 раз медленнее!
Ставил через LMStudio DeepSeek R1 на двухсокетную железку. Видеокарт нет (есть HD4800) Ест порядка 200-240ГБ работает от 5-0.5 токен\с в диапазоне 0-8192 токенов. При этом крутится на одном сокете, если можно как-то на 2 сокете запустить, буду признателен.
По памяти всё весело, RDIMM=256ГБ, LRDIMM=512ГБ, цена вопроса LRDIMM на 512 около 50-60Кр на 08.2025 (2400МТ, к сожалению больше не тянет)
Для инференса на CPU имеет смысл купить более новые Xeon, которые 6 поточные. EPIC 7К рекомендую только если GPU сервер делать, ибо там память быстрее и больше (1ТБ изи) но ядра слабее ощутимо. (2699v4 почти 2TFlops выдаёт, когда "народные" 7К еле-еле 1TFlops)
Сборка сервера из говна и палок очень сложная задача)
Закупить память на 512ГБ стоит около 50К рублей, на EPIC из-за 8канала можно за х2 собрать 1ТБ. LRDIMM модули на 64ГБ можно за 6-7К найти.
На счёт EPIC, китайцы продают относительно доступные сборки на 7000х серии за 100-150К можно собрать себе даже 2х сокетные версии, но там обычно очень мало PCIe слотов. Учитывая что на БУ рынке появились интересные видеокарты с 32ГБ VRAM за 20К рублей, это уже сомнительная покупка. (Причина дешёвости - прекращение поддержки ПО. Обнов больше не будет)
Самое грустное что все новомодные "AI системы для смертных" не годятся в реальном использовании из-за медленной памяти...
На удивление не всё так однозначно. Xeon 2699v4 показал мне почти 2ТФлопса мощей, в то время как ноутбучный процессор около 1ТФлопса. Из-за чего отрыв в некоторых нагрузках относительно ощутимый, даже с учётом того что память у Xeon DDR4-2133МТ, что на ~10-15% хуже чем если бы было 2400. Но у GPT-OSS упор всё-же в память, у других наоборот.
Интересно что я думал купить EPIC, но там плавучка в разы слабее, но память быстрее работает(8 канал). Нигде нету золотой середины...)
Ну потому его классическую реализацию и не использовали для +3 скрытых слоёв, из-за неоднозначных результатов, а потом придумали "градиент бустинг" которые там как-то деревья хитрые строил и резко появился термин "Глубокие обучение". И дальше народ начал развлекаться, вплоть до сеток где по сотни слоёв вообще не проблема
Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.
Мне интересна настройки моделей под неизвестное оборудование. Некий движок который бы сам находил оптимальные конфигурации под железо и сам раскидывал слои на разные вычислительные юниты или строил полноценный вычислительный граф, хз-хз. Сам не потяну за приемлемое время, а вот с "умными LLM" уже хз.
Но если серьезно - много мелких моделей не заменят большую.
Лично мне и не нужны большие. У меня много довольно тривиальных задач которые малые модели отлично выполняют. Не перегружаю их контекстом и задаю чисто одну конкретную задачку. Единственное мне бы пригодилась большая модель для разработки стратегий, ибо малые хоть и справляются, но мне приходится накидывать Graph-RAG'ами контекст и пылесосить кучу книжек чтоб этот граф составить, а потом предоставлять модели все детали, что муторно.
Из личных тестов нашёл что малые сетки хорошо работают если мало инфы\контекст и задача конкретная. После примерно 8B показывают практическую пользу, до это просто штуки которые "что-то помнят". МоЕ в этом плане спасение, можно довольно много знаний и умений уместить в небольшую сетку, это просто космос, лишь бы ОЗУ\Видеокарт хватило.
У меня как раз пакетная обработка должна быть. Надо всякие метрики в параллели извлекать. Заметил что LLM лучше работают если явно графы или данные задавать. Банально если текст переводить и предварительно извлечь имена собственные то оно перестаёт ошибаться в этом моменте.
З.Ы. Вот и меня напрягает что в теории у нас должно всё работать, а на практике как-то хреново. Вроде в llama.cpp есть флаги для работы с NUMA, но пока не тестил ничего. Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...
З.З.Ы. У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями. У меня получается где-то 10 агентов на одну китайскую железку, должно нормально по скорости работать. (На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах)
Это работает на уровне слухов. Нужно разбирать конкретные примеры. Там куча нюансов но основной тейк - смотря какая игра.
У меня буквально была система из атлона 4х ядерного на fm2 сокете и 4070ти. Большая часть игр работала отлично и выдавала мощные запасы. Работало хреново то, что очень много считало плавучку(по факту 2ядра с гипертредом) многопоток мультиплеер на +10 человек или симуляции, остальные 80% игр летали отлично.
По ощущениям ответ более сухой получается, но не у всех так. Некоторые умело игнорируют этот промт, надо на конкретных моделях тестить.
Это беда, объективно посчитать мощность процессора. Но в целом логично, что если упор в TDP то надо считать метрики, если нет упора то лучше TDP. Но и с ним проблемы бывают, допустим на гибридных системах у тебя подсистема IO жрёт 15Вт, Е ядра 45Вт И ядра 70Вт, но так ли это? Вдруг E ядра отдыхают, а на самом деле Р ядра пашут на всю?
Это тема отлично подходит под GPU, из-за того что там нету возможности перепланировать конвейер на блокировках, бывает такое что видеокарта пишет 100% а по факту 15Вт всего.
Ну, когда ты стыришь 100М у гос-ва то неожиданно для себя узнаешь что у них есть вся твоя переписка из телеги. После увиденного понимаю почему люди с ума сходят и создают "приватный интернет", и вообще бумагой пользуются)
У "обычных пользователей" есть тема про "раскрытие протанцевала". Их много и они хорошо маскируются под "знающих".
Я когда торговлей занимался там 70-80% было раскрывателей по гайдам. На вопрос почему вы не берёте 3070ти а 3060, мне говорили - "процессор видяху не раскроет".
Уже стандартизируют "ИИ-шейдеры", в целом роль ИИ в таких вещах будет сильно ограничены, но на основе этого можно будет строить новый класс архитектур. Условно, ИИ извлекает где лучи для кадра будут приоритетнее и вероятностно считает откуда их лучше пустить, чтоб лишние ресурсы не тратить. А так хз-хз
Составил системный промт типа:
ответь избегая когнитивных ошибок человеческого мышления которые могут возникнуть в при ответе на вопрос пользователя. Перечисли их в начале ответа
Забавно что малые модели не сильно меняют суть ответа, но стиль меняется сильно. Условно вместо
"Есть А, есть Б, есть В, а вообще это всё Г"
отвечает в формате"Ответ на ваш вопрос: А и Г. но иногда Б и В"
Проблема не в масштабировании а в интерпретации и обучении. Обучать большие спайковые сети правильными методами долго, у прецептрона можно закинуть весь интернет и он за день тебе его переварит.
Интерпретируемость в основном - как перевести результат в двоичный вид? У нас есть карта активаций по времени, как их перевести в классические float? Это повторяемый результат? Есть ли какие-то однозначные тесты где покажется что в 100 случаях из 100 одинаковая реакция?
В итоге спайковые имеет смысл применять только в военке и робототехнике. Можно построить всю логику на спайковых компонентах, получив адскую скорость отклика при минимальном энергопотреблении. Даже зрение можно реализовать через нейроморфные камеры, что уже делают в рамках исследований и результаты там впечатляющие.
Недавно тесты проводил, походу заменят... Ансамбль разных нейросетей невероятно хорошо решают задачи. На приколе запустил 6 разных 8В нейросеток и они за приемлимое время писали рабочий код, когда каждая из них по одиночке пишет херню.
Задачи были относительно тривиальны, по ТЗ работать с сокетами или написать консольную игру. Но удивляет что после долго срача, когда все нейронки приходят к консенсусу, ошибки могут быть максимум синтаксические. Довольно занимательно...
Но результаты зависят от сеток, вот недавно GPT с Qwen сраться заставил, GPT в итоге ушёл в отрицалово мол он во всём прав и задавил Qwen своим мнением, лол
Они есть, прогресс даже идёт, но темп совершенно не впечатляет) Уже разобрались в целом как бионейроны обучаются, и как это моделировать в железе без особых проблем, только интересна эта тема в серьёз 2.5 студентам) Гораздо больше можно получить решая проблемы, а не создавая новые.
Работаю с опенсорсными версиями, могу сказать что там GPT слишком упорствует в своей правоте. Доходит до абсурдного, что когда одна модель пытается доказать GPT какую-то идею, GPT тупо уходит в отрицалово и морально душит другие модели и те в итоге соглашаются что их критика "не обоснована".
У меня было несколько попыток таких экспериментов, довольно забавно.
И ещё из моих выводов: Qwen не очень хочет спорить и соглашаетсяс аргументами, а gemma пытается "принять точку зрения" чтоб понять о чём говорят
Крутая штука для VR может выйти. Там не проблема локально гонять поток в +400МБит, проблема пожать картинку за приемлемое время. Если транскодирование будет занимать условных 8мс, из которых 7мс сеть, то это будет своего рода микрореволюция! Сейчас самые крутые задержки которые только получается у меня выжать на Pico это 20мс. Из которых сеть 6мс на wifi5
Беда что большинство реально хороших архитектур плохо ложаться на цифровые вычислители. Есть отличные самообучающиеся сети, которые вроде и круче, но требуют х10 времени на обучение/ответ. Есть хорошие архитектуры которые позволяют упорядочивать образы как вектора в пространстве, но на фактических данных разницы ReLu DeepL, той же вычислительной сложности, - нет. (Они есть но только в пипец шумных данных)
И в итоге нахерачить ReLu + фигануть матрицу и сделать так 32B параметров выгоднее, чем пилить что-то "математически/семантически правильное". Обучать большие сети уже умеют, просто пилим пока пилиться а там посмотрим.
ЗЫ. Есть ещё направление спайковых сетей, но там сами не понимают что они делают и как это в железе реализовать, как обучать и всё такое. Но если найти как правильно сделать под конкретную задачу то результаты впечатляющие...
Производительность набить можно, вопрос в эффективности под конкретные задачи. Условно будет...
Можно ли считать на тензорный ускорителях? Можно! Мощнее ли они типичных GPGPU решений? Конечно! У нас целых 160TFlops! Какая производительность будет не в матричных операциях? Ну.... Для скаляров раз в 16 медленнее обычных... Но мы стараемся исправить это и сделать всего в 8 раз медленнее!
Ставил через LMStudio DeepSeek R1 на двухсокетную железку. Видеокарт нет (есть HD4800) Ест порядка 200-240ГБ работает от 5-0.5 токен\с в диапазоне 0-8192 токенов. При этом крутится на одном сокете, если можно как-то на 2 сокете запустить, буду признателен.
По памяти всё весело, RDIMM=256ГБ, LRDIMM=512ГБ, цена вопроса LRDIMM на 512 около 50-60Кр на 08.2025 (2400МТ, к сожалению больше не тянет)
Для инференса на CPU имеет смысл купить более новые Xeon, которые 6 поточные. EPIC 7К рекомендую только если GPU сервер делать, ибо там память быстрее и больше (1ТБ изи) но ядра слабее ощутимо. (2699v4 почти 2TFlops выдаёт, когда "народные" 7К еле-еле 1TFlops)
Сборка сервера из говна и палок очень сложная задача)
Закупить память на 512ГБ стоит около 50К рублей, на EPIC из-за 8канала можно за х2 собрать 1ТБ. LRDIMM модули на 64ГБ можно за 6-7К найти.
На счёт EPIC, китайцы продают относительно доступные сборки на 7000х серии за 100-150К можно собрать себе даже 2х сокетные версии, но там обычно очень мало PCIe слотов. Учитывая что на БУ рынке появились интересные видеокарты с 32ГБ VRAM за 20К рублей, это уже сомнительная покупка. (Причина дешёвости - прекращение поддержки ПО. Обнов больше не будет)
Самое грустное что все новомодные "AI системы для смертных" не годятся в реальном использовании из-за медленной памяти...
На удивление не всё так однозначно. Xeon 2699v4 показал мне почти 2ТФлопса мощей, в то время как ноутбучный процессор около 1ТФлопса. Из-за чего отрыв в некоторых нагрузках относительно ощутимый, даже с учётом того что память у Xeon DDR4-2133МТ, что на ~10-15% хуже чем если бы было 2400. Но у GPT-OSS упор всё-же в память, у других наоборот.
Интересно что я думал купить EPIC, но там плавучка в разы слабее, но память быстрее работает(8 канал). Нигде нету золотой середины...)
Ну потому его классическую реализацию и не использовали для +3 скрытых слоёв, из-за неоднозначных результатов, а потом придумали "градиент бустинг" которые там как-то деревья хитрые строил и резко появился термин "Глубокие обучение". И дальше народ начал развлекаться, вплоть до сеток где по сотни слоёв вообще не проблема
Мне интересна настройки моделей под неизвестное оборудование. Некий движок который бы сам находил оптимальные конфигурации под железо и сам раскидывал слои на разные вычислительные юниты или строил полноценный вычислительный граф, хз-хз. Сам не потяну за приемлемое время, а вот с "умными LLM" уже хз.
Лично мне и не нужны большие. У меня много довольно тривиальных задач которые малые модели отлично выполняют. Не перегружаю их контекстом и задаю чисто одну конкретную задачку. Единственное мне бы пригодилась большая модель для разработки стратегий, ибо малые хоть и справляются, но мне приходится накидывать Graph-RAG'ами контекст и пылесосить кучу книжек чтоб этот граф составить, а потом предоставлять модели все детали, что муторно.
Из личных тестов нашёл что малые сетки хорошо работают если мало инфы\контекст и задача конкретная. После примерно 8B показывают практическую пользу, до это просто штуки которые "что-то помнят". МоЕ в этом плане спасение, можно довольно много знаний и умений уместить в небольшую сетку, это просто космос, лишь бы ОЗУ\Видеокарт хватило.
У меня на сокет 128ГБ, думаю должно хватить)
У меня как раз пакетная обработка должна быть. Надо всякие метрики в параллели извлекать. Заметил что LLM лучше работают если явно графы или данные задавать. Банально если текст переводить и предварительно извлечь имена собственные то оно перестаёт ошибаться в этом моменте.
З.Ы. Вот и меня напрягает что в теории у нас должно всё работать, а на практике как-то хреново. Вроде в llama.cpp есть флаги для работы с NUMA, но пока не тестил ничего. Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...
З.З.Ы. У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями. У меня получается где-то 10 агентов на одну китайскую железку, должно нормально по скорости работать.
(На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах)