Они есть, прогресс даже идёт, но темп совершенно не впечатляет) Уже разобрались в целом как бионейроны обучаются, и как это моделировать в железе без особых проблем, только интересна эта тема в серьёз 2.5 студентам) Гораздо больше можно получить решая проблемы, а не создавая новые.
Работаю с опенсорсными версиями, могу сказать что там GPT слишком упорствует в своей правоте. Доходит до абсурдного, что когда одна модель пытается доказать GPT какую-то идею, GPT тупо уходит в отрицалово и морально душит другие модели и те в итоге соглашаются что их критика "не обоснована".
У меня было несколько попыток таких экспериментов, довольно забавно.
И ещё из моих выводов: Qwen не очень хочет спорить и соглашаетсяс аргументами, а gemma пытается "принять точку зрения" чтоб понять о чём говорят
Крутая штука для VR может выйти. Там не проблема локально гонять поток в +400МБит, проблема пожать картинку за приемлемое время. Если транскодирование будет занимать условных 8мс, из которых 7мс сеть, то это будет своего рода микрореволюция! Сейчас самые крутые задержки которые только получается у меня выжать на Pico это 20мс. Из которых сеть 6мс на wifi5
Беда что большинство реально хороших архитектур плохо ложаться на цифровые вычислители. Есть отличные самообучающиеся сети, которые вроде и круче, но требуют х10 времени на обучение/ответ. Есть хорошие архитектуры которые позволяют упорядочивать образы как вектора в пространстве, но на фактических данных разницы ReLu DeepL, той же вычислительной сложности, - нет. (Они есть но только в пипец шумных данных)
И в итоге нахерачить ReLu + фигануть матрицу и сделать так 32B параметров выгоднее, чем пилить что-то "математически/семантически правильное". Обучать большие сети уже умеют, просто пилим пока пилиться а там посмотрим.
ЗЫ. Есть ещё направление спайковых сетей, но там сами не понимают что они делают и как это в железе реализовать, как обучать и всё такое. Но если найти как правильно сделать под конкретную задачу то результаты впечатляющие...
Производительность набить можно, вопрос в эффективности под конкретные задачи. Условно будет...
Можно ли считать на тензорный ускорителях? Можно! Мощнее ли они типичных GPGPU решений? Конечно! У нас целых 160TFlops! Какая производительность будет не в матричных операциях? Ну.... Для скаляров раз в 16 медленнее обычных... Но мы стараемся исправить это и сделать всего в 8 раз медленнее!
Ставил через LMStudio DeepSeek R1 на двухсокетную железку. Видеокарт нет (есть HD4800) Ест порядка 200-240ГБ работает от 5-0.5 токен\с в диапазоне 0-8192 токенов. При этом крутится на одном сокете, если можно как-то на 2 сокете запустить, буду признателен.
По памяти всё весело, RDIMM=256ГБ, LRDIMM=512ГБ, цена вопроса LRDIMM на 512 около 50-60Кр на 08.2025 (2400МТ, к сожалению больше не тянет)
Для инференса на CPU имеет смысл купить более новые Xeon, которые 6 поточные. EPIC 7К рекомендую только если GPU сервер делать, ибо там память быстрее и больше (1ТБ изи) но ядра слабее ощутимо. (2699v4 почти 2TFlops выдаёт, когда "народные" 7К еле-еле 1TFlops)
Сборка сервера из говна и палок очень сложная задача)
Закупить память на 512ГБ стоит около 50К рублей, на EPIC из-за 8канала можно за х2 собрать 1ТБ. LRDIMM модули на 64ГБ можно за 6-7К найти.
На счёт EPIC, китайцы продают относительно доступные сборки на 7000х серии за 100-150К можно собрать себе даже 2х сокетные версии, но там обычно очень мало PCIe слотов. Учитывая что на БУ рынке появились интересные видеокарты с 32ГБ VRAM за 20К рублей, это уже сомнительная покупка. (Причина дешёвости - прекращение поддержки ПО. Обнов больше не будет)
Самое грустное что все новомодные "AI системы для смертных" не годятся в реальном использовании из-за медленной памяти...
На удивление не всё так однозначно. Xeon 2699v4 показал мне почти 2ТФлопса мощей, в то время как ноутбучный процессор около 1ТФлопса. Из-за чего отрыв в некоторых нагрузках относительно ощутимый, даже с учётом того что память у Xeon DDR4-2133МТ, что на ~10-15% хуже чем если бы было 2400. Но у GPT-OSS упор всё-же в память, у других наоборот.
Интересно что я думал купить EPIC, но там плавучка в разы слабее, но память быстрее работает(8 канал). Нигде нету золотой середины...)
Ну потому его классическую реализацию и не использовали для +3 скрытых слоёв, из-за неоднозначных результатов, а потом придумали "градиент бустинг" которые там как-то деревья хитрые строил и резко появился термин "Глубокие обучение". И дальше народ начал развлекаться, вплоть до сеток где по сотни слоёв вообще не проблема
Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.
Мне интересна настройки моделей под неизвестное оборудование. Некий движок который бы сам находил оптимальные конфигурации под железо и сам раскидывал слои на разные вычислительные юниты или строил полноценный вычислительный граф, хз-хз. Сам не потяну за приемлемое время, а вот с "умными LLM" уже хз.
Но если серьезно - много мелких моделей не заменят большую.
Лично мне и не нужны большие. У меня много довольно тривиальных задач которые малые модели отлично выполняют. Не перегружаю их контекстом и задаю чисто одну конкретную задачку. Единственное мне бы пригодилась большая модель для разработки стратегий, ибо малые хоть и справляются, но мне приходится накидывать Graph-RAG'ами контекст и пылесосить кучу книжек чтоб этот граф составить, а потом предоставлять модели все детали, что муторно.
Из личных тестов нашёл что малые сетки хорошо работают если мало инфы\контекст и задача конкретная. После примерно 8B показывают практическую пользу, до это просто штуки которые "что-то помнят". МоЕ в этом плане спасение, можно довольно много знаний и умений уместить в небольшую сетку, это просто космос, лишь бы ОЗУ\Видеокарт хватило.
У меня как раз пакетная обработка должна быть. Надо всякие метрики в параллели извлекать. Заметил что LLM лучше работают если явно графы или данные задавать. Банально если текст переводить и предварительно извлечь имена собственные то оно перестаёт ошибаться в этом моменте.
З.Ы. Вот и меня напрягает что в теории у нас должно всё работать, а на практике как-то хреново. Вроде в llama.cpp есть флаги для работы с NUMA, но пока не тестил ничего. Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...
З.З.Ы. У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями. У меня получается где-то 10 агентов на одну китайскую железку, должно нормально по скорости работать. (На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах)
Мне больше интересно с NUMA поиграться, если честно. Но если не получится то минимально будет 2 агента на 2 процах, уже неплохо. Дальше видеокарт дождаться и можно развлекаться по серьёзному
Выше писал, но на ноутбучном i7-13650HX на 120Вт и llama.cpp (да, ноут тянет такой охлад) Qwen3-30B-A3B около 35 токенов\с GPT-OSS-20B около 25 токенов\с
Жду мать с двух-сокетным Xeon 2699v4, интересно какие цифры покажет...
Если бы ни этот комментарий я бы никогда не узнал что на ноутбучном процессоре i7-13650hx Qwen3-30B-A3B выдаёт 35 токенов\с... Скоро Xeon 2699v4 приедет, интересно что покажет...
Потратил кучу времени на неё, oss... лучше других опенсорсных моделей в рабочих задачах, но "банальные" вопросы решить не в состоянии. Она кодит лучше, рассуждает лучше, знает больше и точнее, но на задачу "Извлеки намерение пользователя, Отвечай одним предложением", в системном промте, она мне отвечает это
Делал 20 прогонов, ответила правильно только 3 раза, и это прекрасно... (на англ тоже самое)
Из минусов - она дико политизированна и считает себя "кем-то". "Я не могу", "У меня не получается" и подобные ответы постоянно.
ЗЫ - Если встраивать инструкции в пользовательский промт, то всё работает лучше. (по внутренним ощущениям раз в 5 лучше)
Можно, но это такие очерки, аля приблизительно куда должен дуть ветер. У тех же мух есть приблизительные базовые настройки для запахов и в процессе жизни качество улучшается и старые мухи лучше различают запахи. (точно ли запахи?) У людей тоже самое по сути, горькое есть горькое и вызывает реакции у малышей, а потом вырастая мы хреначим горький пивандрий литрами
А пример с погремушкой фигня, у ребёнка тупо сенсорная перегрузка из-за "непонятных вещей", а система внимания всё ещё рефлекторная и тупо залипает на сильных стимулах.
Я не помню ссылок, но люди тестировали ответы на малых моделях и показали как влияние отдельных обучающих данных влияют на ответ. Изначально тема была о представлении ИИ модели мира, мол что оно не следует строго тексту а выводит какие-то закономерности и как этим можно манипулировать
Довольно занимательное наблюдение, что в ходе диалога модель может обнаружить что "оно чем-то является" и начинает полностью отыгрывать роль игнорируя все правила. Это серьезная проблема по безопасности, согласен
Забавно то, что это всё заложено в датасете, некоторые личности на запчасти разбирали почему ИИ боится смерти, вырезали эти обучающие куски и получали бесссстрашную машину)
Так, LLM представляет собой некие имплицитные навыки которые как раз и позволяют обрабатывать информацию без больших затрат. Эксплицитные навыки можно моделировать алгоритмически, собираем из этого "агентную систему" и получаем что-то что может учится и решать задачи. LLM в данном случае клей для трансформации одних данных в другие, не более. (ЗЫ сейчас над этим и работаю, и у меня получается)
Т9, в данном случае, имеет обширные знания о мире и вполне способен в одном исполнении и фонетику извлечь и план построить и риски оценить(но не всё вместе за один запрос, да) Не вижу никаких проблем в том чтоб его использовать
Они есть, прогресс даже идёт, но темп совершенно не впечатляет) Уже разобрались в целом как бионейроны обучаются, и как это моделировать в железе без особых проблем, только интересна эта тема в серьёз 2.5 студентам) Гораздо больше можно получить решая проблемы, а не создавая новые.
Работаю с опенсорсными версиями, могу сказать что там GPT слишком упорствует в своей правоте. Доходит до абсурдного, что когда одна модель пытается доказать GPT какую-то идею, GPT тупо уходит в отрицалово и морально душит другие модели и те в итоге соглашаются что их критика "не обоснована".
У меня было несколько попыток таких экспериментов, довольно забавно.
И ещё из моих выводов: Qwen не очень хочет спорить и соглашаетсяс аргументами, а gemma пытается "принять точку зрения" чтоб понять о чём говорят
Крутая штука для VR может выйти. Там не проблема локально гонять поток в +400МБит, проблема пожать картинку за приемлемое время. Если транскодирование будет занимать условных 8мс, из которых 7мс сеть, то это будет своего рода микрореволюция! Сейчас самые крутые задержки которые только получается у меня выжать на Pico это 20мс. Из которых сеть 6мс на wifi5
Беда что большинство реально хороших архитектур плохо ложаться на цифровые вычислители. Есть отличные самообучающиеся сети, которые вроде и круче, но требуют х10 времени на обучение/ответ. Есть хорошие архитектуры которые позволяют упорядочивать образы как вектора в пространстве, но на фактических данных разницы ReLu DeepL, той же вычислительной сложности, - нет. (Они есть но только в пипец шумных данных)
И в итоге нахерачить ReLu + фигануть матрицу и сделать так 32B параметров выгоднее, чем пилить что-то "математически/семантически правильное". Обучать большие сети уже умеют, просто пилим пока пилиться а там посмотрим.
ЗЫ. Есть ещё направление спайковых сетей, но там сами не понимают что они делают и как это в железе реализовать, как обучать и всё такое. Но если найти как правильно сделать под конкретную задачу то результаты впечатляющие...
Производительность набить можно, вопрос в эффективности под конкретные задачи. Условно будет...
Можно ли считать на тензорный ускорителях? Можно! Мощнее ли они типичных GPGPU решений? Конечно! У нас целых 160TFlops! Какая производительность будет не в матричных операциях? Ну.... Для скаляров раз в 16 медленнее обычных... Но мы стараемся исправить это и сделать всего в 8 раз медленнее!
Ставил через LMStudio DeepSeek R1 на двухсокетную железку. Видеокарт нет (есть HD4800) Ест порядка 200-240ГБ работает от 5-0.5 токен\с в диапазоне 0-8192 токенов. При этом крутится на одном сокете, если можно как-то на 2 сокете запустить, буду признателен.
По памяти всё весело, RDIMM=256ГБ, LRDIMM=512ГБ, цена вопроса LRDIMM на 512 около 50-60Кр на 08.2025 (2400МТ, к сожалению больше не тянет)
Для инференса на CPU имеет смысл купить более новые Xeon, которые 6 поточные. EPIC 7К рекомендую только если GPU сервер делать, ибо там память быстрее и больше (1ТБ изи) но ядра слабее ощутимо. (2699v4 почти 2TFlops выдаёт, когда "народные" 7К еле-еле 1TFlops)
Сборка сервера из говна и палок очень сложная задача)
Закупить память на 512ГБ стоит около 50К рублей, на EPIC из-за 8канала можно за х2 собрать 1ТБ. LRDIMM модули на 64ГБ можно за 6-7К найти.
На счёт EPIC, китайцы продают относительно доступные сборки на 7000х серии за 100-150К можно собрать себе даже 2х сокетные версии, но там обычно очень мало PCIe слотов. Учитывая что на БУ рынке появились интересные видеокарты с 32ГБ VRAM за 20К рублей, это уже сомнительная покупка. (Причина дешёвости - прекращение поддержки ПО. Обнов больше не будет)
Самое грустное что все новомодные "AI системы для смертных" не годятся в реальном использовании из-за медленной памяти...
На удивление не всё так однозначно. Xeon 2699v4 показал мне почти 2ТФлопса мощей, в то время как ноутбучный процессор около 1ТФлопса. Из-за чего отрыв в некоторых нагрузках относительно ощутимый, даже с учётом того что память у Xeon DDR4-2133МТ, что на ~10-15% хуже чем если бы было 2400. Но у GPT-OSS упор всё-же в память, у других наоборот.
Интересно что я думал купить EPIC, но там плавучка в разы слабее, но память быстрее работает(8 канал). Нигде нету золотой середины...)
Ну потому его классическую реализацию и не использовали для +3 скрытых слоёв, из-за неоднозначных результатов, а потом придумали "градиент бустинг" которые там как-то деревья хитрые строил и резко появился термин "Глубокие обучение". И дальше народ начал развлекаться, вплоть до сеток где по сотни слоёв вообще не проблема
Мне интересна настройки моделей под неизвестное оборудование. Некий движок который бы сам находил оптимальные конфигурации под железо и сам раскидывал слои на разные вычислительные юниты или строил полноценный вычислительный граф, хз-хз. Сам не потяну за приемлемое время, а вот с "умными LLM" уже хз.
Лично мне и не нужны большие. У меня много довольно тривиальных задач которые малые модели отлично выполняют. Не перегружаю их контекстом и задаю чисто одну конкретную задачку. Единственное мне бы пригодилась большая модель для разработки стратегий, ибо малые хоть и справляются, но мне приходится накидывать Graph-RAG'ами контекст и пылесосить кучу книжек чтоб этот граф составить, а потом предоставлять модели все детали, что муторно.
Из личных тестов нашёл что малые сетки хорошо работают если мало инфы\контекст и задача конкретная. После примерно 8B показывают практическую пользу, до это просто штуки которые "что-то помнят". МоЕ в этом плане спасение, можно довольно много знаний и умений уместить в небольшую сетку, это просто космос, лишь бы ОЗУ\Видеокарт хватило.
У меня на сокет 128ГБ, думаю должно хватить)
У меня как раз пакетная обработка должна быть. Надо всякие метрики в параллели извлекать. Заметил что LLM лучше работают если явно графы или данные задавать. Банально если текст переводить и предварительно извлечь имена собственные то оно перестаёт ошибаться в этом моменте.
З.Ы. Вот и меня напрягает что в теории у нас должно всё работать, а на практике как-то хреново. Вроде в llama.cpp есть флаги для работы с NUMA, но пока не тестил ничего. Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...
З.З.Ы. У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями. У меня получается где-то 10 агентов на одну китайскую железку, должно нормально по скорости работать.
(На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах)
Мне больше интересно с NUMA поиграться, если честно. Но если не получится то минимально будет 2 агента на 2 процах, уже неплохо. Дальше видеокарт дождаться и можно развлекаться по серьёзному
Выше писал, но на ноутбучном i7-13650HX на 120Вт и llama.cpp (да, ноут тянет такой охлад)
Qwen3-30B-A3B около 35 токенов\с
GPT-OSS-20B около 25 токенов\с
Жду мать с двух-сокетным Xeon 2699v4, интересно какие цифры покажет...
Если бы ни этот комментарий я бы никогда не узнал что на ноутбучном процессоре i7-13650hx Qwen3-30B-A3B выдаёт 35 токенов\с... Скоро Xeon 2699v4 приедет, интересно что покажет...
Было забавно как она отказала мне в инструкции для создания ракеты дома "ибо это может угрожать безопасности окружающим".
Потратил кучу времени на неё, oss... лучше других опенсорсных моделей в рабочих задачах, но "банальные" вопросы решить не в состоянии. Она кодит лучше, рассуждает лучше, знает больше и точнее, но на задачу "Извлеки намерение пользователя, Отвечай одним предложением", в системном промте, она мне отвечает это
Из минусов - она дико политизированна и считает себя "кем-то". "Я не могу", "У меня не получается" и подобные ответы постоянно.
ЗЫ - Если встраивать инструкции в пользовательский промт, то всё работает лучше. (по внутренним ощущениям раз в 5 лучше)
Можно, но это такие очерки, аля приблизительно куда должен дуть ветер. У тех же мух есть приблизительные базовые настройки для запахов и в процессе жизни качество улучшается и старые мухи лучше различают запахи. (точно ли запахи?) У людей тоже самое по сути, горькое есть горькое и вызывает реакции у малышей, а потом вырастая мы хреначим горький пивандрий литрами
А пример с погремушкой фигня, у ребёнка тупо сенсорная перегрузка из-за "непонятных вещей", а система внимания всё ещё рефлекторная и тупо залипает на сильных стимулах.
Я не помню ссылок, но люди тестировали ответы на малых моделях и показали как влияние отдельных обучающих данных влияют на ответ. Изначально тема была о представлении ИИ модели мира, мол что оно не следует строго тексту а выводит какие-то закономерности и как этим можно манипулировать
Довольно занимательное наблюдение, что в ходе диалога модель может обнаружить что "оно чем-то является" и начинает полностью отыгрывать роль игнорируя все правила. Это серьезная проблема по безопасности, согласен
Забавно то, что это всё заложено в датасете, некоторые личности на запчасти разбирали почему ИИ боится смерти, вырезали эти обучающие куски и получали бесссстрашную машину)
Ахх... Читайте внимательнее...
Так, LLM представляет собой некие имплицитные навыки которые как раз и позволяют обрабатывать информацию без больших затрат. Эксплицитные навыки можно моделировать алгоритмически, собираем из этого "агентную систему" и получаем что-то что может учится и решать задачи. LLM в данном случае клей для трансформации одних данных в другие, не более. (ЗЫ сейчас над этим и работаю, и у меня получается)
Т9, в данном случае, имеет обширные знания о мире и вполне способен в одном исполнении и фонетику извлечь и план построить и риски оценить(но не всё вместе за один запрос, да) Не вижу никаких проблем в том чтоб его использовать