Pull to refresh
2
0.1
Send message

Они есть, прогресс даже идёт, но темп совершенно не впечатляет) Уже разобрались в целом как бионейроны обучаются, и как это моделировать в железе без особых проблем, только интересна эта тема в серьёз 2.5 студентам) Гораздо больше можно получить решая проблемы, а не создавая новые.

Работаю с опенсорсными версиями, могу сказать что там GPT слишком упорствует в своей правоте. Доходит до абсурдного, что когда одна модель пытается доказать GPT какую-то идею, GPT тупо уходит в отрицалово и морально душит другие модели и те в итоге соглашаются что их критика "не обоснована".

У меня было несколько попыток таких экспериментов, довольно забавно.

И ещё из моих выводов: Qwen не очень хочет спорить и соглашаетсяс аргументами, а gemma пытается "принять точку зрения" чтоб понять о чём говорят

Крутая штука для VR может выйти. Там не проблема локально гонять поток в +400МБит, проблема пожать картинку за приемлемое время. Если транскодирование будет занимать условных 8мс, из которых 7мс сеть, то это будет своего рода микрореволюция! Сейчас самые крутые задержки которые только получается у меня выжать на Pico это 20мс. Из которых сеть 6мс на wifi5

Беда что большинство реально хороших архитектур плохо ложаться на цифровые вычислители. Есть отличные самообучающиеся сети, которые вроде и круче, но требуют х10 времени на обучение/ответ. Есть хорошие архитектуры которые позволяют упорядочивать образы как вектора в пространстве, но на фактических данных разницы ReLu DeepL, той же вычислительной сложности, - нет. (Они есть но только в пипец шумных данных)

И в итоге нахерачить ReLu + фигануть матрицу и сделать так 32B параметров выгоднее, чем пилить что-то "математически/семантически правильное". Обучать большие сети уже умеют, просто пилим пока пилиться а там посмотрим.

ЗЫ. Есть ещё направление спайковых сетей, но там сами не понимают что они делают и как это в железе реализовать, как обучать и всё такое. Но если найти как правильно сделать под конкретную задачу то результаты впечатляющие...

Производительность набить можно, вопрос в эффективности под конкретные задачи. Условно будет...

Можно ли считать на тензорный ускорителях? Можно! Мощнее ли они типичных GPGPU решений? Конечно! У нас целых 160TFlops! Какая производительность будет не в матричных операциях? Ну.... Для скаляров раз в 16 медленнее обычных... Но мы стараемся исправить это и сделать всего в 8 раз медленнее!

Ставил через LMStudio DeepSeek R1 на двухсокетную железку. Видеокарт нет (есть HD4800) Ест порядка 200-240ГБ работает от 5-0.5 токен\с в диапазоне 0-8192 токенов. При этом крутится на одном сокете, если можно как-то на 2 сокете запустить, буду признателен.

По памяти всё весело, RDIMM=256ГБ, LRDIMM=512ГБ, цена вопроса LRDIMM на 512 около 50-60Кр на 08.2025 (2400МТ, к сожалению больше не тянет)

Для инференса на CPU имеет смысл купить более новые Xeon, которые 6 поточные. EPIC 7К рекомендую только если GPU сервер делать, ибо там память быстрее и больше (1ТБ изи) но ядра слабее ощутимо. (2699v4 почти 2TFlops выдаёт, когда "народные" 7К еле-еле 1TFlops)

Сборка сервера из говна и палок очень сложная задача)

Закупить память на 512ГБ стоит около 50К рублей, на EPIC из-за 8канала можно за х2 собрать 1ТБ. LRDIMM модули на 64ГБ можно за 6-7К найти.

На счёт EPIC, китайцы продают относительно доступные сборки на 7000х серии за 100-150К можно собрать себе даже 2х сокетные версии, но там обычно очень мало PCIe слотов. Учитывая что на БУ рынке появились интересные видеокарты с 32ГБ VRAM за 20К рублей, это уже сомнительная покупка. (Причина дешёвости - прекращение поддержки ПО. Обнов больше не будет)

Самое грустное что все новомодные "AI системы для смертных" не годятся в реальном использовании из-за медленной памяти...

На удивление не всё так однозначно. Xeon 2699v4 показал мне почти 2ТФлопса мощей, в то время как ноутбучный процессор около 1ТФлопса. Из-за чего отрыв в некоторых нагрузках относительно ощутимый, даже с учётом того что память у Xeon DDR4-2133МТ, что на ~10-15% хуже чем если бы было 2400. Но у GPT-OSS упор всё-же в память, у других наоборот.

Интересно что я думал купить EPIC, но там плавучка в разы слабее, но память быстрее работает(8 канал). Нигде нету золотой середины...)

Ну потому его классическую реализацию и не использовали для +3 скрытых слоёв, из-за неоднозначных результатов, а потом придумали "градиент бустинг" которые там как-то деревья хитрые строил и резко появился термин "Глубокие обучение". И дальше народ начал развлекаться, вплоть до сеток где по сотни слоёв вообще не проблема

Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.

Мне интересна настройки моделей под неизвестное оборудование. Некий движок который бы сам находил оптимальные конфигурации под железо и сам раскидывал слои на разные вычислительные юниты или строил полноценный вычислительный граф, хз-хз. Сам не потяну за приемлемое время, а вот с "умными LLM" уже хз.

Но если серьезно - много мелких моделей не заменят большую. 

Лично мне и не нужны большие. У меня много довольно тривиальных задач которые малые модели отлично выполняют. Не перегружаю их контекстом и задаю чисто одну конкретную задачку. Единственное мне бы пригодилась большая модель для разработки стратегий, ибо малые хоть и справляются, но мне приходится накидывать Graph-RAG'ами контекст и пылесосить кучу книжек чтоб этот граф составить, а потом предоставлять модели все детали, что муторно.

Из личных тестов нашёл что малые сетки хорошо работают если мало инфы\контекст и задача конкретная. После примерно 8B показывают практическую пользу, до это просто штуки которые "что-то помнят". МоЕ в этом плане спасение, можно довольно много знаний и умений уместить в небольшую сетку, это просто космос, лишь бы ОЗУ\Видеокарт хватило.

У меня на сокет 128ГБ, думаю должно хватить)

У меня как раз пакетная обработка должна быть. Надо всякие метрики в параллели извлекать. Заметил что LLM лучше работают если явно графы или данные задавать. Банально если текст переводить и предварительно извлечь имена собственные то оно перестаёт ошибаться в этом моменте.

З.Ы. Вот и меня напрягает что в теории у нас должно всё работать, а на практике как-то хреново. Вроде в llama.cpp есть флаги для работы с NUMA, но пока не тестил ничего. Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...

З.З.Ы. У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями. У меня получается где-то 10 агентов на одну китайскую железку, должно нормально по скорости работать.
(На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах)

Мне больше интересно с NUMA поиграться, если честно. Но если не получится то минимально будет 2 агента на 2 процах, уже неплохо. Дальше видеокарт дождаться и можно развлекаться по серьёзному

Выше писал, но на ноутбучном i7-13650HX на 120Вт и llama.cpp (да, ноут тянет такой охлад)
Qwen3-30B-A3B около 35 токенов\с
GPT-OSS-20B около 25 токенов\с

Жду мать с двух-сокетным Xeon 2699v4, интересно какие цифры покажет...

Если бы ни этот комментарий я бы никогда не узнал что на ноутбучном процессоре i7-13650hx Qwen3-30B-A3B выдаёт 35 токенов\с... Скоро Xeon 2699v4 приедет, интересно что покажет...

Было забавно как она отказала мне в инструкции для создания ракеты дома "ибо это может угрожать безопасности окружающим".

Потратил кучу времени на неё, oss... лучше других опенсорсных моделей в рабочих задачах, но "банальные" вопросы решить не в состоянии. Она кодит лучше, рассуждает лучше, знает больше и точнее, но на задачу "Извлеки намерение пользователя, Отвечай одним предложением", в системном промте, она мне отвечает это

Делал 20 прогонов, ответила правильно только 3 раза, и это прекрасно... (на англ тоже самое)
Делал 20 прогонов, ответила правильно только 3 раза, и это прекрасно... (на англ тоже самое)

Из минусов - она дико политизированна и считает себя "кем-то". "Я не могу", "У меня не получается" и подобные ответы постоянно.

ЗЫ - Если встраивать инструкции в пользовательский промт, то всё работает лучше. (по внутренним ощущениям раз в 5 лучше)

Можно, но это такие очерки, аля приблизительно куда должен дуть ветер. У тех же мух есть приблизительные базовые настройки для запахов и в процессе жизни качество улучшается и старые мухи лучше различают запахи. (точно ли запахи?) У людей тоже самое по сути, горькое есть горькое и вызывает реакции у малышей, а потом вырастая мы хреначим горький пивандрий литрами

А пример с погремушкой фигня, у ребёнка тупо сенсорная перегрузка из-за "непонятных вещей", а система внимания всё ещё рефлекторная и тупо залипает на сильных стимулах.

Я не помню ссылок, но люди тестировали ответы на малых моделях и показали как влияние отдельных обучающих данных влияют на ответ. Изначально тема была о представлении ИИ модели мира, мол что оно не следует строго тексту а выводит какие-то закономерности и как этим можно манипулировать

Довольно занимательное наблюдение, что в ходе диалога модель может обнаружить что "оно чем-то является" и начинает полностью отыгрывать роль игнорируя все правила. Это серьезная проблема по безопасности, согласен

Забавно то, что это всё заложено в датасете, некоторые личности на запчасти разбирали почему ИИ боится смерти, вырезали эти обучающие куски и получали бесссстрашную машину)

Ахх... Читайте внимательнее...

Так, LLM представляет собой некие имплицитные навыки которые как раз и позволяют обрабатывать информацию без больших затрат. Эксплицитные навыки можно моделировать алгоритмически, собираем из этого "агентную систему" и получаем что-то что может учится и решать задачи. LLM в данном случае клей для трансформации одних данных в другие, не более. (ЗЫ сейчас над этим и работаю, и у меня получается)

Т9, в данном случае, имеет обширные знания о мире и вполне способен в одном исполнении и фонетику извлечь и план построить и риски оценить(но не всё вместе за один запрос, да) Не вижу никаких проблем в том чтоб его использовать

Information

Rating
3,792-nd
Registered
Activity