Это настройка декодирования - там много режимов, пользователь (точнее, оператор) может выбирать и настраивать их самостоятельно. Проблема в том, что такой режим довольно "дорогой" и пользуются им на практике довольно редко.
> Почему бы хотя бы итоговое score ответа юзерам не сообщать?
В API довольно часто доступны logprobs (их надо явно запрашивать), и в целом это и есть score ответа с точки зрения модели (правда, они скорее отражают perplexity, но с некоторыми допущениями это можно считать "качеством" в попугаях).
LM Studio умеет в MLX backend. Возможно, за счёт каких-то дополнительных оптимизаций, osaurus смогли уменьшить оверхед - надо тестить. Но вряд ли там разница в разы...
Как самореклама в корпоративном блоге - имеет место быть. Вот только хотелось бы услышать не только "пользуйтесь нашим", но и "мы работаем над улучшением". Так как сейчас непонятно - используется ли многопоточный режим? Какой из серверов используется? Нет графика, показывающего "вариативность" скорости. Нет loss. К тому же, скорость upload явно занижена - может, как раз по причине отсутствия "многопоточного" режима.
В общем, хотите хайпануть на (принудительном) уходе конкурента - сделайте лучше чем у него было.
Я в последнее время задол устал рассказывать любителям локальных нейронок мантру "возьми мак, возьми мак, возьми мак..."
MacBook (или даже Mac Mini) - это просто имба для нейронщиков. Потому что Unified Memory внезапно выстрелил там где не ждали, и по цене "зелёной" видеокарты на 32ГБ можно взять полноценный рабочий компьютер/ноутбук с 64+ГБ RAM, и (почти) всю эту RAM можно отдать той же LM Studio. Ну и варианты подешевле всё ещё перевешивают в пользу Apple...
Про то, что Mac Studio с 512GB RAM за 15к$ выигрывает по всем фронтам любому набору от NVIDIA (для начала соберите такой набор с поправкой на NVLink+NVSwitch) - говорить даже стыдно.
Честно, да для всего подряд. Код сложнее шаблонного она, как и любая другая, пишет отвратительно. Но вот по алгоритмам её гонять одно удовольствие. Даже если прямой ответ не совсем то, что надо - в рассуждениях можно найти отсылки к тому что стоит загуглить. Если покрутить температуру - можно попробовать что-то накреативить (у меня с этим бывают проблемы, а "прикольную идею в контексте Х" иногда надо достать здесь и сейчас). В противоположную сторону - иногда закидываю что-то "на правах бредовой идеи" и читаю размышления, куда это можно развить или почему это не сработает. В общем, такой "утёнок на максималках".
создание изображения высокой четкости с помощью искусственного интеллекта потребляет столько же энергии, сколько полная зарядка аккумулятора мобильного телефона.
Бред, причём слишком откровенный. Берём мобильный телефон (iPhone 14 Pro), ставим на него Diffusers, генерим десятки изображений последними версиями моделей, заряд батареи уменьшается процентов на 10… уже на этом этапе физика с математикой выходят из чата.
Пользуюсь Fedora на MBP16 M2Max ещё с момента когда 39 была в бете.
По поводу виртуализации вы просто не умеете их готовить у меня всё работает проблем не замечал, но вообще сообщество рекомендует использовать krunvm и FEX, с патчами от товарища slp (Sergio Lopez) запускал там Steam и прошёл (в очередной раз) Portal 2 с полноценным видеоускорением на максимальных настройках. Proton отрабатывает штатно и win-only игры тоже играбельны.
Нативным софтом пользоваться приятно, приколы 16k-страниц ощутил только в отсутствии chrome и wine, в целом krunvm меня достаточно спас в этом плане.
Про Debian не уверен, чипы такого уровня обычно расчитаны на embedded-варианты, то-есть buildroot / poky (yocto) / openwrt. Конкретно вот такую (на T113-s3) я лично собирал на yocto с некоторыми доработками напильником.
Это настройка декодирования - там много режимов, пользователь (точнее, оператор) может выбирать и настраивать их самостоятельно. Проблема в том, что такой режим довольно "дорогой" и пользуются им на практике довольно редко.
> Почему бы хотя бы итоговое score ответа юзерам не сообщать?
В API довольно часто доступны logprobs (их надо явно запрашивать), и в целом это и есть score ответа с точки зрения модели (правда, они скорее отражают perplexity, но с некоторыми допущениями это можно считать "качеством" в попугаях).
Вы изобрели (почти) Beam Search.
Полагаю, что все эти ускорения до сих пор упираются в обратную совместимость...
LM Studio умеет в MLX backend. Возможно, за счёт каких-то дополнительных оптимизаций, osaurus смогли уменьшить оверхед - надо тестить. Но вряд ли там разница в разы...
Как самореклама в корпоративном блоге - имеет место быть. Вот только хотелось бы услышать не только "пользуйтесь нашим", но и "мы работаем над улучшением". Так как сейчас непонятно - используется ли многопоточный режим? Какой из серверов используется? Нет графика, показывающего "вариативность" скорости. Нет loss. К тому же, скорость upload явно занижена - может, как раз по причине отсутствия "многопоточного" режима.
В общем, хотите хайпануть на (принудительном) уходе конкурента - сделайте лучше чем у него было.
Если вопрос мне - то не знаю, перестал следить за "красными" (да и за "синими" тоже) в какой-то момент времени.
Я в последнее время
задолустал рассказывать любителям локальных нейронок мантру "возьми мак, возьми мак, возьми мак..."MacBook (или даже Mac Mini) - это просто имба для нейронщиков. Потому что Unified Memory внезапно выстрелил там где не ждали, и по цене "зелёной" видеокарты на 32ГБ можно взять полноценный рабочий компьютер/ноутбук с 64+ГБ RAM, и (почти) всю эту RAM можно отдать той же LM Studio. Ну и варианты подешевле всё ещё перевешивают в пользу Apple...
Про то, что Mac Studio с 512GB RAM за 15к$ выигрывает по всем фронтам любому набору от NVIDIA (для начала соберите такой набор с поправкой на NVLink+NVSwitch) - говорить даже стыдно.
Помимо весов самой модели, в VRAM должен влезть контекст (для RL-моделей его нужно много).
Почему камера не 47мп? И батарейка не 4745mAh? Недоработочка...
Честно, да для всего подряд. Код сложнее шаблонного она, как и любая другая, пишет отвратительно. Но вот по алгоритмам её гонять одно удовольствие. Даже если прямой ответ не совсем то, что надо - в рассуждениях можно найти отсылки к тому что стоит загуглить. Если покрутить температуру - можно попробовать что-то накреативить (у меня с этим бывают проблемы, а "прикольную идею в контексте Х" иногда надо достать здесь и сейчас). В противоположную сторону - иногда закидываю что-то "на правах бредовой идеи" и читаю размышления, куда это можно развить или почему это не сработает. В общем, такой "утёнок на максималках".
Активно использую 14B Q6, очень нестыдно себя показывает.
Не такие уж и дебри
Бред, причём слишком откровенный. Берём мобильный телефон (iPhone 14 Pro), ставим на него Diffusers, генерим десятки изображений последними версиями моделей, заряд батареи уменьшается процентов на 10… уже на этом этапе физика с математикой выходят из чата.
Уверены, что другие?
О чём я и писал в предыдущем переводе…
А как же FEX?
Вам все пункты перечислить?)
Пользуюсь Fedora на MBP16 M2Max ещё с момента когда 39 была в бете.
По поводу виртуализации
вы просто не умеете их готовить у меня всё работаетпроблем не замечал, но вообще сообщество рекомендует использовать krunvm и FEX, с патчами от товарища slp (Sergio Lopez) запускал там Steam и прошёл (в очередной раз) Portal 2 с полноценным видеоускорением на максимальных настройках. Proton отрабатывает штатно и win-only игры тоже играбельны.Нативным софтом пользоваться приятно, приколы 16k-страниц ощутил только в отсутствии chrome и wine, в целом krunvm меня достаточно спас в этом плане.
https://github.com/AppleWOA
Про Debian не уверен, чипы такого уровня обычно расчитаны на embedded-варианты, то-есть buildroot / poky (yocto) / openwrt. Конкретно вот такую (на T113-s3) я лично собирал на yocto с некоторыми доработками напильником.