Если бы сервис действительно хотел помочь людям уехать в пиковые часы, то, зная время окончания мероприятия, заранее подтянул бы туда свободные машины. У нас, например, частники в курсе расписания электричек и всегда стараются подъехать к вокзалу, понимая, что пустыми не останутся. А здесь всё выглядит как самореклама и "забота для галочки". На деле же, как верно заметили другие, водители могут просто стоять рядом и выжидать, пока взлетит ценник».
Мы в открытом космосе... потому что Земля ушла от нас довольно далеко по орбите.
Если вы отправляетесь в прошлое на один месяц, то Земля не ушла, а ещё не дошла до этой точки. И будет она в ней через месяц. Так что на Землю теоретически ещё можно попасть, при условии, что в течении этого месяца эту точку не пересечёт другое космическое тело.
Простой пример, у бабушки сломался холодильник. Она села обзванивать мастеров, пытаясь найти подешевле. А её после N-го звонка взяли и заблокировали. Бабушка без холодильника и без телефона.
В логах не нашёл, где бы это отразилось (в ik-llama это видно в логах загрузки). Но при генерации получил 30% прироста на модели GPT-OSS-120В.
Возник вопрос, на самом деле работает -ot "blk.[0-8].ffn.*=CUDA0" в llama.cpp этот ключ или у меня просто совпало так? В ik-llama он работает, это я проверял несколько раз.
Сегодня наконец-то собрал llama.cpp. Да, на самом деле на ней GPT-OSS работает быстрее. И главное нет просадки по токенам из-за контекста.
Особенно порадовала GPT-OSS-20В. Скорость 55-65 ток/сек, что для моего железа прям вообще супер. И как по моим ощущениям она работает на уровне GPT-3.5, а этого чаще всего более чем достаточно.
Ролики - чем вам не сапоги скороходы? Даже по сравнению с бегущим человеком они выигрывают. Нужна ровная поверхность, но и автомобиль по полям не очень поедет.
Вместо ступы есть реактивные ранцы. Не массово конечно, но на опытных образцах уже не плохо летают.
Из тех, которые пробовал, меня больше всего, по соотношению скорость-качество, устраивает gpt-oss-120b. На моём компьютере выдаёт 12 т/с при пустом контексте и при заполнении контектса до 32к - около 6 т/с. DeepSeek V3.1 работает, но скорость не более 1.5 т/с. Если качество не сильно нужно, то использую gpt-oss-20b, даёт до 40 т/с на пустом и около 12 т/с при 32к контексте.
Спасибо. Да, это я видел. Но я делал сборку на ik-llama. И думал к ней прицепить. Думал может там просто достаточно какие-нибудь файлы докинуть в папку. Не знаю, получится ли собрать с этим неофициальным патчем. Я эту то сборку делал по инструкции с помощью копипаста. Удивился, что получилось.
А в чём разница? Те же самые файлы. На гитхабе говорят, что пока не будет объединения с 15539, поддерживаться не будет. А LM-Studio вроде как llama.cpp использует.
Либо можно самому делать сборку. Но я хотел под форк ik-llama.cpp. А так как не разбираюсь во всём этом, то пока ничего не получается.
А может кто-нибудь на пальцах, доходчиво объяснить как запустить Grok-2 локально? На последней версии LM-Studio не запускается, не знает токенайзера для этой модели. llama.cpp тоже требует токенайзер.
Я делал подобное на ESP8266. Удобно, тем, что создал на ней веб страницу, где можно было посмотреть текущие параметры и поменять установки. Плюс у меня была ещё подсветка, которая зависела от солнечного света. Так же измерял температуру, но её просто использовал для визуализации, без практического применения. По дисплею, если нет отключения, то стоит предусмотреть. Нажатие на любую кнопку включает, через полминуты-минуту пассивности отключает. У меня за год выгорели пиксели так, что свободно читались старые надписи на белом фоне.
Стоит ли удивляться? Вы же наверняка читали это
Пункт четвёртый. Не надо заменять людей в поддержке на тупых ботов, которые даже фразу "Товар у покупателя" толком понять не могут.
Если кто её "Дулина" назовёт, то всем понятно будет. И пусть потом доказывает, что это с ней созвучно.
Если бы сервис действительно хотел помочь людям уехать в пиковые часы, то, зная время окончания мероприятия, заранее подтянул бы туда свободные машины. У нас, например, частники в курсе расписания электричек и всегда стараются подъехать к вокзалу, понимая, что пустыми не останутся. А здесь всё выглядит как самореклама и "забота для галочки". На деле же, как верно заметили другие, водители могут просто стоять рядом и выжидать, пока взлетит ценник».
Скайнет начала перепись кожаных.
Если вы отправляетесь в прошлое на один месяц, то Земля не ушла, а ещё не дошла до этой точки. И будет она в ней через месяц. Так что на Землю теоретически ещё можно попасть, при условии, что в течении этого месяца эту точку не пересечёт другое космическое тело.
И процесс будет выигрывать тот, кто сможет написать лучший промт.
Получается, что покупатель, за свои деньги, устанавливает у себя в помещении рекламный баннер Самсунга.
Самсунгу можно пойти дальше: Круглосуточная реклама на телевизорах. А если не хочешь смотреть, то плати.
Это всё на одинаковом железе? А какое железо?
А N-ое это сколько?
Простой пример, у бабушки сломался холодильник. Она села обзванивать мастеров, пытаясь найти подешевле. А её после N-го звонка взяли и заблокировали. Бабушка без холодильника и без телефона.
Сейчас попробовал выгрузить часть экспертов на GPU
llama-server.exe --alias ggml-org_gpt-oss-120b --model "E:\LLM\ggml-org\gpt-oss-120b-GGUF\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -ot "blk.[0-8].ffn.*=CUDA0" -cmoe -ngl 99 -c 32768 -b 2048 -ub 256 --threads 32 --jinja --host 0.0.0.0 --port 8080
В логах не нашёл, где бы это отразилось (в ik-llama это видно в логах загрузки). Но при генерации получил 30% прироста на модели GPT-OSS-120В.
Возник вопрос, на самом деле работает -ot "blk.[0-8].ffn.*=CUDA0" в llama.cpp этот ключ или у меня просто совпало так? В ik-llama он работает, это я проверял несколько раз.
Сегодня наконец-то собрал llama.cpp. Да, на самом деле на ней GPT-OSS работает быстрее. И главное нет просадки по токенам из-за контекста.
Особенно порадовала GPT-OSS-20В. Скорость 55-65 ток/сек, что для моего железа прям вообще супер. И как по моим ощущениям она работает на уровне GPT-3.5, а этого чаще всего более чем достаточно.
Ролики - чем вам не сапоги скороходы? Даже по сравнению с бегущим человеком они выигрывают. Нужна ровная поверхность, но и автомобиль по полям не очень поедет.
Вместо ступы есть реактивные ранцы. Не массово конечно, но на опытных образцах уже не плохо летают.
Всю статью не осилил. Для себя уже давно сделал вывод.
Либо человечество просто не дожило до того времени, когда оно было способно создать машину времени.
Либо учёные так и не смогли рассчитать перемещение в пространстве, необходимое для компенсации перемещения всей вселенной.
Из тех, которые пробовал, меня больше всего, по соотношению скорость-качество, устраивает gpt-oss-120b. На моём компьютере выдаёт 12 т/с при пустом контексте и при заполнении контектса до 32к - около 6 т/с. DeepSeek V3.1 работает, но скорость не более 1.5 т/с. Если качество не сильно нужно, то использую gpt-oss-20b, даёт до 40 т/с на пустом и около 12 т/с при 32к контексте.
Но я использую ik-llama.
Tesla P40, Xeon 2698 v3, RAM DDR4-2133 192GB
Или просто
984 946 606 -> (984 946 60 +1) % 7 -> 6
984 946 610 -> (984 946 61 + 1) % 7 -> 0
984 946 621 -> (984 946 62 + 1) % 7 -> 1
Спасибо. Да, это я видел. Но я делал сборку на ik-llama. И думал к ней прицепить. Думал может там просто достаточно какие-нибудь файлы докинуть в папку. Не знаю, получится ли собрать с этим неофициальным патчем. Я эту то сборку делал по инструкции с помощью копипаста. Удивился, что получилось.
А в чём разница? Те же самые файлы. На гитхабе говорят, что пока не будет объединения с 15539, поддерживаться не будет. А LM-Studio вроде как llama.cpp использует.
Либо можно самому делать сборку. Но я хотел под форк ik-llama.cpp. А так как не разбираюсь во всём этом, то пока ничего не получается.
А может кто-нибудь на пальцах, доходчиво объяснить как запустить Grok-2 локально? На последней версии LM-Studio не запускается, не знает токенайзера для этой модели. llama.cpp тоже требует токенайзер.
Почитал здесь - https://docs.unsloth.ai/basics/grok-2
И здесь - https://github.com/ggml-org/llama.cpp/pull/15539
Но так и не понял, как решить проблему для Windows 10.
Я делал подобное на ESP8266. Удобно, тем, что создал на ней веб страницу, где можно было посмотреть текущие параметры и поменять установки. Плюс у меня была ещё подсветка, которая зависела от солнечного света. Так же измерял температуру, но её просто использовал для визуализации, без практического применения.
По дисплею, если нет отключения, то стоит предусмотреть. Нажатие на любую кнопку включает, через полминуты-минуту пассивности отключает. У меня за год выгорели пиксели так, что свободно читались старые надписи на белом фоне.