Буквально на днях проверял работу в лине на облачном gpu и сравнивал с win-домашним. На удивление домашний даже чуть побыстрее был. Разница в районе единиц процентов. С другой стороны на облачном еще может влиять интерференция от других пользователей. Но в любом случае речь не про десятки процентов.
Первую половину удивлялся, почему идея нахождения быстрого алгоритма была запущена на самом неочевидном для проверки скоростей языке, а во второй половине выяснилось, что самый быстрый алгоритм на питоне - это алгоритм в котором минимум питона. И почему же я не удивлён
Вроде бы веб-версия плюс-минус с мобильного работает. А если хотите свою - кто мешает сделать поддержку пакетов sigame? Насколько помню, там обычный xml-был. И вот уже гигантская база паков разной степени упоротости уже в наличии )
А могли бы пояснить механику вычисления? Если 80-90% популяции имела иммунитет, то снижение до 40%.. Это радикальное изменение популяции? Или детектируемый иммунитет относительно короткий? Или это на очень большом временном интервале изменение (что плюс-минус попадает в радикальное изменение популяции)? А то как-то в голове пока не складывается такой разброс
Веса распаковываются на лету, потери на распаковку компенсируются общим выигрышем по размеру.
На лету - то есть на каждом проходе слоя для каждого токена выполняется это преобразование? У меня мелькала мысль о таком подходе, но навскидку казалось что потери должны быть заметно страшнее.
Про табличку еще вопрос - это ваши внутренние замеры, или такое где-то спрятано в глубинах обсуждений репы llama.cpp? Я просто как раз собирался погонять на разных квантах модели, чтобы собрать примерно такие же данные, но с радостью воспользуюсь и готовым результатом, если он в открытом доступе ))
И главный минус - их существование только в статьях интернета. Купить их до сих пор, насколько знаю негде. А учитывая, как нынешнее поколение nvidia появляется в продаже, есть подозрение, что во вменяемой рознице по обещанной цене они будут в самом лучшем случае к следующему году, если вообще будут..
У меня только один момент в голове пока не сходится. Если например из Q4_K_<> мы потом во время инференса восстанвливаем с помощью групповых коэффициентов более точные значения, то почему модели с низким квантом занимают место в памяти все-таки пропорционально квантованному размеру, а не разбухают до базового FP32/16/8?
И хотелось бы все таки добавить, что perplexity - это отличный коэффициент для рассчёта, но к сожалению нет никаких гарантий, что в вашей конкретной задаче большее или меньшее его значение будет означать лучшие или худшие ответы. И еще сложнее оценить насколько они лучше или хуже (особенно, когда речь про совсем уж нетривиальные режимы квантования типа IQ и т.д)
Спустя двое суток 4.5К, шесть суток 7К, 15 суток - 10К.
Грубо предположив что дальше тренд будет таким же, получаем что максимум заинтересованных на бесконечном интервал врядли превысит 15 тысяч человек. У - Успешный Успех.
С высокой степенью вероятности это приложение только про LLM, т.е. image/text to text.
Все известные мне опенсорсные локальные видеогенераторы не которые не страшно смотреть начинались с "нууу, возьмите карту с 40gb vram... а лучше 80..", т.е. если вас не интересует получить видео 128х128 за сутки работы телефона, то врядли в ближайшее время на это стоит рассчитывать
А у него разве было что-то про достижение предела масштабируемости? Мне кажется у него прошлым летом была какая-то статья со слайдами с вполне себе кривой роста дальше едва ли не экспоненциальными темпами
Гонял вчера мелкую модель чисто на текстах, пока оочень спорные впечатления. Для дома выглядит - норм, но особого смысла от её ризонинга например перед gemma3 27b не увидел (разве что размер, если на домашней карте стартовать - будет больше места под контекст). Русский из объявления формально поддерживает (что-то у меня подозрения, что примерно в любой мультиязычной модели проще поддерживать русский просто из-за наличия в обучающих выборках), но в ответах валится регулярно на английские\китайские вкрапления в результат (читай "в прод из коробки нельзя"). Один раз так увлеклась, что 2\3 ризонинга провела на английском. Справедливости ради, в финальный ответ вернулась на язык запроса, но по-прежнему иногда вставляя английские слова (и это не термины, просто произвольное слово в предложении вдруг может быть на английском).
Из хорошего - за несколько десятков вопросов её ни разу не заклинило. Из плохого - пару раз видимо попадался EOS-токен в ризонниг-части, после чего движок всё останавливал.
40К контекст удержала с падением от 60 до 33t\s (имхо - норм, но тут все будет чудовищно зависеть от сетапа). Насколько понял Flash Answers - это какая-то фишка доступная только на их платформе, т.е. опять же дома ускорения в 10 раз не ждём.
Средняя версия на арене пока рядом с дипсиком, но так как про неё неизвестно примерно ничего (ни размера, ни весов, ни кода, ни даже известий о том,что их дадут) - то мне лично сложно сравнивать. Мелкой на арене пока не нашел.
Интересно, будет ли "большая" вслед за мелкой и средней (бегемота от лламы4 до сих пор ждём)
Ещё надо бы погонять на контекстах 40+ (обещают до 160 кажется, но с угрозой радикального падения скорости), посмотреть на стабильность языка отличного от русского, посравнивать с квеном лицом к лицу и попробовать кодинг
В оригинальном треде на реддите было очень много довольно обоснованных сомнений в том, что автор сделал и сделал ли что-нибудь. Ну и вообще там сабреддит n8n больше про успешный успех, а не про IT, так что я бы очень осторожно относился к информации оттуда.
Меня удручает даже не столько обилие чатов-болталок от openai, сколько их фантастический нейминг.
У нас есть
GPT-4o
o3
o3-pro [новенькая, про которую собственно новость]
o4-mini
o4-mini-high
GPT-4.5 preview [т.е. видимо еще появится какая-то 4.5 release.. или не появится]
GPT-4.1
GPT-4.1-mini
И еще парочка, про которые нам рассказывают (где-то там в недрах вроде как существует o4-pro которая оказалась слишком дорогой, где-то там тренируется и не может дотренироваться GPT-5.. и прочие байки из склепа)
И даже представляя, какая буква на какой позиции что должна означать... Ну хотя бы с появлением 4o и o4, кажется должен же был хоть у кого-то из именующих мозг включиться?
А на самом деле, всей информации - один пост в блоге МС из которого вопросов больше чем ответов, и пожалуй главный - а за чей счет праздник будет? Если мне память не изменяет, та же поддержка TB3 ни разу не бесплатная, и даже сейчас вполне себе существуют устройства с USB4 у которых совместимость с TB3/4 не заявлена. Я бы вот от души хотел, чтобы оно везде было и чтобы мертворожденный intel tb share везде был, но реальность упорно сопротивляется (хм, может это мера поддержки intel такая оригинальная?)
Из прочих милых мелочей, конечно же пропущенных в посте. Во-первых речь только про "mobile devices" и из контекста это ноутбуки и планшеты. Во-вторых участие добровольное, так что не "Microsoft вводит стандартизацию USB-C в экосистеме Windows", а в лучшем случае "предлагает стандартизацию на некоторых устройствах", а значит дежурный мем про 15 стандарт конечно же в силе.
В целом направление идеи, конечно приятное, но как выше заметили, этим бы стоило USB-IF заняться и в обязательном порядке, а не производителю операционной системы, у которой этой осенью намечается веселое время.
А, ну и конечно прелестная история, как автор того самого поста в блоге МС приуныл после того, как подключил монитор, а тот не подключился, конечно же ни разу решена не будет. Может монитор не в настроении был, или еще 100500 причин.
Вы хотите Deepseek 600B+ запустить на 16gb vram? o_O Или вообще какую-нибудь модель запустить на 16gb?
Второе легко. Как сказали выше - берете любую модель подходящего размера и запускаете - никаких проблем. В линейке MS Phi есть небольшие, у LLama есть, у Gemma есть, да много у кого есть отдельно тренированные модели, влезающие в 16Gb. Имхо, самый простой вариант для прям совсем новичка - LMStudio, чуть посложнее и в зависимости от навыка и задач - open webui/ollama, или чистая llamacpp - для экспериментов даже её встроенного минимального гуя хватит (ну и еще десятки разного рода оболочек и т.п.)
Первое - ну, кхм, удачи. На обычном десктопе (не сервере, не тредрипере) если прям задаться целью, можно максимально ужатый вариант загнать в 198Гб сборку (4х48Гб - сетап который еще возможно найти и упихать в десктоп). Но это чисто спортивный интерес. Ни пользоваться для каких-то минимально разумных задач, ни что-то адекватное из неё получать не удастся. Там проблемы буквально со всех сторон будут - и по памяти едва-едва влезет, под контекст места почти не останется, и по скорости это будет грусть-печаль (хотя вариант с последними оптимизациями, когда на gpu перегружается только кэш а остальное крутится на cpu в этом исполнении еще не пробовал), ну и ужатый до предела первый квант... это не то, к чему стоит стремиться. В совсем уж теории есть варианты с подкачкой с диска, когда даже ram недостаточно. Но это уже для совсем... крепких духом и свободным временем.
Эм, зачем? Это же не социальная сеть, живущая с рекламы. К тому же удержание ведет к прямым издержкам. Тогда уж возврат важнее удержания. А уж идеальный пользователь - это регулярно платящий и не воспользовавшийся ни разу (совсем хорошо, если передал всю свою информацию для тренировки и потом пропал с радаров, за исключением капающей ежемесячной суммы)
Я вот тоже не люблю когда отключается поддержка старых устройств и ос, и не очень понимаю идею обновления телефона каждый год, но... старше Android 5? Люди, страдающие в этом топике, вы правда 10-15+ лет используете одно устройство, оно вас целиком устраивает и ни разу не было других поводов поменять его, кроме прекращения работы whatsapp?? И мы точно про телефоны\планшеты со планируемым сроком жизни в несколько лет?
Я меняю телефоны примерно раз в 5 лет и с тех пор уже переползаю на третье устройство. Старый Sams Note 4 лежит в углу и всё ещё жив, но с момента покупки там трижды заменена батарея и один раз стекло. И это всё ещё подходящее по требованиям меты (если вы конечно ставили обновления) устройство. А предыдущий телефон на 4.х даже при минимальном регулярном использовании точно бы не дожил до 2025 года
Потому что оно реально так удобно, или потому что ...
Потому что оно реально так удобно. В "обычном" режиме я чаще пользуюсь цифрами над клавишами и это почти норма, если вдруг случается эпизод с активным вводом цифр - рука тянется на нампад, просто потому что это быстрее и проще.
не использовав компактную клавиатуру на продолжительный срок
Странная идея, страдать с устройством которым пользоваться неудобно (конкретному человеку, хорошо что вам комфортно с TKL), только чтобы получить подтверждение. К тому же, у многих есть этот опыт при использовании ноутбуков с разного рода искорежеными клавиатурами.
Буквально на днях проверял работу в лине на облачном gpu и сравнивал с win-домашним. На удивление домашний даже чуть побыстрее был. Разница в районе единиц процентов. С другой стороны на облачном еще может влиять интерференция от других пользователей. Но в любом случае речь не про десятки процентов.
Первую половину удивлялся, почему идея нахождения быстрого алгоритма была запущена на самом неочевидном для проверки скоростей языке, а во второй половине выяснилось, что самый быстрый алгоритм на питоне - это алгоритм в котором минимум питона. И почему же я не удивлён
Вроде бы веб-версия плюс-минус с мобильного работает. А если хотите свою - кто мешает сделать поддержку пакетов sigame? Насколько помню, там обычный xml-был. И вот уже гигантская база паков разной степени упоротости уже в наличии )
А могли бы пояснить механику вычисления? Если 80-90% популяции имела иммунитет, то снижение до 40%.. Это радикальное изменение популяции? Или детектируемый иммунитет относительно короткий? Или это на очень большом временном интервале изменение (что плюс-минус попадает в радикальное изменение популяции)? А то как-то в голове пока не складывается такой разброс
На лету - то есть на каждом проходе слоя для каждого токена выполняется это преобразование? У меня мелькала мысль о таком подходе, но навскидку казалось что потери должны быть заметно страшнее.
Про табличку еще вопрос - это ваши внутренние замеры, или такое где-то спрятано в глубинах обсуждений репы llama.cpp? Я просто как раз собирался погонять на разных квантах модели, чтобы собрать примерно такие же данные, но с радостью воспользуюсь и готовым результатом, если он в открытом доступе ))
И главный минус - их существование только в статьях интернета. Купить их до сих пор, насколько знаю негде. А учитывая, как нынешнее поколение nvidia появляется в продаже, есть подозрение, что во вменяемой рознице по обещанной цене они будут в самом лучшем случае к следующему году, если вообще будут..
Ого, огромное спасибо за статью и комментарии )
У меня только один момент в голове пока не сходится. Если например из Q4_K_<> мы потом во время инференса восстанвливаем с помощью групповых коэффициентов более точные значения, то почему модели с низким квантом занимают место в памяти все-таки пропорционально квантованному размеру, а не разбухают до базового FP32/16/8?
И хотелось бы все таки добавить, что perplexity - это отличный коэффициент для рассчёта, но к сожалению нет никаких гарантий, что в вашей конкретной задаче большее или меньшее его значение будет означать лучшие или худшие ответы. И еще сложнее оценить насколько они лучше или хуже (особенно, когда речь про совсем уж нетривиальные режимы квантования типа IQ и т.д)
Спустя двое суток 4.5К, шесть суток 7К, 15 суток - 10К.
Грубо предположив что дальше тренд будет таким же, получаем что максимум заинтересованных на бесконечном интервал врядли превысит 15 тысяч человек. У - Успешный Успех.
С высокой степенью вероятности это приложение только про LLM, т.е. image/text to text.
Все известные мне опенсорсные локальные видеогенераторы не которые не страшно смотреть начинались с "нууу, возьмите карту с 40gb vram... а лучше 80..", т.е. если вас не интересует получить видео 128х128 за сутки работы телефона, то врядли в ближайшее время на это стоит рассчитывать
А у него разве было что-то про достижение предела масштабируемости? Мне кажется у него прошлым летом была какая-то статья со слайдами с вполне себе кривой роста дальше едва ли не экспоненциальными темпами
Гонял вчера мелкую модель чисто на текстах, пока оочень спорные впечатления. Для дома выглядит - норм, но особого смысла от её ризонинга например перед gemma3 27b не увидел (разве что размер, если на домашней карте стартовать - будет больше места под контекст). Русский из объявления формально поддерживает (что-то у меня подозрения, что примерно в любой мультиязычной модели проще поддерживать русский просто из-за наличия в обучающих выборках), но в ответах валится регулярно на английские\китайские вкрапления в результат (читай "в прод из коробки нельзя"). Один раз так увлеклась, что 2\3 ризонинга провела на английском. Справедливости ради, в финальный ответ вернулась на язык запроса, но по-прежнему иногда вставляя английские слова (и это не термины, просто произвольное слово в предложении вдруг может быть на английском).
Из хорошего - за несколько десятков вопросов её ни разу не заклинило. Из плохого - пару раз видимо попадался EOS-токен в ризонниг-части, после чего движок всё останавливал.
40К контекст удержала с падением от 60 до 33t\s (имхо - норм, но тут все будет чудовищно зависеть от сетапа). Насколько понял Flash Answers - это какая-то фишка доступная только на их платформе, т.е. опять же дома ускорения в 10 раз не ждём.
Средняя версия на арене пока рядом с дипсиком, но так как про неё неизвестно примерно ничего (ни размера, ни весов, ни кода, ни даже известий о том,что их дадут) - то мне лично сложно сравнивать. Мелкой на арене пока не нашел.
Интересно, будет ли "большая" вслед за мелкой и средней (бегемота от лламы4 до сих пор ждём)
Ещё надо бы погонять на контекстах 40+ (обещают до 160 кажется, но с угрозой радикального падения скорости), посмотреть на стабильность языка отличного от русского, посравнивать с квеном лицом к лицу и попробовать кодинг
В оригинальном треде на реддите было очень много довольно обоснованных сомнений в том, что автор сделал и сделал ли что-нибудь. Ну и вообще там сабреддит n8n больше про успешный успех, а не про IT, так что я бы очень осторожно относился к информации оттуда.
Меня удручает даже не столько обилие чатов-болталок от openai, сколько их фантастический нейминг.
У нас есть
GPT-4o
o3
o3-pro [новенькая, про которую собственно новость]
o4-mini
o4-mini-high
GPT-4.5 preview [т.е. видимо еще появится какая-то 4.5 release.. или не появится]
GPT-4.1
GPT-4.1-mini
И еще парочка, про которые нам рассказывают (где-то там в недрах вроде как существует o4-pro которая оказалась слишком дорогой, где-то там тренируется и не может дотренироваться GPT-5.. и прочие байки из склепа)
И даже представляя, какая буква на какой позиции что должна означать... Ну хотя бы с появлением 4o и o4, кажется должен же был хоть у кого-то из именующих мозг включиться?
Можно общаться в 200-долларовой подписке(и больше) на сайте/приложении ИЛИ использовать апи с оплатой за токены
llama 405B примерно год назад вышла :D
А на самом деле, всей информации - один пост в блоге МС из которого вопросов больше чем ответов, и пожалуй главный - а за чей счет праздник будет? Если мне память не изменяет, та же поддержка TB3 ни разу не бесплатная, и даже сейчас вполне себе существуют устройства с USB4 у которых совместимость с TB3/4 не заявлена. Я бы вот от души хотел, чтобы оно везде было и чтобы мертворожденный intel tb share везде был, но реальность упорно сопротивляется (хм, может это мера поддержки intel такая оригинальная?)
Из прочих милых мелочей, конечно же пропущенных в посте. Во-первых речь только про "mobile devices" и из контекста это ноутбуки и планшеты. Во-вторых участие добровольное, так что не "Microsoft вводит стандартизацию USB-C в экосистеме Windows", а в лучшем случае "предлагает стандартизацию на некоторых устройствах", а значит дежурный мем про 15 стандарт конечно же в силе.
В целом направление идеи, конечно приятное, но как выше заметили, этим бы стоило USB-IF заняться и в обязательном порядке, а не производителю операционной системы, у которой этой осенью намечается веселое время.
А, ну и конечно прелестная история, как автор того самого поста в блоге МС приуныл после того, как подключил монитор, а тот не подключился, конечно же ни разу решена не будет. Может монитор не в настроении был, или еще 100500 причин.
Вы хотите Deepseek 600B+ запустить на 16gb vram? o_O
Или вообще какую-нибудь модель запустить на 16gb?
Второе легко. Как сказали выше - берете любую модель подходящего размера и запускаете - никаких проблем. В линейке MS Phi есть небольшие, у LLama есть, у Gemma есть, да много у кого есть отдельно тренированные модели, влезающие в 16Gb. Имхо, самый простой вариант для прям совсем новичка - LMStudio, чуть посложнее и в зависимости от навыка и задач - open webui/ollama, или чистая llamacpp - для экспериментов даже её встроенного минимального гуя хватит (ну и еще десятки разного рода оболочек и т.п.)
Первое - ну, кхм, удачи. На обычном десктопе (не сервере, не тредрипере) если прям задаться целью, можно максимально ужатый вариант загнать в 198Гб сборку (4х48Гб - сетап который еще возможно найти и упихать в десктоп). Но это чисто спортивный интерес. Ни пользоваться для каких-то минимально разумных задач, ни что-то адекватное из неё получать не удастся. Там проблемы буквально со всех сторон будут - и по памяти едва-едва влезет, под контекст места почти не останется, и по скорости это будет грусть-печаль (хотя вариант с последними оптимизациями, когда на gpu перегружается только кэш а остальное крутится на cpu в этом исполнении еще не пробовал), ну и ужатый до предела первый квант... это не то, к чему стоит стремиться. В совсем уж теории есть варианты с подкачкой с диска, когда даже ram недостаточно. Но это уже для совсем... крепких духом и свободным временем.
Эм, зачем? Это же не социальная сеть, живущая с рекламы. К тому же удержание ведет к прямым издержкам. Тогда уж возврат важнее удержания. А уж идеальный пользователь - это регулярно платящий и не воспользовавшийся ни разу (совсем хорошо, если передал всю свою информацию для тренировки и потом пропал с радаров, за исключением капающей ежемесячной суммы)
Я вот тоже не люблю когда отключается поддержка старых устройств и ос, и не очень понимаю идею обновления телефона каждый год, но... старше Android 5? Люди, страдающие в этом топике, вы правда 10-15+ лет используете одно устройство, оно вас целиком устраивает и ни разу не было других поводов поменять его, кроме прекращения работы whatsapp?? И мы точно про телефоны\планшеты со планируемым сроком жизни в несколько лет?
Я меняю телефоны примерно раз в 5 лет и с тех пор уже переползаю на третье устройство. Старый Sams Note 4 лежит в углу и всё ещё жив, но с момента покупки там трижды заменена батарея и один раз стекло. И это всё ещё подходящее по требованиям меты (если вы конечно ставили обновления) устройство. А предыдущий телефон на 4.х даже при минимальном регулярном использовании точно бы не дожил до 2025 года
Потому что оно реально так удобно. В "обычном" режиме я чаще пользуюсь цифрами над клавишами и это почти норма, если вдруг случается эпизод с активным вводом цифр - рука тянется на нампад, просто потому что это быстрее и проще.
Странная идея, страдать с устройством которым пользоваться неудобно (конкретному человеку, хорошо что вам комфортно с TKL), только чтобы получить подтверждение. К тому же, у многих есть этот опыт при использовании ноутбуков с разного рода искорежеными клавиатурами.