Comments / Profile of molnij / Habr

How to become an author

User

ProfileArticlesPostsNews1Comments733

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

molnij Jun 30 at 09:19

Буквально на днях проверял работу в лине на облачном gpu и сравнивал с win-домашним. На удивление домашний даже чуть побыстрее был. Разница в районе единиц процентов. С другой стороны на облачном еще может влиять интерференция от других пользователей. Но в любом случае речь не про десятки процентов.

Самый быстрый способ нахождения гласной в строке

molnij Jun 26 at 09:14

Первую половину удивлялся, почему идея нахождения быстрого алгоритма была запущена на самом неочевидном для проверки скоростей языке, а во второй половине выяснилось, что самый быстрый алгоритм на питоне - это алгоритм в котором минимум питона. И почему же я не удивлён

SIGame в 2025 году — полный гайд по «Своей Игре»

molnij Jun 24 at 11:21

Вроде бы веб-версия плюс-минус с мобильного работает. А если хотите свою - кто мешает сделать поддержку пакетов sigame? Насколько помню, там обычный xml-был. И вот уже гигантская база паков разной степени упоротости уже в наличии )

Токсоплазма и Токсоплазмоз или Одноклеточное, которое (похоже) научилось стерилизовать мужчин

molnij Jun 24 at 03:24

А могли бы пояснить механику вычисления? Если 80-90% популяции имела иммунитет, то снижение до 40%.. Это радикальное изменение популяции? Или детектируемый иммунитет относительно короткий? Или это на очень большом временном интервале изменение (что плюс-минус попадает в радикальное изменение популяции)? А то как-то в голове пока не складывается такой разброс

Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

molnij Jun 23 at 02:53

Веса распаковываются на лету, потери на распаковку компенсируются общим выигрышем по размеру.

На лету - то есть на каждом проходе слоя для каждого токена выполняется это преобразование? У меня мелькала мысль о таком подходе, но навскидку казалось что потери должны быть заметно страшнее.

Про табличку еще вопрос - это ваши внутренние замеры, или такое где-то спрятано в глубинах обсуждений репы llama.cpp? Я просто как раз собирался погонять на разных квантах модели, чтобы собрать примерно такие же данные, но с радостью воспользуюсь и готовым результатом, если он в открытом доступе ))

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

molnij Jun 21 at 15:49

И главный минус - их существование только в статьях интернета. Купить их до сих пор, насколько знаю негде. А учитывая, как нынешнее поколение nvidia появляется в продаже, есть подозрение, что во вменяемой рознице по обещанной цене они будут в самом лучшем случае к следующему году, если вообще будут..

Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

molnij Jun 19 at 17:36

Ого, огромное спасибо за статью и комментарии )

У меня только один момент в голове пока не сходится. Если например из Q4_K_<> мы потом во время инференса восстанвливаем с помощью групповых коэффициентов более точные значения, то почему модели с низким квантом занимают место в памяти все-таки пропорционально квантованному размеру, а не разбухают до базового FP32/16/8?

И хотелось бы все таки добавить, что perplexity - это отличный коэффициент для рассчёта, но к сожалению нет никаких гарантий, что в вашей конкретной задаче большее или меньшее его значение будет означать лучшие или худшие ответы. И еще сложнее оценить насколько они лучше или хуже (особенно, когда речь про совсем уж нетривиальные режимы квантования типа IQ и т.д)

Спустя 15 суток после открытия доступа к системе сертификации IT‑специалистов на «Госуслугах» пройдены тесты 9999 раз

molnij Jun 17 at 06:56

Спустя двое суток 4.5К, шесть суток 7К, 15 суток - 10К.

Грубо предположив что дальше тренд будет таким же, получаем что максимум заинтересованных на бесконечном интервал врядли превысит 15 тысяч человек. У - Успешный Успех.

Приложение, которое позволяет запускать модели ИИ локально на смартфон, пробуем установить

molnij Jun 15 at 09:21

С высокой степенью вероятности это приложение только про LLM, т.е. image/text to text.

Все известные мне опенсорсные локальные видеогенераторы не которые не страшно смотреть начинались с "нууу, возьмите карту с 40gb vram... а лучше 80..", т.е. если вас не интересует получить видео 128х128 за сутки работы телефона, то врядли в ближайшее время на это стоит рассчитывать

Почему от ИИ не спрятаться, по версии Суцкевера

molnij Jun 11 at 06:45

А у него разве было что-то про достижение предела масштабируемости? Мне кажется у него прошлым летом была какая-то статья со слайдами с вполне себе кривой роста дальше едва ли не экспоненциальными темпами

Mistral выпустил новую reasoning модель Magistral с русским языком

molnij Jun 11 at 06:40

Гонял вчера мелкую модель чисто на текстах, пока оочень спорные впечатления. Для дома выглядит - норм, но особого смысла от её ризонинга например перед gemma3 27b не увидел (разве что размер, если на домашней карте стартовать - будет больше места под контекст). Русский из объявления формально поддерживает (что-то у меня подозрения, что примерно в любой мультиязычной модели проще поддерживать русский просто из-за наличия в обучающих выборках), но в ответах валится регулярно на английские\китайские вкрапления в результат (читай "в прод из коробки нельзя"). Один раз так увлеклась, что 2\3 ризонинга провела на английском. Справедливости ради, в финальный ответ вернулась на язык запроса, но по-прежнему иногда вставляя английские слова (и это не термины, просто произвольное слово в предложении вдруг может быть на английском).

Из хорошего - за несколько десятков вопросов её ни разу не заклинило. Из плохого - пару раз видимо попадался EOS-токен в ризонниг-части, после чего движок всё останавливал.

40К контекст удержала с падением от 60 до 33t\s (имхо - норм, но тут все будет чудовищно зависеть от сетапа). Насколько понял Flash Answers - это какая-то фишка доступная только на их платформе, т.е. опять же дома ускорения в 10 раз не ждём.

Средняя версия на арене пока рядом с дипсиком, но так как про неё неизвестно примерно ничего (ни размера, ни весов, ни кода, ни даже известий о том,что их дадут) - то мне лично сложно сравнивать. Мелкой на арене пока не нашел.

Интересно, будет ли "большая" вслед за мелкой и средней (бегемота от лламы4 до сих пор ждём)

Ещё надо бы погонять на контекстах 40+ (обещают до 160 кажется, но с угрозой радикального падения скорости), посмотреть на стабильность языка отличного от русского, посравнивать с квеном лицом к лицу и попробовать кодинг

Фрилансер рассказал про контракт, в рамках которого за $35 тыс. развернёт ИИ-решение на Llama 3 70B

molnij Jun 11 at 04:30

В оригинальном треде на реддите было очень много довольно обоснованных сомнений в том, что автор сделал и сделал ли что-нибудь. Ну и вообще там сабреддит n8n больше про успешный успех, а не про IT, так что я бы очень осторожно относился к информации оттуда.

Вышла ChatGPT o3-Pro — самая мощная (и дорогая) модель OpenAI

molnij Jun 11 at 03:44

Меня удручает даже не столько обилие чатов-болталок от openai, сколько их фантастический нейминг.

У нас есть

GPT-4o
o3
o3-pro [новенькая, про которую собственно новость]
o4-mini
o4-mini-high
GPT-4.5 preview [т.е. видимо еще появится какая-то 4.5 release.. или не появится]
GPT-4.1
GPT-4.1-mini

И еще парочка, про которые нам рассказывают (где-то там в недрах вроде как существует o4-pro которая оказалась слишком дорогой, где-то там тренируется и не может дотренироваться GPT-5.. и прочие байки из склепа)

И даже представляя, какая буква на какой позиции что должна означать... Ну хотя бы с появлением 4o и o4, кажется должен же был хоть у кого-то из именующих мозг включиться?

Вышла ChatGPT o3-Pro — самая мощная (и дорогая) модель OpenAI

molnij Jun 11 at 03:31

Можно общаться в 200-долларовой подписке(и больше) на сайте/приложении ИЛИ использовать апи с оплатой за токены

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

molnij Jun 11 at 02:50

llama 405B примерно год назад вышла :D

Что не так с USB-C и как Microsoft наводит порядки в стандарте

molnij Jun 10 at 08:14

А на самом деле, всей информации - один пост в блоге МС из которого вопросов больше чем ответов, и пожалуй главный - а за чей счет праздник будет? Если мне память не изменяет, та же поддержка TB3 ни разу не бесплатная, и даже сейчас вполне себе существуют устройства с USB4 у которых совместимость с TB3/4 не заявлена. Я бы вот от души хотел, чтобы оно везде было и чтобы мертворожденный intel tb share везде был, но реальность упорно сопротивляется (хм, может это мера поддержки intel такая оригинальная?)

Из прочих милых мелочей, конечно же пропущенных в посте. Во-первых речь только про "mobile devices" и из контекста это ноутбуки и планшеты. Во-вторых участие добровольное, так что не "Microsoft вводит стандартизацию USB-C в экосистеме Windows", а в лучшем случае "предлагает стандартизацию на некоторых устройствах", а значит дежурный мем про 15 стандарт конечно же в силе.

В целом направление идеи, конечно приятное, но как выше заметили, этим бы стоило USB-IF заняться и в обязательном порядке, а не производителю операционной системы, у которой этой осенью намечается веселое время.

А, ну и конечно прелестная история, как автор того самого поста в блоге МС приуныл после того, как подключил монитор, а тот не подключился, конечно же ни разу решена не будет. Может монитор не в настроении был, или еще 100500 причин.

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

molnij Jun 10 at 05:41

Вы хотите Deepseek 600B+ запустить на 16gb vram? o_O
Или вообще какую-нибудь модель запустить на 16gb?

Второе легко. Как сказали выше - берете любую модель подходящего размера и запускаете - никаких проблем. В линейке MS Phi есть небольшие, у LLama есть, у Gemma есть, да много у кого есть отдельно тренированные модели, влезающие в 16Gb. Имхо, самый простой вариант для прям совсем новичка - LMStudio, чуть посложнее и в зависимости от навыка и задач - open webui/ollama, или чистая llamacpp - для экспериментов даже её встроенного минимального гуя хватит (ну и еще десятки разного рода оболочек и т.п.)

Первое - ну, кхм, удачи. На обычном десктопе (не сервере, не тредрипере) если прям задаться целью, можно максимально ужатый вариант загнать в 198Гб сборку (4х48Гб - сетап который еще возможно найти и упихать в десктоп). Но это чисто спортивный интерес. Ни пользоваться для каких-то минимально разумных задач, ни что-то адекватное из неё получать не удастся. Там проблемы буквально со всех сторон будут - и по памяти едва-едва влезет, под контекст места почти не останется, и по скорости это будет грусть-печаль (хотя вариант с последними оптимизациями, когда на gpu перегружается только кэш а остальное крутится на cpu в этом исполнении еще не пробовал), ну и ужатый до предела первый квант... это не то, к чему стоит стремиться. В совсем уж теории есть варианты с подкачкой с диска, когда даже ram недостаточно. Но это уже для совсем... крепких духом и свободным временем.

Модераторы сообщества Reddit рассказали о сошедших с ума пользователях ChatGPT

molnij Jun 4 at 03:33

Эм, зачем? Это же не социальная сеть, живущая с рекламы. К тому же удержание ведет к прямым издержкам. Тогда уж возврат важнее удержания. А уж идеальный пользователь - это регулярно платящий и не воспользовавшийся ни разу (совсем хорошо, если передал всю свою информацию для тренировки и потом пропал с радаров, за исключением капающей ежемесячной суммы)

С 1 июня WhatsApp перестанет работать на смартфонах с Android 5.0 и старше и на iPhone 5s, iPhone 6 и iPhone 6 Plus

molnij Jun 2 at 07:07

Я вот тоже не люблю когда отключается поддержка старых устройств и ос, и не очень понимаю идею обновления телефона каждый год, но... старше Android 5? Люди, страдающие в этом топике, вы правда 10-15+ лет используете одно устройство, оно вас целиком устраивает и ни разу не было других поводов поменять его, кроме прекращения работы whatsapp?? И мы точно про телефоны\планшеты со планируемым сроком жизни в несколько лет?

Я меняю телефоны примерно раз в 5 лет и с тех пор уже переползаю на третье устройство. Старый Sams Note 4 лежит в углу и всё ещё жив, но с момента покупки там трижды заменена батарея и один раз стекло. И это всё ещё подходящее по требованиям меты (если вы конечно ставили обновления) устройство. А предыдущий телефон на 4.х даже при минимальном регулярном использовании точно бы не дожил до 2025 года

Я недооценивал цифровой блок клавиатуры

molnij Jun 2 at 07:01

Потому что оно реально так удобно, или потому что ...

Потому что оно реально так удобно. В "обычном" режиме я чаще пользуюсь цифрами над клавишами и это почти норма, если вдруг случается эпизод с активным вводом цифр - рука тянется на нампад, просто потому что это быстрее и проще.

не использовав компактную клавиатуру на продолжительный срок

Странная идея, страдать с устройством которым пользоваться неудобно (конкретному человеку, хорошо что вам комфортно с TKL), только чтобы получить подтверждение. К тому же, у многих есть этот опыт при использовании ноутбуков с разного рода искорежеными клавиатурами.

1

2 3 ...