Комментарии / Профиль Marwin / Хабр

Вячеслав@Marwin

Руководитель команды разработки на .Net

Подписчики

ПрофильСтатьи1ПостыНовостиКомментарии650

Исследование: 68,2% домашних Wi-Fi-роутеров россиян устарели

да это понятно. так и сделано (хотя не без проблем: Home assistant на сервере, который в основном сегменте таки должен видеть локальные iot девайсы в гостевом, а значит пиринг сетей нужен. По крайней мере у меня не все девайсы облачные).

А так-то разговор всё ж больше о перегруженном эфире в 2.4.

Исследование: 68,2% домашних Wi-Fi-роутеров россиян устарели

Marwin 10 июн в 11:20

я бы рад был отключить у себя 2.4 диапазон, но в каждом первом умном девайсе... даже в новом кондее за сотку стоит копеечный esp32 чип для вафли только на 2.4. И что с этим делать - совершенно непонятно. Если роутер можно пойти и купить чуть подороже, то с такой техникой выбора часто в принципе не существует - за любую цену у тебя всё равно будет 2.4.

Лаборатория ИИ за 200 000 ₽: как мы собрали локальный ИИ-сервер на 2× Tesla V100

Marwin 31 мая в 12:16

не умаляя достоинств и сил, потраченных на статью, не могу еще раз не отметить, что стоимость потраченных человеко-часов инженера / энтузиаста, да кого угодно на борьбу с этими ~~ветряными мельницами~~ багами на устаревшем стэке просто умножает на ноль все эти преимущества и выгоды V100. И интересно разве что только в области ретро-компьютинга. Один день работ человека на багах / поиске рабочих комбинаций для компании стоит в лучшем случае 30 тыс. рублей. А сколько вы на это потратили времени? Даже один день этих работ окупает сходу любую водянку для двух 3090, которая решит проблемы с перегревом при работе 24/7. А может быть даже и 4090, которая держит FP8 и еще меньше проблем - просто берешь оригинальную FP8 модель с предсказуемыми параметрами, требуемыми ресурсами, пара строк в докер композе -> актуальный vllm и работаешь, а не вот это вот всё.

HP: 30% пользователей ПК пока не отказались от Windows 10

Marwin 30 мая в 08:00

я - с 2006 года постоянный участник программы бета / canary / insider и как там она миллион раз переименовывалась за последние 20 лет программы тестирования винды. Соответсвенно, на большинстве моих домашних компов только самые свежие бета версии ОС (ну и остального софта). Но даже у меня в семье есть комп, по которому бабушка смотрит онлайн ТВ с вин10, потому что само не обновляется из-за несовместимости, а накатывать руками в обход TPM лень и "некогда", хотя, конечно, хочется )) Но видимо так оно и останется навсегда пока комп до конца не откинется по железу. И подобных кейсов очевидно миллионы были, есть и будут.

FIRE: когда Цифра становится ответом на вопрос, который человек не может себе задать

Marwin 30 мая в 07:36

говоря про FIRE, почти всегда пишут с весьма однобокой эгоистичной точки зрения только про себя. Но многие люди всё таки планируют продолжать свой род. "знаю одного друга", который с ранних лет делал весьма удачные инвестиции в недвижку, и сейчас к 40 годам в принципе ничто не мешает ему взять и перестать работать, а только сдавать недвигу - на своё пропитание и путешествия хватит. Но... ведь надо начинать думать уже не только о себе, а о том, как заложить стартовый портфель своим будущим детям, чтобы и они дальше продолжили преумножать семейный капитал, а значит нужно еще больше недвиги и любая возможность зарабатывать максимум на что у тебя хватает ума. Никому же не хочется, чтобы его дети начинали жить с арендного бомжатника, а тратили деньги на развитие. А если вы в детстве такими не были, значит просто ваши родители постарались, а не плевали в потолок на проценты по вкладу только для себя.

RAG в enterprise: 70-80% проблем не в модели, а в данных

Marwin 20 мая в 13:15

спасибо за нюансы. буду радоваться, что у нас пока хватает железа для тяжелых версий под наш объем текстов )

RAG в enterprise: 70-80% проблем не в модели, а в данных

Marwin 18 мая в 10:20

На русских доменах у нас стабильно лучше работают multilingual-e5-large и jina-embeddings-v3

не в первой статье вижу, что multilingual-e5-large выбирают как предпочтительный эмбеддер для русского в RAG. Но почему? Уже год как существуют Qwen3 и Giga эмбеддеры, которые по нашим тестам (по крайней мере в задачах классификации) заметно превосходят упомянутых товарищей. Да и в лидерборде MTEB для русского они на первых позициях. Не спорю, они тяжелее, но всё равно могут работать даже на одной домашней видеокарте. Или есть какие-то нюансы, которые мы упускаем?

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Marwin 18 мая в 10:12

ну MTP не прям таки нивелирует разницу в скорости. Например, на Ampere картах разница между 27B и 35B примерно в 4 раза в фазе декода. А MTP даёт в лучшем случае х2

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

Marwin 8 мая в 16:12

llama-bench -p 1024 -n 64 -d 0,8192,12288,16384,32768 --model "Qwopus3.6-27B-v1-preview-Q5_K_M.gguf"
ggml_cuda_init: found 2 CUDA devices (Total VRAM: 49151 MiB):
  Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes, VRAM: 24575 MiB
  Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes, VRAM: 24575 MiB
| model                          |       size |     params | backend    | ngl |            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 |          pp1024 |      1464.22 + 14.91 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 |            tg64 |         35.22 + 0.07 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 |  pp1024 @ d8192 |       1267.71 + 8.30 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 |    tg64 @ d8192 |         33.38 + 0.16 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 | pp1024 @ d12288 |       1173.65 + 4.40 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 |   tg64 @ d12288 |         31.97 + 0.10 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 | pp1024 @ d16384 |       1094.70 + 4.80 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 |   tg64 @ d16384 |         29.25 + 0.10 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 | pp1024 @ d32768 |        766.98 + 2.16 |
| qwen35 27B Q5_K - Medium       |  17.90 GiB |    26.90 B | CUDA       |  99 |   tg64 @ d32768 |         23.49 + 0.05 |
build: 2496f9c14 (9049)

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

Marwin 7 мая в 10:07

да, кодит лучше. меньше ошибок и вообще с виду плюс минус адекватно. По крайней мере на C#.

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

Marwin 7 мая в 09:39

Квопусы от Jackrong - очень достойные файнтюны... всё расписано на чём дообучено и зачем. Я перешел на квопус 27B вместо оригинальных версий в claude code - разница заметна. на 48GB VRAM отлично достаточно быстро работает.

Сколько на самом деле стоит GenAI в продакшене

Marwin 1 мая в 19:53

Я бы еще отметил один неочевидный нюанс при варианте со своим оборудованием, который может сильно просадить сроки окупаемости и вообще любые сроки. Если компания решается закупить железо за кучу миллионов, значит компания чаще более менее крупная с приличным штатом разработчиков. А значит и далеко не одной командой, которых будут просить переносить на ИИ рельсы внутренние бизнес-процессы или различные разрабатываемые продукты. А это это значит, что ты не будешь единственным пользователем этого сервера. А значит нужна отдельная команда, которая будет рулить правами доступа, регламентом обращений, балансировкой нагрузки и вот этим всем. А это значит что ты неделями будешь ждать пока эта команда соизволит обновить модель на сервере, поменять одну на другую, выложить обновленный python скрипт. А тебе это нужно делать десятки раз для проверки гипотез, сравнения эвалов и всего подобного.

Более того, эта самая команда в принципе не может разрешить тебе грузить сервер на 100%, ибо есть другие команды, которые должны иметь возможность получать ответы в чатике не через 5 минут… а у тебя наоборот пакетная дата-процессинговая нагрузка, которая должна положить сервер в полку на неделю, ибо клиент ждёт и тебе в лучшем случае выделят процентов 50 от ресурсов. Остальное просто будет простаивать в ожидании пришествия единичных юзеров. А более умную балансировку нагрузки писать некому и вообще непонятно как. Я вот устал ждать всего это… собрал у себя дома сервер с аналогичным железом (ну пусть на меньшем количестве карт), благо 48ГБ VRAM напихать достаточно недорого, а уже вполне достаточно для хотя бы тестирования на приличных моделях. И можно менять модели, эмбеддеры, реранкеры хоть по 10 раз на день в зависимости от целей, условий, сложности промптов текущей задачи. Ну либо да, облако, если личного авантюризма не хватает. И уже финальные комбинации оттестированные и оптимизированные просить собирать на корпоративном сервере.

Microsoft тестирует улучшения скорости и производительности проводника Windows 11

Marwin 21 апр в 13:31

о том и речь, непонятно за что его так любят и типо мол лучшее, что щас есть вместо проводника. Хотя по факту по скорости никто превзойти проводник не может. Да, в нём категорически сломана строка поиска, спору нет, но в остальном-то какие к нему претензии? Разве что в 7-zip всё так же быстро и отлично, но это всё таки сомнительная замена проводнику )

Microsoft тестирует улучшения скорости и производительности проводника Windows 11

Marwin 21 апр в 08:52

Оффтоп
Как замену проводника - активно форсят Files. Я всё пытаюсь его понять и принять... но крайне бесит его асинхронная загрузка листинга файлов. Ну это же бред: сначала ты рендеришь исходный список, потом заменяешь уже отрисованные названия типов файлов в колонке Type, потом применяешь кастомную (ранее запомненную) для этой папки сортировку файлов. Иконки тоже рендерятся сначала пустые, потом заполняются. Да, это занимает долю секунды... но зачем вообще это делать дважды? Оригинальный проводник же с этим справляется мгновенно.

Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Marwin 13 апр в 08:33

разве nvlink что-то даёт на десктопных картах? там вроде серверный довольно быстрый, а обычный - там что-то вроде единиц процентов преимущество относительно обычной переброски через PCI-ex. У меня две 3090 через PCI-ex. Сначала была одна... было так себе, приходилось подбирать каждый раз окно контекста. С двумя вообще перестал заморачиваться, да еще и эмбеддер влезает рядом (для моих задач он нужен одновременно запущенный). С недавних пор даже llama.cpp хорошо делит на две карты нагрузку.. не так как vllm но всё же неплохо. Но греются, да, спору нет, но опять же, можно уменьшить powerlimit... при 70% скорость почти не проседает.

А прогресс... мне кажется, что вот как раз он уже сильно приблизился после выхода квена 3.5 и gemma 4. И уже эти модели прям хорошо пашут на многих задачах локально. До них было сильно скучнее, согласен.

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Marwin 9 апр в 14:59

подразумеваете, что gemma-4-26b-a4b качественней, чем 35b и 80b ? Я вот провел тесты в своих задачах на категоризацию номенклатуры и парсинг/извлечение данных. Не вижу значимых отличий. Где-то 35b точнее, где-то gemma-4-26b... явный фаворит не выделяется.
Разве что в режиме болталки я с ними не общался, да, там может быть.

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Marwin 8 апр в 17:22

я даже больше скажу... так как за 60к уже можно купить 3090, на которой 35B из статьи прекрасно работает на 100t/s и без бубна, то всё, что тут в статье написано представляет собой исключительно академический интерес.

Нейросеть проверила 100 сборок ПК с Хабра: ошибки допускает каждый второй

Marwin 27 мар в 18:49

Раз уж такая пляска... я - тот самый человек с хабра, у кого таки есть Intel 12 поколения с DDR4. Если быть точнее, то 12700K + 128GB DDR4 3600 да еще и с двумя 3090... удачи тебе, клод, доказать мне, как сильно я ошибался, собирая всё это в один системник.

ах да, еще у меня есть собссно основной комп на предтоповом 265K только со встройкой и без дискретки - просто апогей несбалансированности.

AmneziaWG 2.0: от маскировки трафика к мимикрии

Marwin 25 мар в 08:25

вроде в текущей альфе 5.1 добавили

Апгрейды ПК, которые выглядели логичными, но не дали почти ничего

Marwin 24 фев в 10:45

Давайте теперь статью: апгрейды, которые выглядели нелогичными, а теперь это золото.

Всего пару лет назад я с трудом представлял кому в здравом уме может понадобиться nvidia видеокарта линейки хх90... или 256 гигов оперативы в домашних условиях. Сегодня же я просто фейспамлю с себя, что не просчитал свои рабочие потребности и упустил возможность взять вовремя 4090 за какие-то копейки, а лучше бы четыре да оперативы на полтерабайта.

2 3 ...

32 33

Информация

Специализация