не умаляя достоинств и сил, потраченных на статью, не могу еще раз не отметить, что стоимость потраченных человеко-часов инженера / энтузиаста, да кого угодно на борьбу с этими ветряными мельницами багами на устаревшем стэке просто умножает на ноль все эти преимущества и выгоды V100. И интересно разве что только в области ретро-компьютинга. Один день работ человека на багах / поиске рабочих комбинаций для компании стоит в лучшем случае 30 тыс. рублей. А сколько вы на это потратили времени? Даже один день этих работ окупает сходу любую водянку для двух 3090, которая решит проблемы с перегревом при работе 24/7. А может быть даже и 4090, которая держит FP8 и еще меньше проблем - просто берешь оригинальную FP8 модель с предсказуемыми параметрами, требуемыми ресурсами, пара строк в докер композе -> актуальный vllm и работаешь, а не вот это вот всё.
я - с 2006 года постоянный участник программы бета / canary / insider и как там она миллион раз переименовывалась за последние 20 лет программы тестирования винды. Соответсвенно, на большинстве моих домашних компов только самые свежие бета версии ОС (ну и остального софта). Но даже у меня в семье есть комп, по которому бабушка смотрит онлайн ТВ с вин10, потому что само не обновляется из-за несовместимости, а накатывать руками в обход TPM лень и "некогда", хотя, конечно, хочется )) Но видимо так оно и останется навсегда пока комп до конца не откинется по железу. И подобных кейсов очевидно миллионы были, есть и будут.
говоря про FIRE, почти всегда пишут с весьма однобокой эгоистичной точки зрения только про себя. Но многие люди всё таки планируют продолжать свой род. "знаю одного друга", который с ранних лет делал весьма удачные инвестиции в недвижку, и сейчас к 40 годам в принципе ничто не мешает ему взять и перестать работать, а только сдавать недвигу - на своё пропитание и путешествия хватит. Но... ведь надо начинать думать уже не только о себе, а о том, как заложить стартовый портфель своим будущим детям, чтобы и они дальше продолжили преумножать семейный капитал, а значит нужно еще больше недвиги и любая возможность зарабатывать максимум на что у тебя хватает ума. Никому же не хочется, чтобы его дети начинали жить с арендного бомжатника, а тратили деньги на развитие. А если вы в детстве такими не были, значит просто ваши родители постарались, а не плевали в потолок на проценты по вкладу только для себя.
На русских доменах у нас стабильно лучше работают multilingual-e5-large и jina-embeddings-v3
не в первой статье вижу, что multilingual-e5-large выбирают как предпочтительный эмбеддер для русского в RAG. Но почему? Уже год как существуют Qwen3 и Giga эмбеддеры, которые по нашим тестам (по крайней мере в задачах классификации) заметно превосходят упомянутых товарищей. Да и в лидерборде MTEB для русского они на первых позициях. Не спорю, они тяжелее, но всё равно могут работать даже на одной домашней видеокарте. Или есть какие-то нюансы, которые мы упускаем?
ну MTP не прям таки нивелирует разницу в скорости. Например, на Ampere картах разница между 27B и 35B примерно в 4 раза в фазе декода. А MTP даёт в лучшем случае х2
Квопусы от Jackrong - очень достойные файнтюны... всё расписано на чём дообучено и зачем. Я перешел на квопус 27B вместо оригинальных версий в claude code - разница заметна. на 48GB VRAM отлично достаточно быстро работает.
Я бы еще отметил один неочевидный нюанс при варианте со своим оборудованием, который может сильно просадить сроки окупаемости и вообще любые сроки. Если компания решается закупить железо за кучу миллионов, значит компания чаще более менее крупная с приличным штатом разработчиков. А значит и далеко не одной командой, которых будут просить переносить на ИИ рельсы внутренние бизнес-процессы или различные разрабатываемые продукты. А это это значит, что ты не будешь единственным пользователем этого сервера. А значит нужна отдельная команда, которая будет рулить правами доступа, регламентом обращений, балансировкой нагрузки и вот этим всем. А это значит что ты неделями будешь ждать пока эта команда соизволит обновить модель на сервере, поменять одну на другую, выложить обновленный python скрипт. А тебе это нужно делать десятки раз для проверки гипотез, сравнения эвалов и всего подобного.
Более того, эта самая команда в принципе не может разрешить тебе грузить сервер на 100%, ибо есть другие команды, которые должны иметь возможность получать ответы в чатике не через 5 минут… а у тебя наоборот пакетная дата-процессинговая нагрузка, которая должна положить сервер в полку на неделю, ибо клиент ждёт и тебе в лучшем случае выделят процентов 50 от ресурсов. Остальное просто будет простаивать в ожидании пришествия единичных юзеров. А более умную балансировку нагрузки писать некому и вообще непонятно как. Я вот устал ждать всего это… собрал у себя дома сервер с аналогичным железом (ну пусть на меньшем количестве карт), благо 48ГБ VRAM напихать достаточно недорого, а уже вполне достаточно для хотя бы тестирования на приличных моделях. И можно менять модели, эмбеддеры, реранкеры хоть по 10 раз на день в зависимости от целей, условий, сложности промптов текущей задачи. Ну либо да, облако, если личного авантюризма не хватает. И уже финальные комбинации оттестированные и оптимизированные просить собирать на корпоративном сервере.
о том и речь, непонятно за что его так любят и типо мол лучшее, что щас есть вместо проводника. Хотя по факту по скорости никто превзойти проводник не может. Да, в нём категорически сломана строка поиска, спору нет, но в остальном-то какие к нему претензии? Разве что в 7-zip всё так же быстро и отлично, но это всё таки сомнительная замена проводнику )
Оффтоп Как замену проводника - активно форсят Files. Я всё пытаюсь его понять и принять... но крайне бесит его асинхронная загрузка листинга файлов. Ну это же бред: сначала ты рендеришь исходный список, потом заменяешь уже отрисованные названия типов файлов в колонке Type, потом применяешь кастомную (ранее запомненную) для этой папки сортировку файлов. Иконки тоже рендерятся сначала пустые, потом заполняются. Да, это занимает долю секунды... но зачем вообще это делать дважды? Оригинальный проводник же с этим справляется мгновенно.
разве nvlink что-то даёт на десктопных картах? там вроде серверный довольно быстрый, а обычный - там что-то вроде единиц процентов преимущество относительно обычной переброски через PCI-ex. У меня две 3090 через PCI-ex. Сначала была одна... было так себе, приходилось подбирать каждый раз окно контекста. С двумя вообще перестал заморачиваться, да еще и эмбеддер влезает рядом (для моих задач он нужен одновременно запущенный). С недавних пор даже llama.cpp хорошо делит на две карты нагрузку.. не так как vllm но всё же неплохо. Но греются, да, спору нет, но опять же, можно уменьшить powerlimit... при 70% скорость почти не проседает.
А прогресс... мне кажется, что вот как раз он уже сильно приблизился после выхода квена 3.5 и gemma 4. И уже эти модели прям хорошо пашут на многих задачах локально. До них было сильно скучнее, согласен.
подразумеваете, что gemma-4-26b-a4b качественней, чем 35b и 80b ? Я вот провел тесты в своих задачах на категоризацию номенклатуры и парсинг/извлечение данных. Не вижу значимых отличий. Где-то 35b точнее, где-то gemma-4-26b... явный фаворит не выделяется. Разве что в режиме болталки я с ними не общался, да, там может быть.
я даже больше скажу... так как за 60к уже можно купить 3090, на которой 35B из статьи прекрасно работает на 100t/s и без бубна, то всё, что тут в статье написано представляет собой исключительно академический интерес.
Раз уж такая пляска... я - тот самый человек с хабра, у кого таки есть Intel 12 поколения с DDR4. Если быть точнее, то 12700K + 128GB DDR4 3600 да еще и с двумя 3090... удачи тебе, клод, доказать мне, как сильно я ошибался, собирая всё это в один системник.
ах да, еще у меня есть собссно основной комп на предтоповом 265K только со встройкой и без дискретки - просто апогей несбалансированности.
Давайте теперь статью: апгрейды, которые выглядели нелогичными, а теперь это золото.
Всего пару лет назад я с трудом представлял кому в здравом уме может понадобиться nvidia видеокарта линейки хх90... или 256 гигов оперативы в домашних условиях. Сегодня же я просто фейспамлю с себя, что не просчитал свои рабочие потребности и упустил возможность взять вовремя 4090 за какие-то копейки, а лучше бы четыре да оперативы на полтерабайта.
не знаю насколько эта информация попадает под какие-нить секретные грифы... но можно было бы хотя бы просто вывести heatmap с зонами в виде слоя для оценки проблемности места, куда хочешь приехать.
1) Еще 100500 лет назад надо было наряду с галочкой "избегать платных дорог" добавить галочку избегать зон без GPS. Ну и да, я тоже из тех, что выбирает маршрут "попрямее" вместо побыстрее, ибо подвеска хрустальная... надо беречь... а в "попрямее" обычно дороги более крупные, целее и без лежачих.
2) Возможно мой кейс не самый распространённый... но можно что-то думать с дорогами разной степени платности. Очевидно, что я никогда в жизни в здравом уме не поеду по проспекту Багратиона, а маршрут-то строится... и галочка бы его отключила, но дальше начинается дешманская можайка, а по ней уже вполне нормально ехать платно.
не умаляя достоинств и сил, потраченных на статью, не могу еще раз не отметить, что стоимость потраченных человеко-часов инженера / энтузиаста, да кого угодно на борьбу с этими
ветряными мельницамибагами на устаревшем стэке просто умножает на ноль все эти преимущества и выгоды V100. И интересно разве что только в области ретро-компьютинга. Один день работ человека на багах / поиске рабочих комбинаций для компании стоит в лучшем случае 30 тыс. рублей. А сколько вы на это потратили времени? Даже один день этих работ окупает сходу любую водянку для двух 3090, которая решит проблемы с перегревом при работе 24/7. А может быть даже и 4090, которая держит FP8 и еще меньше проблем - просто берешь оригинальную FP8 модель с предсказуемыми параметрами, требуемыми ресурсами, пара строк в докер композе -> актуальный vllm и работаешь, а не вот это вот всё.я - с 2006 года постоянный участник программы бета / canary / insider и как там она миллион раз переименовывалась за последние 20 лет программы тестирования винды. Соответсвенно, на большинстве моих домашних компов только самые свежие бета версии ОС (ну и остального софта). Но даже у меня в семье есть комп, по которому бабушка смотрит онлайн ТВ с вин10, потому что само не обновляется из-за несовместимости, а накатывать руками в обход TPM лень и "некогда", хотя, конечно, хочется )) Но видимо так оно и останется навсегда пока комп до конца не откинется по железу. И подобных кейсов очевидно миллионы были, есть и будут.
говоря про FIRE, почти всегда пишут с весьма однобокой эгоистичной точки зрения только про себя. Но многие люди всё таки планируют продолжать свой род. "знаю одного друга", который с ранних лет делал весьма удачные инвестиции в недвижку, и сейчас к 40 годам в принципе ничто не мешает ему взять и перестать работать, а только сдавать недвигу - на своё пропитание и путешествия хватит. Но... ведь надо начинать думать уже не только о себе, а о том, как заложить стартовый портфель своим будущим детям, чтобы и они дальше продолжили преумножать семейный капитал, а значит нужно еще больше недвиги и любая возможность зарабатывать максимум на что у тебя хватает ума. Никому же не хочется, чтобы его дети начинали жить с арендного бомжатника, а тратили деньги на развитие. А если вы в детстве такими не были, значит просто ваши родители постарались, а не плевали в потолок на проценты по вкладу только для себя.
спасибо за нюансы. буду радоваться, что у нас пока хватает железа для тяжелых версий под наш объем текстов )
не в первой статье вижу, что multilingual-e5-large выбирают как предпочтительный эмбеддер для русского в RAG. Но почему? Уже год как существуют Qwen3 и Giga эмбеддеры, которые по нашим тестам (по крайней мере в задачах классификации) заметно превосходят упомянутых товарищей. Да и в лидерборде MTEB для русского они на первых позициях. Не спорю, они тяжелее, но всё равно могут работать даже на одной домашней видеокарте. Или есть какие-то нюансы, которые мы упускаем?
ну MTP не прям таки нивелирует разницу в скорости. Например, на Ampere картах разница между 27B и 35B примерно в 4 раза в фазе декода. А MTP даёт в лучшем случае х2
да, кодит лучше. меньше ошибок и вообще с виду плюс минус адекватно. По крайней мере на C#.
Квопусы от Jackrong - очень достойные файнтюны... всё расписано на чём дообучено и зачем. Я перешел на квопус 27B вместо оригинальных версий в claude code - разница заметна. на 48GB VRAM отлично достаточно быстро работает.
Я бы еще отметил один неочевидный нюанс при варианте со своим оборудованием, который может сильно просадить сроки окупаемости и вообще любые сроки. Если компания решается закупить железо за кучу миллионов, значит компания чаще более менее крупная с приличным штатом разработчиков. А значит и далеко не одной командой, которых будут просить переносить на ИИ рельсы внутренние бизнес-процессы или различные разрабатываемые продукты. А это это значит, что ты не будешь единственным пользователем этого сервера. А значит нужна отдельная команда, которая будет рулить правами доступа, регламентом обращений, балансировкой нагрузки и вот этим всем. А это значит что ты неделями будешь ждать пока эта команда соизволит обновить модель на сервере, поменять одну на другую, выложить обновленный python скрипт. А тебе это нужно делать десятки раз для проверки гипотез, сравнения эвалов и всего подобного.
Более того, эта самая команда в принципе не может разрешить тебе грузить сервер на 100%, ибо есть другие команды, которые должны иметь возможность получать ответы в чатике не через 5 минут… а у тебя наоборот пакетная дата-процессинговая нагрузка, которая должна положить сервер в полку на неделю, ибо клиент ждёт и тебе в лучшем случае выделят процентов 50 от ресурсов. Остальное просто будет простаивать в ожидании пришествия единичных юзеров. А более умную балансировку нагрузки писать некому и вообще непонятно как. Я вот устал ждать всего это… собрал у себя дома сервер с аналогичным железом (ну пусть на меньшем количестве карт), благо 48ГБ VRAM напихать достаточно недорого, а уже вполне достаточно для хотя бы тестирования на приличных моделях. И можно менять модели, эмбеддеры, реранкеры хоть по 10 раз на день в зависимости от целей, условий, сложности промптов текущей задачи. Ну либо да, облако, если личного авантюризма не хватает. И уже финальные комбинации оттестированные и оптимизированные просить собирать на корпоративном сервере.
о том и речь, непонятно за что его так любят и типо мол лучшее, что щас есть вместо проводника. Хотя по факту по скорости никто превзойти проводник не может. Да, в нём категорически сломана строка поиска, спору нет, но в остальном-то какие к нему претензии? Разве что в 7-zip всё так же быстро и отлично, но это всё таки сомнительная замена проводнику )
Оффтоп
Как замену проводника - активно форсят Files. Я всё пытаюсь его понять и принять... но крайне бесит его асинхронная загрузка листинга файлов. Ну это же бред: сначала ты рендеришь исходный список, потом заменяешь уже отрисованные названия типов файлов в колонке Type, потом применяешь кастомную (ранее запомненную) для этой папки сортировку файлов. Иконки тоже рендерятся сначала пустые, потом заполняются. Да, это занимает долю секунды... но зачем вообще это делать дважды? Оригинальный проводник же с этим справляется мгновенно.
разве nvlink что-то даёт на десктопных картах? там вроде серверный довольно быстрый, а обычный - там что-то вроде единиц процентов преимущество относительно обычной переброски через PCI-ex. У меня две 3090 через PCI-ex. Сначала была одна... было так себе, приходилось подбирать каждый раз окно контекста. С двумя вообще перестал заморачиваться, да еще и эмбеддер влезает рядом (для моих задач он нужен одновременно запущенный). С недавних пор даже llama.cpp хорошо делит на две карты нагрузку.. не так как vllm но всё же неплохо. Но греются, да, спору нет, но опять же, можно уменьшить powerlimit... при 70% скорость почти не проседает.
А прогресс... мне кажется, что вот как раз он уже сильно приблизился после выхода квена 3.5 и gemma 4. И уже эти модели прям хорошо пашут на многих задачах локально. До них было сильно скучнее, согласен.
подразумеваете, что gemma-4-26b-a4b качественней, чем 35b и 80b ? Я вот провел тесты в своих задачах на категоризацию номенклатуры и парсинг/извлечение данных. Не вижу значимых отличий. Где-то 35b точнее, где-то gemma-4-26b... явный фаворит не выделяется.
Разве что в режиме болталки я с ними не общался, да, там может быть.
я даже больше скажу... так как за 60к уже можно купить 3090, на которой 35B из статьи прекрасно работает на 100t/s и без бубна, то всё, что тут в статье написано представляет собой исключительно академический интерес.
Раз уж такая пляска... я - тот самый человек с хабра, у кого таки есть Intel 12 поколения с DDR4. Если быть точнее, то 12700K + 128GB DDR4 3600 да еще и с двумя 3090... удачи тебе, клод, доказать мне, как сильно я ошибался, собирая всё это в один системник.
ах да, еще у меня есть собссно основной комп на предтоповом 265K только со встройкой и без дискретки - просто апогей несбалансированности.
вроде в текущей альфе 5.1 добавили
Давайте теперь статью: апгрейды, которые выглядели нелогичными, а теперь это золото.
Всего пару лет назад я с трудом представлял кому в здравом уме может понадобиться nvidia видеокарта линейки хх90... или 256 гигов оперативы в домашних условиях. Сегодня же я просто фейспамлю с себя, что не просчитал свои рабочие потребности и упустил возможность взять вовремя 4090 за какие-то копейки, а лучше бы четыре да оперативы на полтерабайта.
не знаю насколько эта информация попадает под какие-нить секретные грифы... но можно было бы хотя бы просто вывести heatmap с зонами в виде слоя для оценки проблемности места, куда хочешь приехать.
1) Еще 100500 лет назад надо было наряду с галочкой "избегать платных дорог" добавить галочку избегать зон без GPS. Ну и да, я тоже из тех, что выбирает маршрут "попрямее" вместо побыстрее, ибо подвеска хрустальная... надо беречь... а в "попрямее" обычно дороги более крупные, целее и без лежачих.
2) Возможно мой кейс не самый распространённый... но можно что-то думать с дорогами разной степени платности. Очевидно, что я никогда в жизни в здравом уме не поеду по проспекту Багратиона, а маршрут-то строится... и галочка бы его отключила, но дальше начинается дешманская можайка, а по ней уже вполне нормально ехать платно.