Comments 14
Возможно накину, но ждем Российский Cursor. Было бы круто.
Хотя вот Gigacode уже есть и плагин Gigachat в Vscode.
Очень недооценнная статья, во всех своих выступлениях, подкастах и постах в канале пишу об этом же. Лайк. Закладка. Спасибо.
Спасибо, очень круто.
Сперва:
Но проблема заключалась в том, что все модели обучались под конкретные специфические задачи. Концепция универсальной LLM, которая работает out-of-the-box и не требует переобучения на каждую задачу, казалась на тот момент неправильным направлением. Это был стратегический выбор — и, к сожалению, он оказался ошибочным создав технологический разрыв минимум на год.
Но затем:
Им нужно:
Признать, что универсальность - это не стратегия, специализация - вот стратегия
Да, все верно, но вы упустили очень важный контекст различий, периодов о которых идет речь и процесса развития рынка.
На заре, специализированные модели были ошибкой, рынок взорвали модели умеющие болтать обо всем. И в тот момент специализированные модели, действительно, были ошибкой, особенно с учётом того, что в те времена они были огромными.
Прошло 3 года и в 2025 году все активно начали понимать, что не размером и универсальностью надо мериться. Что современные технологии позволяют делать компактные и специализированные модели, которые не просто специализированные, а в своих задачах превосходят больших универсалов. И, соответственно, уже не нужно быть многомиллионным стартапом, чтобы выпустить свою небольшую и эффективную модель.
А в рамках России, мы еще и под санкциями, которые очень сильно мешают мериться силами на большой арене.
Иными словами, как я уже отмечал в статье, мы просто запаздываем в трендах. Когда уже почти целый год все начали менять курс на специализированные модели, мы все еще обучаем гигантов.
Какое отношение 1, 3 и 5 ссылки имеют к теме которую я обсуждаю в статье? 1 - это модель собранная отдельно Норникелем для своих нужд, при чем тут модели общего пользования? 3 и 5 вообще не понимаю с какой целью были приложены в комментарии.
2 и 4 - да, я знаю об этих проектах, но если вы еще раз перечитаете статью внимательнее, думаю, обратите внимание, что я говорю об опенсорс и малых моделях, а не об облачных сервисах.
Идея именно в доступности локального развертывания и компактности, которые позволят создать вокруг таких моделей свое сообщество энтузиастов, которые начнут экспериментировать. Если почитаете больше по теме, то, возможно, найдете такую инициативу как "хакатон", когда с новыми релизами провайдеры запускают соревнование с наградами за то, кто первым сможет найти уязвимости и взломать модель. Опенсорс же позволит это делать бесплатно! По-любому найдется кто-то кому чисто из интереса захочется "взломать" новую модель и, может быть, позже он, или кто-то еще, где-то об этом напишет, что позволит команде разработчиков БЕСПЛАТНО узнать об уязвимостях своей модели. А дообучения пользователей и обсуждения на форумах позволят собрать значительно больший объем обратной связи о проблемах и, наоборот, успехах текущей модели: хорошо ли слушается разных промптов, как себя ведет при разной нагрузке, хорошо ли дообучается и т.д.
"
новая Алиса AI инициализирована весами Qwen3очень смешно"
Дорогой друг, рекомендую ознакомиться с официальным техрепортом команды Яндекса, прежде чем высмеивать: https://habr.com/ru/companies/yandex/articles/974594/
Прямая цитата из техрепорта:
"Полный цикл обучения нашей модели Alice AI LLM, инициализированной весами Qwen3-235B..."
1 это модель собранная норникелем и выложенная в опен сурс на хг
3 и 5 - это буквально Идея именно в доступности локального развертывания и компактности, которые позволят создать вокруг таких моделей свое сообщество энтузиастов, которые начнут экспериментировать
. "новая Алиса AI инициализирована весами Qwen3 это очень смешно потому что Иными словами, наши современные решения, вероятнее всего, "зависят" от китайских коллег.Сделаем вид что это не де факто стандарт для подобных моделей и что это является каким-то показателем по оценке моделей))
1 - да, но и что? Повторюсь, это исключительно техническая модель под конкретный тип производства, не имеющая применения в подавляющем большинстве задач, 99% пользователям LLM от ее релиза ни тепло, ни холодно. Сам факт опенсорса похвален, но это не то о чем я говорю в статье. Я говорю о чуть более широких в применении моделях и даже привел конкретные примеры: кодинг, юриспруденция, образовательные и т.д. Сомневаюсь что работяга завода пойдет дома у себя разворачивать MetalGPT для домашних экспериментов. Это уже слишком узкая специализация.
3 и 5 - вновь мимо. 3 это библиотека машинного обучения для таблиц, какое отношение к опенсорс LLM она имеет - не понимаю. 5 просто какой-то опенсорс проект с аудио - какое именно он имеет отношение к статье - вновь не понимаю.
Если хотите настоящих и наглядных примеров - прошу пожаловать:
Unsloth целый сервис вокруг дообучения локальных моделей, который активно занимается исследованиями в области того, как эффективнее квантовать и обучать модели и предоставляющий свои наработки для пользователей с оплатой за GPU/часы.
Midnight Miqu 70B - как пример того, как сообщество дообучает под себя опенсорс модели, закрывая свои потребности. Это модель легенда для пользователей любящих ролевой отыгрыш, и благодаря сообществу она в свое время значительно отличалась качеством написания художественных текстов, превосходя проприетарные модели. А к этому в сообществе образовался SillyTavern ставший де-факто стандартом для фронтенда ролевых игр с LLM.
Вокруг Stable Diffusion появилось огромное сообщество, которое создало Civitai - маркетплейс где обычные пользователи стали делиться своими дообученными версиями для генерации изображений под конкретный стиль, позы и т.д.
Вот это действительно примеры создания целых сообществ вокруг опенсорс моделей и их экосистемы.
Сделаем вид что это не де факто стандарт для подобных моделей и что это является каким-то показателем по оценке моделей))
Наверное, удивлю вас, но нет, это не "де факто стандарт". Сходите на arxiv и hf, удивитесь какое огромное множество кампаний создают СВОИ модели и архитектуры, экспериментируют с подходами к обучению, а не просто "инициализируют весами" чужих моделей. А уж если и используют чужие модели, то как правило это хоть в чем-то, но прорывные релизы, которые улучшают минимум 1-2 характеристики оригинальной модели на несколько пунктов.
И вновь делаю вывод, что вы либо совсем не читали статью, либо делали это крайне выборочно. Советую все же сначала прочитать все последовательно, после чего повторно оценить собственные комментарии на уместность.
ИИ ускоряет рутину, но без понимания архитектуры и промптинга код остаётся "чёрным ящиком". Кста, Майк Мозг в уроках по ChatGPT учит именно этому: Custom Instructions + o3 для ревью — и профит без иллюзий.
Российский ИИ: критика, которая нужна сейчас, и путь, который работает