Comments / Profile of proxy3d / Habr

Илья@proxy3d

нейробиология, нейронные сети, AR/VR

0,2

Rating

Subscribers

ProfileArticles2PostsNewsComments497

В «Яндексе» ответили на заявления Грефа о зависимости компании от китайского ИИ

proxy3d Jul 18 at 20:13

Да, это не дообучала в прямом смысле. Но это именно дообучала, если смотреть на картину в целом. В LLM самое трудозатратное это обучить веса сетки. Собрать токенизатор на корпусе русского текста - это делал и Сбер, это может сделать любой, для этого не нужны GPU. Это не трудозатратно.

И тут есть три сценария:

1) взять модель и дообучать

2) взять готовую модель, заменить токенизатор и обучить сначала эмбеддинги заморозив веса, чтобы они были согласованы с моделью и затем уже дообучать модель

3) заменить токенизатор, создать модель другой размерности (хорошо если хотя бы реально другой размерности), перенести веса и обучить сначала эмбеддинги (тоже самое дообучение но веса заморожены) и затем простое дообучение.

Так как веса модели - это практически и есть LLM, то да - это дообучать, заменив некоторые детали. И не факт, что после этого она будет работать лучше (веса под изначальный токенизатор).

От того, что мы копируем веса в другую модель и называем это инициализация - не означает, что мы создали другую модель. Еще раз, замена токенизатора и обучение эмбеддингов, чтобы согласовать их со скопированными весами не делает модель другой.

Это как взять модель OpenAI, заменить токенизатор, скопировать веса и сказать - мы не брали их модель, у нас своя и это не дообучение. Это на кого вообще рассчитано?

В «Яндексе» ответили на заявления Грефа о зависимости компании от китайского ИИ

proxy3d Jul 18 at 17:56

Я бы не говорил, что это сильно разные процессы. Веса, это самое ценное в модели, а не остальное.

Они взяли веса, по сути модель и приделали свои:

обучение подходящего для русского языка токенизатора;
обучение эмбеддингов;
Pretrain на большом объёме текстовых данных;
двухэтапный Midtrain, в ходе которого модель обучается на высококачественных данных для разных срезов, а также выучивает длинный контекст;
Alignment (но об этом этапе поговорим уже в следующей главе).

То есть, чтобы модель заработала с новым токенизатором и эмбеддингами - из надо обучить и дообучать модель, чтобы она подстриглась под них.

Я надеюсь, что читающие понимают, что именно веса этот самое главное в модели. Эмббединги обучаться под новый токенизатор.

Если кратко, Яндекс собрал токенизатор под русскую речь, взял китайскую модель (скопировал веса), обучил эмбеддинги чтобы они согласовывали новый токенизатор и веса и затем дообучали модель.

Это можно назвать как угодно, но в основе китайская модель. И завуалировать это инициализацией весов, звучит как подмена понятий. Да, напрямую не используют готовую, но это все равно китайская модель с заменой токенизатора и дообучением на своих данных.

+11

Почему я выкинул MCP из AI-агента для CAD: граф API, ГОСТы, компилятор и live COM для KOMPAS-3D

proxy3d Jul 2 at 09:35

Если хочется вызовы, то есть же UTCP как MCP без обертки а сразу обращение к API, но их сложнее контролировать. Те же Skill, но они сыроваты и есть проблемы расширяемости, так как много много скиллсов просто приводят к тому, что они игнорируются.

У меня MCP одна из проблем, что забивает контекст огромными JSON-схемам и модель теряет детали. Но она уже решена (например, паттерн Code Mode от Cloudflare или Port of Context). MCP-сервер отдает модели вместо тысячи эндпоинтов, всего два метода: search() и execute(). Короче экономия порядка 99% токенов и контекст не теряется так.

Пробовали UTCP вместо MCP в данном случае (если очень хочется связать с Claude или Cursor)?

Может быть лучше внутри использовать RLM. Это аналог LangChain но умеющий работать с большим контекстом (за счет памяти), H-MEM память и так далее. Так как в вашем случае, контекст с деталями может быть важен.

Почему я выкинул MCP из AI-агента для CAD: граф API, ГОСТы, компилятор и live COM для KOMPAS-3D

proxy3d Jul 2 at 08:03

Вчера только попалось видео про два свежих исследования. Это как раз касается вашей темы. В исследованиях ставился вопрос, являются ли рассуждения LLM случайными блужданиями или нет. Суть сводилась к тому, что если ли разница между генерацией правильного и неправильного рассуждения. Проверка была на медицинских данных, так как там важно чтобы разные симптомы были объединены в правильные связи и связаны с правильными лекарствами. В случае LLM реальные и вымышленные связи дают одинаковый коэффициент правдоподобия, поэтому они равнозначные - в то время как у людей он отличается. Авторы этого и другого исследования приходят к выводу, что рассуждения являются "случайными блужданиями" созданными на основе статистических данных.

Я к тому, что единственный вариант для точной проверки (к которому вы сами и пришли) - это наличие промежуточного элемента, который проверяет хотя бы валидацию кода или связей, компилируется он или нет. Собственно так обучают LLM для кодовой базы (синтетический датасет), через генерацию множества кода различных задач и затем пропускание его через компилятор. Если проходит, то можно на этом коде обучать иначе нет.

Тут вряд ли играет роль MCP или без него, так как в вашем случае проблема та же, что и со связями симптомов в исследованиях выше. MCP это просто же микросервис с оберткой понятной для LLM. Он нужен в архитектуре только там, где обычно нужен микросервис. В вашем случае, я не понял зачем изначально MCP был там.

Что на самом деле означают теоремы Гёделя о неполноте?

proxy3d Jun 30 at 16:58

На самом деле теорему Геделя можно понять и представить иначе.

На рисунке выше, G это какое-то скрытое пространство с наблюдаемыми состояниями размером N.

Например, если пространство G имеет 1000 состояний, то проекция двух таких пространств в третье G3 даёт нам 1000*1000 разных комбинаций состояний. А если таких проекций не 2 а больше, то все это уже очень быстро стремиться к бесконечности.

Поэтому любая система G, вынуждена обобщать наблюдения, потому что кол-во ее состояний ограничено ее размерностью. Так как G3 имеет например размерность 100 и тогда она не может описать проекцию в него всех состояний G1 и G2.

Обобщение приводит к тому, что система вынуждена обобщать устойчивые закономерности, образуя цепи Маркова.

Но цепи Маркова тоже имеют ограниченную длину, когда вероятность траектории цепи становиться ниже порога разрешения системы.

Это приводит к тому, что система G вынуждена строить иерархию цепей Маркова со скрытыми состояниями.

Как итог, пространство G3, которое наблюдает проекцию в него состояний G1 и G2, вынуждена обобщать, балансируя между устойчивыми состояниями и многообразием системы (энтропией), из вариационного принципа.

Это значит, что наши наблюдения всегда ограничены нашей разрешающей способностью и вместимостью нашей системы из которой мы наблюдаем внешнюю динамику.

Ассиметрия это наблюдаемые различие. Симметрия это когда наблюдаемые события совпадают, хотя их природа может отличаться, поэтому она равнозначные по вероятности. График на примере анализа миллиардов текстов.

Можно предположить, что если мы бесконечно будем увеличивать размерность G, то сможем описать все. Но это не так. Дело в том, что у какой то момент, при увеличении размерности N мы уже не лучшим наше понимание. Система выходит на плато. Это связано с тем, что мы не можем различить некоторые проекции.

Например, представьте себе что у вам поступает на вход текст, по которому мы собираем статистику.

Некоторые фрагменты встречаются уникальное кол-во раз, например "ова" обозначим А, но есть фрагменты которые встречаются одинаковое кол-во раз "ыро" и "пьо" у них одинаковая статистика, в текстах они встречаются только 1 раз обозначим B.

Мы наблюдаем только A->B. И по этому наблюдению мы не можем сказать это "ова"->"ыро" или это "ова"->"пьо". Для нас как наблюдателя истинная природа B скрыта, поэтому мы теряем инфорамация о том, что такое B. Мы наблюдаем только не обобщение. Если мы не можем наблюдать конечно исходные системы G.

Поэтому невозможно построить систему, которая объясняет все. Просто потому что информация может теряться при проекции.

Не важно, это текст или это звук со светом. Для нас как наблюдателя доступна только возможность, анализа динамики и ее статистика.

Каким бы не был наш язык описания системы (нашего пространства G), он всегда будет ограничен размерностью самой системой и потерей части информации при ее наблюдении, даже если мы бесконечно будем увеличивать его размерность.

Все немного сложнее, но надеюсь объяснил понятно.

Каково это — работать с Fable 5 (Mythos)

proxy3d Jun 15 at 21:30

Не совсем, OpenMythos и оригинальный Mythos от Anthropic хотя технически разные вещи (потому что Anthropic не раскрывает Mythos), но изначально OpenMythos являлся попыткой воссоздать архитектуру Anthropic на основе утекших данных и научных публикаций. Поэтому архитектурно, они должны быть одинаковые или схожие. Тут об этом как раз:

https://juliangoldie.com/open-mythos/

Аналогично тут:https://skillsllm.com/skill/openmythos

Тут два главных смысла, это Рекурсивная глубина (Recurrent-Depth Transformer / Looped Transformer): на чем и построен "прорыв" Mythos связанный с цикличным использованием слоев. То есть вместо сотен последовательных уникальных слоев, модель многократно (N раз) прогоняет скрытое состояние через один и тот же базовый блок с общими весами.

И рассуждение в латентном пространстве (сейчас несколько таких архитектур было особенно с начала 2026). Тут что в оригинальной идее Mythos, что в OpenMythos процесс мышления (он же reasoning) происходит скрытно и непрерывно внутри forward. Поэтому модели не генерирует промежуточный текстовый пошаговый лог (как в CoT).

Поэтому, взяли рекуррентный трансформер и скрестили его с идеей рассуждения в латетном пространстве (с подачей изначального сигнала на вход для удержания контекста). Я бы сказал так, что Anthropic взяли удачные работы по этим направлениям и использовали в своей архитектуре. Собственно поэтому OpenMythos можно считать ближайшим аналогом.

Я не верю, что Anthropic с нуля разработали что-то свое. А вот вобрать удачные решения 2025-2026 года уверен.

Каково это — работать с Fable 5 (Mythos)

proxy3d Jun 12 at 16:39

У Mythos есть отличие. Тут описывал:

https://habr.com/ru/companies/gazprombank/articles/1026124/comments/#comment_29866508

Смысл в том, что рассуждения работают иначе. Там есть внутренние циклы, которые прибавляются к начальному контексту, это усиливает начальный контекст и не даёт модели терять его. Но это так же увеличивает затраты на инференс, так как требуется дополнительно до 4-8 проходов на блок (если я правильно помню из разбора архитектуры OpenMythos). Поэтому в худшем сценарии модель может потреблять в 8 раз больше расчетов на инференс.

Архитектурная разница есть. В этом случае контекст более устойчивый при рассуждении и рассуждения сразу точнее. Но при этом данная модель сильно более затратная. Я не знаю сколько циклов заложено для обычно потребителя. В описании архитектуры было до 8 циклов. Но для потребителя они могли снизить их например до 2 или 4, установить более большие пороги прекращения цикла.

Так что в любом случае данная архитектура более прожорливая. И главное преимущество, это удержание контекста. Но с учётом современного подхода, когда модели постоянно переключаются - я не уверен, что это сильно эффективно.

Это как сжимать данные одним архиватором, потом в середине процесса другим архиватором и потом продолжить снова сжимать первым.

Думаю в скором времени китайцы перенесут этот подход в открытые модели.

LLM написала, человек одобрил, никто не понял: откуда на самом деле берётся нечитаемый код

proxy3d Jun 11 at 18:48

Это большая проблема. Но хуже, когда ты пишешь продуманный код, а другой через агентов вайбкодит и полностью меняет твой код под свою задумку, и этот код не читаемый.

У меня так на днях было, сделал развертывание архитектуры в докерах. Все прозрачно, продумано, читаемо. Другой решил сделать более универсально через GitLab сборку. Скормил агентам, те переписали, работает. Но я открыл, что ему сетка сделала и у меня глаз потек. Совершенно не читаемо, вся прозрачность улетучилась, в коде появились жёсткие пути типа ../python/3.11.5/.. и прочее. И при этом человек топит за "понятный и прозрачный код" и одновременно допускает такой дикий "вайбкодинг". Разница в том, что за прозрачный код он топит там, где силен в разработке, а не читаемый вайбкодинг ему нормально в той области где он вероятно не силен.

Поэтому я подозреваю, что за полный вайбкодинг без полного код ревью топят те, кто не понимает, что им написала сетка или не планируют потом это поддерживать (я написал, а вы сами разберитесь и поддерживайте это легаси).

Неоднозначные выводы о ROI в УЗИ классификации

proxy3d Jun 6 at 12:55

DS2Net с вашей страница GitHub в статье.

Тут изначально не правильный подход к выбору архитектуры. Вам следовало использовать Jepa. Вы работает фактически с шумом, который надо обобщить. Описанные ваше архитектуры, учатся улавливать шум. Тут используется Dual-Scheme Domain-Selected Network (Анализ УЗИ).

Формально:

Сеть решает проблему "сдвига домена", когда ИИ, обученный на обычных 2D-УЗИ, плохо работает на контрастных УЗИ. Архитектура использует выравнивание признаков, чтобы эффективно переносить знания между разными типами медицинских аппаратов.

Изначально главная задача DS2Net в анализе УЗИ была нужна, чтобы решить проблему сдвига доменов УЗИ, сделанных на старом аппарате в одной клинике на аппарат другой клиники (более современный). То есть эта архитектура была нужна как умный фильтр на входе. Использовать ее для классификации пользы не даст.

Здесь это описано более подробно и объясняется почему.

DS2Net тоже борется с шумом, но делает это классическими костылями и намного менее качественно, чем EchoJEPA. Чтобы DS2Net поняла, где важная геометрия, а где шум, ей нужны тысячи снимков, где врачи вручную обвели опухоли. Она не понимает общую картину в целом, вместо этого просто ищет корреляции между пикселями и пиксельной маской.

Поэтому если вы принесете в клинику УЗИ-аппарат совершенно нового поколения, шум на котором кардинально отличается от того, что видела DS2Net при обучении, её классификация сломается. Она начнет путать новые шумовые паттерны с анатомическими структурами. Она учится шуму, просто пытается его сгруппировать.

Я ранее описывал это в комментарии, к одной из статей.

https://habr.com/ru/news/1018328/comments/#comment_29766370

EchoJEPA (обученная на 18 млн видео-УЗИ) совершила прорыв именно потому, что JEPA предсказывает смысл в скрытом (абстрактном) пространстве, полностью игнорируя пиксельный шум. Она обучается без учителя, "понимает" анатомию как единое целое и игнорирует спекл-шума.

Параллельность RNN?

proxy3d Jun 4 at 16:06

Спасибо за разьяснение, теперь понятно. Был не прав. С учетом описанного, согласен, что они все являются Quasi-LPV. Ранее не встречал "On the State-Space Realization of LPV Input-Output Models: Practical Approaches", хотя судя по всему работа старая.

Параллельность RNN?

proxy3d Jun 4 at 12:10

Recurrent Transformers гораздо ближе к RNN, чем к Quasi-LPV. Они являются прямыми архитектурными наследниками рекуррентных нейросетей.
Основная идея Recurrent Transformers (например RMT), это разбиение длинной последовательности на сегменты и передача информации от одного сегмента к другому через фиксированное скрытое состояние.

В классических RNN это состояние называется h(t) и обновляется через полносвязный слой. В Recurrent Transformers роль h(t) играют специальные токены памяти (memory tokens), которые обновляются с помощью механизма Self-Attention. Математический граф вычислений здесь абсолютно такой же, как у RNN: последовательный, итеративный и использующий скрытый вектор для сжатия предыстории.

Если попытаться найти хоть какое-то сходство, то механизм Attention в Recurrent Transformers можно натянуть на структуру Quasi-LPV лишь концептуально: матрицы внимания (Attention weights) вычисляются динамически на основе текущих входных данных (токенов). В ТАУ это отдаленно напоминает изменение параметров системы в зависимости от её состояния. Однако это лишь аналогия.

Про обучение и остальное согласен. К Quasi-LPV скорее относятся Mamba (SSM), но Recurrent Transformers нет, он построен на RNN, а RNN напрямую к Quasi-LPV не относится, есть только сходство/аналогия.

Параллельность RNN?

proxy3d Jun 3 at 23:24

В рамках рекуррентных сетей, лучше рассматривать подробнее не ParaRNN и старые RNN. Сейчас в 20026 году тенденция сместилась на рекуррентные трансформеры: Recurrent Transformer, Latent Recurrent Transformer, Test-Time Memory и другие. Они сочетают RNN и старый трансформер. Именно благодаря им достигается длинна контекста в 1 млн. токенов и более. Стоит рассмотреть их в статьях.

Recurrent Transformer: https://arxiv.org/pdf/2604.21215

Latent Recurrent Transformer (LRT): https://www.researchgate.net/publication/405317536_Latent_Recurrent_Transformer_Architecture_Exploration_Training_Strategies_and_Scaling_Behavior

Fast Byte Latent Transformer (Fast BLT): https://arxiv.org/pdf/2605.08044

Test-Time Memory архитектуры (Test-Time Training): https://arxiv.org/pdf/2604.06169

Так же понравилась представленная на Хабре работа Sessa (Selective State Space Attention): https://habr.com/ru/articles/990704/

В чистом виде от RNN мало толку, даже с учетом распараллеливания ParaRNN. Подобное решается в SSM (State Space Models) методом "сканирования". Если перенесете подобное в архитектуры выше и покажете, что это работает, то будет очень интересно.

Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

proxy3d May 29 at 17:41

Пока у архитектуры не будет динамической реализации predict coding, ни о каком полноценном "не знаю" не может идти речи.

Механизм predict coding, позволяет усилить альтернативные маршруты. То есть, если модель изначально ошибалась и оказалось что альтернативный маршрут "я не знаю" даёт больше вероятность чем текущий, то она переключится на него, потому что ошибка усилит его вероятности. И тогда переход "я не знаю", на множестве данных датасета (а не конкретных) будет иметь высокую вероятность.

Сейчас же, если обучать модель на конкретных данных отвечать "я не знаю", то это ничем не отличается от любого другого обучения другим ответам на конкретных данных. С таким же успехом, можно обучить отвечать "я не знаю" на текст "Маша пошла в лес".

"Я не знаю" должен быть результатом обобщения динамики ошибок при использовании predict coding.

Именно по этой же причине, модель не можем сама полноценно сама переключиться на альтернативный вариант продолжения текста. Случайный выбор токена, который может являться устойчивым альтернативным маршрутом тут не в счёт, так как это рулетка.

https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-2-12-21

LLM на самом деле предсказывает множество альтернативных маршрутов. Но именно ошибка, должна усиливать наиболее сильные альтернативы.

В мозге за это отвечает слой 6. А в более глубоком погружении зона ACC. Которые выделяют ошибку, и добавляют ее на вход (если упрощённо). Это похоже на то, как Mythos сделали с добавлением выходного сигнала, подмешивая его во входной, чтобы увидеть контекст. Это делают слои 5 неокортекса и MPFC. А вот сигнал ошибки не делают. В упрощённой схеме, ACC смешивает сигнал ошибки и входной сигнал, чтобы усилить альтернативы. А MPFC смешивает выходной сигнал и вход, чтобы сохранить контекст. И уже в зависимости, что сильнее окажется влияние контекст или ошибка, то и будет наиболее вероятным продолжением.

Проблема в том, как встроить такую динамику в трансформеры и обучать с ней. Чтобы "я не знаю", "с другой стороны.." и так далее, стали результатом обобщения ошибки на множестве обучающих данных, а не конкретного ответа.

Природа сотрудничества и в чем заблуждается теория игр

proxy3d May 24 at 16:47

То что вы описали в статье не утверждается сегодня. Уже давно это понятие расширенно. Во второй лекции Сапольского (которая вышла лет 10 назад), тогда уже говорилось об этом. Стратегии сильно зависят от правил и среды. Более того, возникает круговорот оптимальных стратегий, и описанный в статье вариант это лишь оптимальная стратегия в конкретных условиях.

Дилемма заключённого в чистом виде уже давно не используется и не интерпретируется биологами.

Порой лучше один раз посмотреть лекции, чем сотни раз читать такое.

Эта фраза "Традиционная дилемма предполагает, что игроки действуют вслепую. " в корне не верна на сегодня. Так как рассматриваются разные стратегии, разные состояния среды. И когда игроки действуют в слепую и когда нет, и когда знают когда стратегия закончится, и когда не знают и так далее.

Starbucks отказалась от AI-инструмента для инвентаризации: нейросеть не помогла решить проблему

proxy3d May 22 at 14:45

Недавно попадался пример "удачного" внедрения во время церемонии вручения дипломов в этом году в колледже Глендейл в Аризоне. Cистема распознавания имен (подозреваю на основе агентов) галлюцинировала. Пропустила десятки студентов, неправильно произнесла имена и делала длинные паузы, что разозлило толпу. В итоге церемония была приостановлена на несколько часов, и администрация извинялась со словами " Мы используем новую систему искусственного интеллекта в качестве считывателя текста. Так что это для нас урок ", чем сильнее разозлила всех. В итоге пригласили живого ведущего, чтобы правильно объявить имена оставшихся выпускников.

https://www.businessinsider.com/graduation-ceremony-ai-misses-names-boos-glendale-community-college-2026-5

Недовольны в итоге были все. В комментариях на разных ресурсах было как всегда - "да ~~гранаты~~ промпт/агенты у него не той системы" и т.д.

Простой пример, как пытаются запихать нейронки ради нейронок.

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

proxy3d May 21 at 13:17

Вы получили аналог Reservoir Computing моделей (точнее семейства Attention-Enhanced RC и Liquid State Machine (LSM) и Physical Reservoir Computing и Echo State Network (ESN) ). Это, то о чем пишет в статье ниже

https://habr.com/ru/articles/1028548/

Фактически вы получил тоже самое (только через веса attention). У этих моделей интересный подход, но свои ограничения.

Что конкретно? Это фиксированная нелинейная динамическая система, где обучается только outputs. В ней есть некоторый фиксированный резервуар, который инициализирован случайным способом. Обучается только выход (линейный слой или MLP).

Есть разновидности с Attention. Система после обучения выдает осмысленный текст.

Проблема этих систем в не оптимальности, что-то вроде "мы хотим обучаемую динамику, но не хотим её обучать". Они плохо прогнозируют при наличии шума, разной температуре, плохая стабильность, и так далее.

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

proxy3d May 20 at 21:29

Сейчас таких моделей нет, но речь о том, что они должны появиться, как часть процесса оптимизации. Так как размер таких моделей может быть меньше, так как они заточены под конкретную область.

Они явно будут работать быстрее - так как это будет означать, что токенизатор будет собран на статистике узкой специализации. То есть конструкции for if и прочие уже как токены, и вероятно редкие токены как функции частых фреймворков. Это ускоряет генерацию и уменьшает кол-во токенов. Модель уже не допустит ошибку при написании синтаксиса, так как он ее часть.

Поэтому я уверен, что такие модели будут появляться в будущем (сейчас у всех идет упор на оптимизацию), так как именно это решает бизнес задачи и приносит платежеспособных клиентов. А подобный подход существенно удешевляет развертывание таких моделей.

Их гораздо проще обучать, так как обучение Codex (GPT-5.3-Codex и Codex-5.4, и Codex-ChatGPT 5.5) и Opus прежде всего строиться на специальном подходе обучения, отличном от обучения простым текстам (дообучали). Например для программирования сетка генерирует множество разного кода, этот код запускается через компилятор, выбирается лучший на основе ошибок запуска и с ним модель обучается. Это синтетические данные. Именно поэтому сейчас некоторые делают уклон отдельных моделей под IT разработку, так как проще собрать данные для некоторых областей через корректную синтетику.

Но сейчас, небольшие модели под языки разработки пока ни кто не обучал.

Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация

proxy3d May 19 at 19:12

Хотя квантование имеет проблемы, есть подходы к уменьшению значений до (-1, 0, 1) в Bonsai языковой модели, которая обучается с нуля. Но сейчас пока не ясно, насколько хорошо они масштабируются. Если окажется, что хорошо, то это сильно сместит акцент в языковых моделях. Насколько я знаю, исследования пока ведутся, у той же Microsoft как раз BitNet (тоже присутствует в видео).

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

proxy3d May 19 at 13:42

Да про гроккинг помню статью. Я не говорю что MoE бесполезное решение, но у него есть границы и оно не всегда работает эффективно или имеет преимущество перед другими решениями.

Так же, я не утверждаю, что нам нужна куча моделей взамен больших языковых. Все зависит от оптимальности, а это много вводных: размер модели, скорость работы, точность и так далее. Безусловно для всех областей это не нужно.

Но приведу два аргумента за:

1) сегодня только попалось исследование, где обучили на множестве заболеваний (от Альцгеймера до рака) и лекарств (при чем молекулярных связях по моему - точно не помню) и модель показала результаты гораздо лучше других, так как была заточена под одну область, не было мусора, не было противоречий и лишних обобщений. В этой области такая специализированная модель оправдана, так как шум с сайта мамочки.ком не будет мешать.

2) Если токенизатор заточен под конкретную область, то модель более качественно будет строить прогноз в этой области и быстрее (токенов на прогноз уйдет меньше). Если в нем встречаются все конструкции ЯП вроде for, if и даже каких то методов, потому что они очень часто встречались (мы существенно уменьшили долю общих данных). в этом случае инференс быстрее, модель точнее (она не разделит слово "for " на "fo中" - а иногда подобное встречается в текстах). Но конечно при условии, что в токенизатор действительно попадает это все. Но такая специализация токенизатора - теоретически оправдана. Так ли это будет на практике - я не знаю.

Опять же, я не утверждаю, что все станет специализированными моделями. Речь о том, что специализация позволяет оптимизировать и вероятно часть задач будут решаться в рамках таких моделей.

Cursor выпустила Composer 2.5: догнала Opus 4.7, но отстает от GPT-5.5

proxy3d May 19 at 12:53

Все верно, так и есть. Людей 7 млрд. и среди них даже попадаются очень редкие виды, которые изучают палеоантропологию Австралии в период за 100 тыс до 1 млн лет до нашей эры. И таких может быть всего 5 человек на 7 млрд.

Эволюция к этому не просто так пришла. То что модели сейчас ресурсоемко обучать - это другая проблема текущих архитектур и мат. теории (не в том плане что она плохая, а в том что еще не достаточно развилась в этой области).

С ростом модели и данных, возникает проблема обобщения. В реальности данные не всегда уникальны (речь про вероятность их появления) и многие пересекаются и отличаются очень слабо или лежат в небольшом диапазоне. Чем больше данных вы обобщаете, тем сильнее размываете асимметрию между ними и в какой-то момент малейший шум в данных меняет направление предсказание на другое (опечатка, длинный текст, ошибки округления и так далее).

Когда у вас цена ошибки высокая, то вам выгоднее использовать специализированные модели. Например, как муравьи - каждый выполняет свою роль, или как в ИТ где разные разработчики по своим стекам, а есть проджект и архитектор и другие. Если спросить разработчика, который узкий спец по Rust, как реализовать что-то, то он тут же скажет ответ, так как его модель обучена и предсказывает это. Но спроси человека, который обобщил множество знаний и он начнет сомневаться, как лучше сделать (продумывать общее решение). И когда дело дойдет до кода, он может сделать хуже (хотя архитектурно продумал глубже), так как редкие детали языка уже не помнит. Вот с LLM так же, при обобщении детали обобщаются и теряются. Был у вас X1=5 и X2=100, обобщили получили (X1+X2)/2 = 52.5 и если у вас разброс значений при обобщении веса был большой, то вы стираете детали. Все сложнее, но пример просто условный.

Когда же обучение происходит только в одной области данных, то у вас не будет возникать ситуаций, которые так сильно размазываются вероятности. Потому что четко: после конструкции А идет В и ни когда не встречается C (из другой области где после А могла идти С). Модель более уверенно и точно делает предсказание.

Например, вы обучили модель на романе Мастер и Маргарита. Она более точно продолжит нам моменты данного романа, чем крупная модель.

Поэтому все равно уходят и будут уходить к специализированным моделям. И это происходит уже сейчас. Вопрос только на сколько детализировано они будут разбиты.

Например, только сегодня смотрел исследование, где обучали модель на множестве заболеваний, чтобы она лучше специализировалась. И как я понимаю это значительно улучшило качество при разработке лекарств. Будут ли в ИТ разбиения на языки или на бэк/фронт/архитектура или разработка/управление разработкой/проектирование или что-то еще нельзя сказать. Все будет зависеть от стоимости затрат на обучение и поддержку.

Если окажется, то небольшие локальные модели на 24-32B при специализированном обучении только Python дают качество лучше или сопоставимое с крупными в области Python, то разработчику Python нет смысла от крупной при написании своего кода. Он просто будет локально использовать ее или арендовать недорогой доступ к ней.

2 3 ...

24 25