Pull to refresh
62
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

0,1
Rating
23
Subscribers
Send message

Если хочется вызовы, то есть же UTCP как MCP без обертки а сразу обращение к API, но их сложнее контролировать. Те же Skill, но они сыроваты и есть проблемы расширяемости, так как много много скиллсов просто приводят к тому, что они игнорируются.

У меня MCP одна из проблем, что забивает контекст огромными JSON-схемам и модель теряет детали. Но она уже решена (например, паттерн Code Mode от Cloudflare или Port of Context). MCP-сервер отдает модели вместо тысячи эндпоинтов, всего два метода: search() и execute(). Короче экономия порядка 99% токенов и контекст не теряется так.

Пробовали UTCP вместо MCP в данном случае (если очень хочется связать с Claude или Cursor)?

Может быть лучше внутри использовать RLM. Это аналог LangChain но умеющий работать с большим контекстом (за счет памяти), H-MEM память и так далее. Так как в вашем случае, контекст с деталями может быть важен.

Вчера только попалось видео про два свежих исследования. Это как раз касается вашей темы. В исследованиях ставился вопрос, являются ли рассуждения LLM случайными блужданиями или нет. Суть сводилась к тому, что если ли разница между генерацией правильного и неправильного рассуждения. Проверка была на медицинских данных, так как там важно чтобы разные симптомы были объединены в правильные связи и связаны с правильными лекарствами. В случае LLM реальные и вымышленные связи дают одинаковый коэффициент правдоподобия, поэтому они равнозначные - в то время как у людей он отличается. Авторы этого и другого исследования приходят к выводу, что рассуждения являются "случайными блужданиями" созданными на основе статистических данных.

Я к тому, что единственный вариант для точной проверки (к которому вы сами и пришли) - это наличие промежуточного элемента, который проверяет хотя бы валидацию кода или связей, компилируется он или нет. Собственно так обучают LLM для кодовой базы (синтетический датасет), через генерацию множества кода различных задач и затем пропускание его через компилятор. Если проходит, то можно на этом коде обучать иначе нет.

Тут вряд ли играет роль MCP или без него, так как в вашем случае проблема та же, что и со связями симптомов в исследованиях выше. MCP это просто же микросервис с оберткой понятной для LLM. Он нужен в архитектуре только там, где обычно нужен микросервис. В вашем случае, я не понял зачем изначально MCP был там.

На самом деле теорему Геделя можно понять и представить иначе.

На рисунке выше, G это какое-то скрытое пространство с наблюдаемыми состояниями размером N.

Например, если пространство G имеет 1000 состояний, то проекция двух таких пространств в третье G3 даёт нам 1000*1000 разных комбинаций состояний. А если таких проекций не 2 а больше, то все это уже очень быстро стремиться к бесконечности.

Поэтому любая система G, вынуждена обобщать наблюдения, потому что кол-во ее состояний ограничено ее размерностью. Так как G3 имеет например размерность 100 и тогда она не может описать проекцию в него всех состояний G1 и G2.

Обобщение приводит к тому, что система вынуждена обобщать устойчивые закономерности, образуя цепи Маркова.

Но цепи Маркова тоже имеют ограниченную длину, когда вероятность траектории цепи становиться ниже порога разрешения системы.

Это приводит к тому, что система G вынуждена строить иерархию цепей Маркова со скрытыми состояниями.

Как итог, пространство G3, которое наблюдает проекцию в него состояний G1 и G2, вынуждена обобщать, балансируя между устойчивыми состояниями и многообразием системы (энтропией), из вариационного принципа.

Это значит, что наши наблюдения всегда ограничены нашей разрешающей способностью и вместимостью нашей системы из которой мы наблюдаем внешнюю динамику.

Ассиметрия это наблюдаемые различие. Симметрия это когда наблюдаемые события совпадают, хотя их природа может отличаться, поэтому она равнозначные по вероятности. График на примере анализа миллиардов текстов.
Ассиметрия это наблюдаемые различие. Симметрия это когда наблюдаемые события совпадают, хотя их природа может отличаться, поэтому она равнозначные по вероятности. График на примере анализа миллиардов текстов.

Можно предположить, что если мы бесконечно будем увеличивать размерность G, то сможем описать все. Но это не так. Дело в том, что у какой то момент, при увеличении размерности N мы уже не лучшим наше понимание. Система выходит на плато. Это связано с тем, что мы не можем различить некоторые проекции.

Например, представьте себе что у вам поступает на вход текст, по которому мы собираем статистику.

Некоторые фрагменты встречаются уникальное кол-во раз, например "ова" обозначим А, но есть фрагменты которые встречаются одинаковое кол-во раз "ыро" и "пьо" у них одинаковая статистика, в текстах они встречаются только 1 раз обозначим B.

Мы наблюдаем только A->B. И по этому наблюдению мы не можем сказать это "ова"->"ыро" или это "ова"->"пьо". Для нас как наблюдателя истинная природа B скрыта, поэтому мы теряем инфорамация о том, что такое B. Мы наблюдаем только не обобщение. Если мы не можем наблюдать конечно исходные системы G.

Поэтому невозможно построить систему, которая объясняет все. Просто потому что информация может теряться при проекции.

Не важно, это текст или это звук со светом. Для нас как наблюдателя доступна только возможность, анализа динамики и ее статистика.

Каким бы не был наш язык описания системы (нашего пространства G), он всегда будет ограничен размерностью самой системой и потерей части информации при ее наблюдении, даже если мы бесконечно будем увеличивать его размерность.

Все немного сложнее, но надеюсь объяснил понятно.

Не совсем, OpenMythos и оригинальный Mythos от Anthropic хотя технически разные вещи (потому что Anthropic не раскрывает Mythos), но изначально OpenMythos являлся попыткой воссоздать архитектуру Anthropic на основе утекших данных и научных публикаций. Поэтому архитектурно, они должны быть одинаковые или схожие. Тут об этом как раз:

https://juliangoldie.com/open-mythos/

Аналогично тут:https://skillsllm.com/skill/openmythos

Тут два главных смысла, это Рекурсивная глубина (Recurrent-Depth Transformer / Looped Transformer): на чем и построен "прорыв" Mythos связанный с цикличным использованием слоев. То есть вместо сотен последовательных уникальных слоев, модель многократно (N раз) прогоняет скрытое состояние через один и тот же базовый блок с общими весами.

И рассуждение в латентном пространстве (сейчас несколько таких архитектур было особенно с начала 2026). Тут что в оригинальной идее Mythos, что в OpenMythos процесс мышления (он же reasoning) происходит скрытно и непрерывно внутри forward. Поэтому модели не генерирует промежуточный текстовый пошаговый лог (как в CoT).

Поэтому, взяли рекуррентный трансформер и скрестили его с идеей рассуждения в латетном пространстве (с подачей изначального сигнала на вход для удержания контекста). Я бы сказал так, что Anthropic взяли удачные работы по этим направлениям и использовали в своей архитектуре. Собственно поэтому OpenMythos можно считать ближайшим аналогом.

Я не верю, что Anthropic с нуля разработали что-то свое. А вот вобрать удачные решения 2025-2026 года уверен.

У Mythos есть отличие. Тут описывал:

https://habr.com/ru/companies/gazprombank/articles/1026124/comments/#comment_29866508

Смысл в том, что рассуждения работают иначе. Там есть внутренние циклы, которые прибавляются к начальному контексту, это усиливает начальный контекст и не даёт модели терять его. Но это так же увеличивает затраты на инференс, так как требуется дополнительно до 4-8 проходов на блок (если я правильно помню из разбора архитектуры OpenMythos). Поэтому в худшем сценарии модель может потреблять в 8 раз больше расчетов на инференс.

Архитектурная разница есть. В этом случае контекст более устойчивый при рассуждении и рассуждения сразу точнее. Но при этом данная модель сильно более затратная. Я не знаю сколько циклов заложено для обычно потребителя. В описании архитектуры было до 8 циклов. Но для потребителя они могли снизить их например до 2 или 4, установить более большие пороги прекращения цикла.

Так что в любом случае данная архитектура более прожорливая. И главное преимущество, это удержание контекста. Но с учётом современного подхода, когда модели постоянно переключаются - я не уверен, что это сильно эффективно.

Три модели пишут письмо дядя Фёдора.
Три модели пишут письмо дядя Фёдора.

Это как сжимать данные одним архиватором, потом в середине процесса другим архиватором и потом продолжить снова сжимать первым.

Думаю в скором времени китайцы перенесут этот подход в открытые модели.

Это большая проблема. Но хуже, когда ты пишешь продуманный код, а другой через агентов вайбкодит и полностью меняет твой код под свою задумку, и этот код не читаемый.

У меня так на днях было, сделал развертывание архитектуры в докерах. Все прозрачно, продумано, читаемо. Другой решил сделать более универсально через GitLab сборку. Скормил агентам, те переписали, работает. Но я открыл, что ему сетка сделала и у меня глаз потек. Совершенно не читаемо, вся прозрачность улетучилась, в коде появились жёсткие пути типа ../python/3.11.5/.. и прочее. И при этом человек топит за "понятный и прозрачный код" и одновременно допускает такой дикий "вайбкодинг". Разница в том, что за прозрачный код он топит там, где силен в разработке, а не читаемый вайбкодинг ему нормально в той области где он вероятно не силен.

Поэтому я подозреваю, что за полный вайбкодинг без полного код ревью топят те, кто не понимает, что им написала сетка или не планируют потом это поддерживать (я написал, а вы сами разберитесь и поддерживайте это легаси).

 DS2Net с вашей страница GitHub в статье.
DS2Net с вашей страница GitHub в статье.

Тут изначально не правильный подход к выбору архитектуры. Вам следовало использовать Jepa. Вы работает фактически с шумом, который надо обобщить. Описанные ваше архитектуры, учатся улавливать шум. Тут используется Dual-Scheme Domain-Selected Network (Анализ УЗИ).

Формально:

Сеть решает проблему "сдвига домена", когда ИИ, обученный на обычных 2D-УЗИ, плохо работает на контрастных УЗИ. Архитектура использует выравнивание признаков, чтобы эффективно переносить знания между разными типами медицинских аппаратов.

Изначально главная задача DS2Net в анализе УЗИ была нужна, чтобы решить проблему сдвига доменов УЗИ, сделанных на старом аппарате в одной клинике на аппарат другой клиники (более современный). То есть эта архитектура была нужна как умный фильтр на входе. Использовать ее для классификации пользы не даст.

Здесь это описано более подробно и объясняется почему.

DS2Net тоже борется с шумом, но делает это классическими костылями и намного менее качественно, чем EchoJEPA. Чтобы DS2Net поняла, где важная геометрия, а где шум, ей нужны тысячи снимков, где врачи вручную обвели опухоли. Она не понимает общую картину в целом, вместо этого просто ищет корреляции между пикселями и пиксельной маской.

Поэтому если вы принесете в клинику УЗИ-аппарат совершенно нового поколения, шум на котором кардинально отличается от того, что видела DS2Net при обучении, её классификация сломается. Она начнет путать новые шумовые паттерны с анатомическими структурами. Она учится шуму, просто пытается его сгруппировать.

Я ранее описывал это в комментарии, к одной из статей.

https://habr.com/ru/news/1018328/comments/#comment_29766370

EchoJEPA (обученная на 18 млн видео-УЗИ) совершила прорыв именно потому, что JEPA предсказывает смысл в скрытом (абстрактном) пространстве, полностью игнорируя пиксельный шум. Она обучается без учителя, "понимает" анатомию как единое целое и игнорирует спекл-шума.

1) не определяет объект Q, что это феноменальная самосогласованность? Сейчас это звучит так - существует некое свойство Q, отвечающее за сознание.

2) Нет предсказаний. Любая научная гипотеза должна позволять отличить:

Мир А, где сознание есть как глобальное ограничение.

Мир Б, где сознания нет.

без этого это пока философия.

3) в статье вы пытаетесь ответить на вопрос, почему возникает опыт? А в итоге сводите это к "существует глобальное ограничение, связанное с опытом". Но почему возникает опыт, не описываете?

4) В статье вы используете Backprop как риторику. Обратное распространение ошибки не имеет отношения к сознанию. То есть вы взяли две аналогии цель и согласование и поставили между ними знак равенства. На основании чего? Никакой логической связи с квалиа здесь нет (по крайней мере в статье).

Если посыл статьи был, что локальные правила могут быть недостаточны для описания системы и нужны глобальные условия согласованности, то эта математическая идея давно известна.

Насчет квалиа и согласованности, то мне встречался разбор научных работ. Как раз на тему цвета, через понятия квалиа.

И собственно еще одна, с разбором квалиа в ИИ. Тоже разбор работ.

Для примера, гипотеза создания из той же серии. Любая гипотеза, должно иметь критерии, по которым можно оценивать Q который вы описали, чтобы проверить или хотя бы оценить его. Иначе это остается философским рассуждением.

Сейчас это пока больше похоже на философское рассуждение вида "А что если сознание является не локальной причиной, а глобальным условием самосогласованности истории мира? ". Это не притензия, а скорее подчеркну, что для гипотезы сначала нужно определить что такое Q, откуда он берется, как описывается и так далее.

Спасибо за разьяснение, теперь понятно. Был не прав. С учетом описанного, согласен, что они все являются Quasi-LPV. Ранее не встречал "On the State-Space Realization of LPV Input-Output Models: Practical Approaches", хотя судя по всему работа старая.

Recurrent Transformers гораздо ближе к RNN, чем к Quasi-LPV. Они являются прямыми архитектурными наследниками рекуррентных нейросетей.
Основная идея Recurrent Transformers (например RMT), это разбиение длинной последовательности на сегменты и передача информации от одного сегмента к другому через фиксированное скрытое состояние.

В классических RNN это состояние называется h(t) и обновляется через полносвязный слой. В Recurrent Transformers роль h(t) играют специальные токены памяти (memory tokens), которые обновляются с помощью механизма Self-Attention. Математический граф вычислений здесь абсолютно такой же, как у RNN: последовательный, итеративный и использующий скрытый вектор для сжатия предыстории.

Если попытаться найти хоть какое-то сходство, то механизм Attention в Recurrent Transformers можно натянуть на структуру Quasi-LPV лишь концептуально: матрицы внимания (Attention weights) вычисляются динамически на основе текущих входных данных (токенов). В ТАУ это отдаленно напоминает изменение параметров системы в зависимости от её состояния. Однако это лишь аналогия.

Про обучение и остальное согласен. К Quasi-LPV скорее относятся Mamba (SSM), но Recurrent Transformers нет, он построен на RNN, а RNN напрямую к Quasi-LPV не относится, есть только сходство/аналогия.

В рамках рекуррентных сетей, лучше рассматривать подробнее не ParaRNN и старые RNN. Сейчас в 20026 году тенденция сместилась на рекуррентные трансформеры: Recurrent Transformer, Latent Recurrent Transformer, Test-Time Memory и другие. Они сочетают RNN и старый трансформер. Именно благодаря им достигается длинна контекста в 1 млн. токенов и более. Стоит рассмотреть их в статьях.

Recurrent Transformer: https://arxiv.org/pdf/2604.21215

Latent Recurrent Transformer (LRT): https://www.researchgate.net/publication/405317536_Latent_Recurrent_Transformer_Architecture_Exploration_Training_Strategies_and_Scaling_Behavior

Fast Byte Latent Transformer (Fast BLT): https://arxiv.org/pdf/2605.08044

Test-Time Memory архитектуры (Test-Time Training): https://arxiv.org/pdf/2604.06169

Так же понравилась представленная на Хабре работа Sessa (Selective State Space Attention): https://habr.com/ru/articles/990704/

В чистом виде от RNN мало толку, даже с учетом распараллеливания ParaRNN. Подобное решается в SSM (State Space Models) методом "сканирования". Если перенесете подобное в архитектуры выше и покажете, что это работает, то будет очень интересно.

H = X - Y
H = X - Y

Пока у архитектуры не будет динамической реализации predict coding, ни о каком полноценном "не знаю" не может идти речи.

Механизм predict coding, позволяет усилить альтернативные маршруты. То есть, если модель изначально ошибалась и оказалось что альтернативный маршрут "я не знаю" даёт больше вероятность чем текущий, то она переключится на него, потому что ошибка усилит его вероятности. И тогда переход "я не знаю", на множестве данных датасета (а не конкретных) будет иметь высокую вероятность.

Сейчас же, если обучать модель на конкретных данных отвечать "я не знаю", то это ничем не отличается от любого другого обучения другим ответам на конкретных данных. С таким же успехом, можно обучить отвечать "я не знаю" на текст "Маша пошла в лес".

"Я не знаю" должен быть результатом обобщения динамики ошибок при использовании predict coding.

Именно по этой же причине, модель не можем сама полноценно сама переключиться на альтернативный вариант продолжения текста. Случайный выбор токена, который может являться устойчивым альтернативным маршрутом тут не в счёт, так как это рулетка.

https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-2-12-21

LLM на самом деле предсказывает множество альтернативных маршрутов. Но именно ошибка, должна усиливать наиболее сильные альтернативы.

В мозге за это отвечает слой 6. А в более глубоком погружении зона ACC. Которые выделяют ошибку, и добавляют ее на вход (если упрощённо). Это похоже на то, как Mythos сделали с добавлением выходного сигнала, подмешивая его во входной, чтобы увидеть контекст. Это делают слои 5 неокортекса и MPFC. А вот сигнал ошибки не делают. В упрощённой схеме, ACC смешивает сигнал ошибки и входной сигнал, чтобы усилить альтернативы. А MPFC смешивает выходной сигнал и вход, чтобы сохранить контекст. И уже в зависимости, что сильнее окажется влияние контекст или ошибка, то и будет наиболее вероятным продолжением.

Проблема в том, как встроить такую динамику в трансформеры и обучать с ней. Чтобы "я не знаю", "с другой стороны.." и так далее, стали результатом обобщения ошибки на множестве обучающих данных, а не конкретного ответа.

То что вы описали в статье не утверждается сегодня. Уже давно это понятие расширенно. Во второй лекции Сапольского (которая вышла лет 10 назад), тогда уже говорилось об этом. Стратегии сильно зависят от правил и среды. Более того, возникает круговорот оптимальных стратегий, и описанный в статье вариант это лишь оптимальная стратегия в конкретных условиях.

Дилемма заключённого в чистом виде уже давно не используется и не интерпретируется биологами.

Порой лучше один раз посмотреть лекции, чем сотни раз читать такое.

Эта фраза "Традиционная дилемма предполагает, что игроки действуют вслепую. " в корне не верна на сегодня. Так как рассматриваются разные стратегии, разные состояния среды. И когда игроки действуют в слепую и когда нет, и когда знают когда стратегия закончится, и когда не знают и так далее.

Недавно попадался пример "удачного" внедрения во время церемонии вручения дипломов в этом году в колледже Глендейл в Аризоне. Cистема распознавания имен (подозреваю на основе агентов) галлюцинировала. Пропустила десятки студентов, неправильно произнесла имена и делала длинные паузы, что разозлило толпу. В итоге церемония была приостановлена на несколько часов, и администрация извинялась со словами " Мы используем новую систему искусственного интеллекта в качестве считывателя текста. Так что это для нас урок ", чем сильнее разозлила всех. В итоге пригласили живого ведущего, чтобы правильно объявить имена оставшихся выпускников.

https://www.businessinsider.com/graduation-ceremony-ai-misses-names-boos-glendale-community-college-2026-5

Недовольны в итоге были все. В комментариях на разных ресурсах было как всегда - "да гранаты промпт/агенты у него не той системы" и т.д.

Простой пример, как пытаются запихать нейронки ради нейронок.

Вы получили аналог Reservoir Computing моделей (точнее семейства Attention-Enhanced RC и Liquid State Machine (LSM) и Physical Reservoir Computing и Echo State Network (ESN) ). Это, то о чем пишет в статье ниже

https://habr.com/ru/articles/1028548/

Фактически вы получил тоже самое (только через веса attention). У этих моделей интересный подход, но свои ограничения.

Что конкретно? Это фиксированная нелинейная динамическая система, где обучается только outputs. В ней есть некоторый фиксированный резервуар, который инициализирован случайным способом. Обучается только выход (линейный слой или MLP).

Есть разновидности с Attention. Система после обучения выдает осмысленный текст.

Проблема этих систем в не оптимальности, что-то вроде "мы хотим обучаемую динамику, но не хотим её обучать". Они плохо прогнозируют при наличии шума, разной температуре, плохая стабильность, и так далее.

Сейчас таких моделей нет, но речь о том, что они должны появиться, как часть процесса оптимизации. Так как размер таких моделей может быть меньше, так как они заточены под конкретную область.

Они явно будут работать быстрее - так как это будет означать, что токенизатор будет собран на статистике узкой специализации. То есть конструкции for if и прочие уже как токены, и вероятно редкие токены как функции частых фреймворков. Это ускоряет генерацию и уменьшает кол-во токенов. Модель уже не допустит ошибку при написании синтаксиса, так как он ее часть.

Поэтому я уверен, что такие модели будут появляться в будущем (сейчас у всех идет упор на оптимизацию), так как именно это решает бизнес задачи и приносит платежеспособных клиентов. А подобный подход существенно удешевляет развертывание таких моделей.

Их гораздо проще обучать, так как обучение Codex (GPT-5.3-Codex и Codex-5.4, и Codex-ChatGPT 5.5) и Opus прежде всего строиться на специальном подходе обучения, отличном от обучения простым текстам (дообучали). Например для программирования сетка генерирует множество разного кода, этот код запускается через компилятор, выбирается лучший на основе ошибок запуска и с ним модель обучается. Это синтетические данные. Именно поэтому сейчас некоторые делают уклон отдельных моделей под IT разработку, так как проще собрать данные для некоторых областей через корректную синтетику.

Но сейчас, небольшие модели под языки разработки пока ни кто не обучал.

Хотя квантование имеет проблемы, есть подходы к уменьшению значений до (-1, 0, 1) в Bonsai языковой модели, которая обучается с нуля. Но сейчас пока не ясно, насколько хорошо они масштабируются. Если окажется, что хорошо, то это сильно сместит акцент в языковых моделях. Насколько я знаю, исследования пока ведутся, у той же Microsoft как раз BitNet (тоже присутствует в видео).

Да про гроккинг помню статью. Я не говорю что MoE бесполезное решение, но у него есть границы и оно не всегда работает эффективно или имеет преимущество перед другими решениями.

Так же, я не утверждаю, что нам нужна куча моделей взамен больших языковых. Все зависит от оптимальности, а это много вводных: размер модели, скорость работы, точность и так далее. Безусловно для всех областей это не нужно.

Но приведу два аргумента за:

1) сегодня только попалось исследование, где обучили на множестве заболеваний (от Альцгеймера до рака) и лекарств (при чем молекулярных связях по моему - точно не помню) и модель показала результаты гораздо лучше других, так как была заточена под одну область, не было мусора, не было противоречий и лишних обобщений. В этой области такая специализированная модель оправдана, так как шум с сайта мамочки.ком не будет мешать.

2) Если токенизатор заточен под конкретную область, то модель более качественно будет строить прогноз в этой области и быстрее (токенов на прогноз уйдет меньше). Если в нем встречаются все конструкции ЯП вроде for, if и даже каких то методов, потому что они очень часто встречались (мы существенно уменьшили долю общих данных). в этом случае инференс быстрее, модель точнее (она не разделит слово "for " на "fo中" - а иногда подобное встречается в текстах). Но конечно при условии, что в токенизатор действительно попадает это все. Но такая специализация токенизатора - теоретически оправдана. Так ли это будет на практике - я не знаю.

Опять же, я не утверждаю, что все станет специализированными моделями. Речь о том, что специализация позволяет оптимизировать и вероятно часть задач будут решаться в рамках таких моделей.

Все верно, так и есть. Людей 7 млрд. и среди них даже попадаются очень редкие виды, которые изучают палеоантропологию Австралии в период за 100 тыс до 1 млн лет до нашей эры. И таких может быть всего 5 человек на 7 млрд.

Эволюция к этому не просто так пришла. То что модели сейчас ресурсоемко обучать - это другая проблема текущих архитектур и мат. теории (не в том плане что она плохая, а в том что еще не достаточно развилась в этой области).

С ростом модели и данных, возникает проблема обобщения. В реальности данные не всегда уникальны (речь про вероятность их появления) и многие пересекаются и отличаются очень слабо или лежат в небольшом диапазоне. Чем больше данных вы обобщаете, тем сильнее размываете асимметрию между ними и в какой-то момент малейший шум в данных меняет направление предсказание на другое (опечатка, длинный текст, ошибки округления и так далее).

Когда у вас цена ошибки высокая, то вам выгоднее использовать специализированные модели. Например, как муравьи - каждый выполняет свою роль, или как в ИТ где разные разработчики по своим стекам, а есть проджект и архитектор и другие. Если спросить разработчика, который узкий спец по Rust, как реализовать что-то, то он тут же скажет ответ, так как его модель обучена и предсказывает это. Но спроси человека, который обобщил множество знаний и он начнет сомневаться, как лучше сделать (продумывать общее решение). И когда дело дойдет до кода, он может сделать хуже (хотя архитектурно продумал глубже), так как редкие детали языка уже не помнит. Вот с LLM так же, при обобщении детали обобщаются и теряются. Был у вас X1=5 и X2=100, обобщили получили (X1+X2)/2 = 52.5 и если у вас разброс значений при обобщении веса был большой, то вы стираете детали. Все сложнее, но пример просто условный.

Когда же обучение происходит только в одной области данных, то у вас не будет возникать ситуаций, которые так сильно размазываются вероятности. Потому что четко: после конструкции А идет В и ни когда не встречается C (из другой области где после А могла идти С). Модель более уверенно и точно делает предсказание.

Например, вы обучили модель на романе Мастер и Маргарита. Она более точно продолжит нам моменты данного романа, чем крупная модель.

Поэтому все равно уходят и будут уходить к специализированным моделям. И это происходит уже сейчас. Вопрос только на сколько детализировано они будут разбиты.

Например, только сегодня смотрел исследование, где обучали модель на множестве заболеваний, чтобы она лучше специализировалась. И как я понимаю это значительно улучшило качество при разработке лекарств. Будут ли в ИТ разбиения на языки или на бэк/фронт/архитектура или разработка/управление разработкой/проектирование или что-то еще нельзя сказать. Все будет зависеть от стоимости затрат на обучение и поддержку.

Если окажется, то небольшие локальные модели на 24-32B при специализированном обучении только Python дают качество лучше или сопоставимое с крупными в области Python, то разработчику Python нет смысла от крупной при написании своего кода. Он просто будет локально использовать ее или арендовать недорогой доступ к ней.

Да, вы правы тут "с точностью до наоборот" /s, поэтому вы под разные специализации задач, советуете человеку разные модели. Хотя на сегодня все модели обучались на одних и тех же данных, разница какие чаще повторяли и на что делали упор при обучении.

Не понимаю, как вы утверждаете обратное, и тут же в другом месте пишете об этом же, но в другой формулировке.

1
23 ...

Information

Rating
4,076-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity