Pull to refresh
63
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

0,3
Rating
23
Subscribers
Send message

Нашел на youtube ранее ваши видео. Тут одно из них, где вы делаете упор на агентов. Более того, все новые компоненты которые вы описываете это уже реально существующие подходы.

  • Value Compass - policy engine / guardrails

  • State & Risk Monitor - anomaly detection

  • Context Hygiene - input sanitization / trust scoring

  • Human escalation - approval workflows

То есть новой архитектуры не показано. Затем у вас идет: агенты мёртвые, им ничего не стоит нарушить промпт, нужна нужда (Need). Это уже пошла не инженерия, а философия. Тут есть подмена понятий, вы говорите "системы иногда делают ошибки" и делаете из этого вывод "значит им нужен страх, голод, напряжение". Это антропоморфизм вместо решения.

Ранее вы писали статью, про то что цепи Маркова не подходят. Но у вас на GitHub выложена презентация, как я понимаю представления тех с кем вы делаете про йеп Маркова Complexity Through Compression. A Hierarchical Predictive Control.pdf Это несколько странно звучит тогда.

В целом в папке 2026 года, все презентации опираются вокруг готовых открытых LLM - llama или других, либо свои обвязки агентские. Речь про эту папку:

https://github.com/agirussia/agirussia.github.io/tree/main/presentations/2026

Так же как пример, ваша статья https://zenodo.org/records/19553174. В ней вы пишите про подход, который можно обобщить до "сознание можно выделить, вычитая из человеческого разума всё, что есть у других млекопитающих". Остаётся остаток, который вы называете архитектура субъектности. И этот остаток по вашему мнению состоит из трёх компонентов (это из вашей статьи):

  • R — рекурсивная вложенность

  • B — информационная пропускная способность - это определение очень размыто. Без четких критериев, подходит что угодно.

  • M — метарепрезентация с самомодификацией

И дальше утверждается, что если все три превышают порог, то возникает сознание (как фазовый переход).

К этому уже очень много вопросов, так как в реальности это не выполняется на практике. Мы не знаем, что именно есть у животных, нет точного списка когнитивных способностей и полного понимания сознания даже у человека, тем более чёткой границы есть / нет.

Ну и что важно, эволюция не убирает слои, она переиспользует их. Поэтому то, что раньше было A и выполняла функцию B, то сейчас эта A может выполнять функцию C. А если мы исключаем B и основу A, то исключаем и C (это если упрощенно).

Аналогично, про фальсифицируемость, там она заявлена, но не реализована. Вы пишите, что есть проверяемые предсказания. Но проблем, чтобы гипотеза была проверяемой, нужно чётко измерить R, B, M и задать пороги, показать эксперимент. Я этого не увидел ни где.

В данной работе вы предложили гипотезу, но не сформировали критерии и четкие требования для нее, чтобы ее можно было проверить или дать ей оценку. И это не правильно переходить от "мы предложили гипотезу " к "мы нашли архитектуру субъектности", это не корректно.

Если смотреть на эту вашу работу Metabolic AI: Принципы живой когнитивной архитектуры. То там мы снова видим, упор на агентов, так как там например идет сравнение агентов FEP и вашего представления об агентах на "гормональных" принципах. В статье очень много абстрактных терминов, которым не даны точные определения и критерии, как например "эмерджентная конфигурация аттракторов". Статья пытается сказать что "это не метафизика, а инженерное свойство", но как раз, если мы не можем это измерить или реализовать - это и есть метафизика.

Теперь по коду, который была выложен. В нем было

digest = sha256(seed + tick + stimulus)

value = extract_number(digest)

value → сглаживание → вывод

Плюс немного косметики _hill(), nakarushton(), _smooth(). Но это же просто генератор псевдослучайных временных рядов.

При этот весь код обильно обвешан терминами: BCM rule, STDP, ATP, dopamine, cortisol, нейроанатомия и другие. Но ни один из этих механизмов не реализован.

Допустим это заглушка. Но почему тогда написано Obfuscated demo? Что за демо, что он демонстрирует не понятно - генератор временных рядов?

Аналогично смотрел вашу статью Концепция искусственного сознания для инженеров AGI (v1.0). Вся статья сводится к одной мысли, что искусственное сознание это способность поддерживать субъектную когерентность во времени при действии.

И далее предлагается архитектура (но только названия функций, а не их реализация )

  • IdentityCore - read-only ценности и инициатор, как формируются ценности? как влияют на поведение? в каком виде они хранятся?

  • Narrative memory - идея не новая эпизодическая и автобиографическая память. Как она реализована и как влияет на вывод?

  • QualiaEngine - somatic markers с отсылкой к нейронауке, ни где нет модели квалиа, ни каких измерений и алгоритма. Не ясно что и как оценивать.

  • Intentionality - цели и выбор. В реальных системах это планирование, оптимизация и функция награды. Тут же ничего не указано.

  • Metareflection - это уже существует CoT и других подходах, но тут вы не ссылаетесь на реальные методы.

  • Ethical loop - guardrails и policy systems в целом стандартная практика.

  • Public accountability - логирование и метрики. Метрик не увидел ни где.

Плюс цикл PH1–PH7. Но нет описания фаз, алгоритма и переходов, только абстракция.

Тут же можно увидеть это в коде https://github.com/metabolicrussianai/ena\_standalone

Python-код не реализует заявленную теорию вообще.

Из всего этого я могу сделать только один вывод. Вы делаете агентскую систему вокруг готовой архитектуры (возможно изначально уже обученной или дообучаете или обучаете с нуля сейчас). Раз вы писали, что нет трансформеров - вариантов не много, Mamba или урезанные архитектуры (жидкие сети вы отбросили). Но в той же Mamba (SSM) есть головы - просто они реализованы как каналы, но это те же головы что и у трансформера, просто реализация другая. Если же у вас урезаны все распараллеливания признаков, то это не правильно. Ведь вы хотите опираться на нейробиологию, а в ней как раз аналог голов есть - это кластеры нейронов в слоях 2-3 некортекса.

Если я не прав, хорошо. Но пока то что я видел и разбирал (а на это ушло много времени), со стороны говорит именно об этом.

Я изначально полагал, что там используется RC архитектура, так как только она обеспечивает правило "обучение почти без обучения" так как изначально создаёт случайную функцию и подстраивает веса под нее. В этом главная идея жидких нецростей с резервуаром.

Но потом посмотрел GitHub, статьи и понял что этого нет. Могу предположить, что автор делает что то вроде своих агентов вокруг уже обученных llm моделей, вводя собственные абстракции. На эти мысли наводит код и анализ статей и препринты.

 DS2Net с вашей страница GitHub в статье.
DS2Net с вашей страница GitHub в статье.

Тут изначально не правильный подход к выбору архитектуры. Вам следовало использовать Jepa. Вы работает фактически с шумом, который надо обобщить. Описанные ваше архитектуры, учатся улавливать шум. Тут используется Dual-Scheme Domain-Selected Network (Анализ УЗИ).

Формально:

Сеть решает проблему "сдвига домена", когда ИИ, обученный на обычных 2D-УЗИ, плохо работает на контрастных УЗИ. Архитектура использует выравнивание признаков, чтобы эффективно переносить знания между разными типами медицинских аппаратов.

Изначально главная задача DS2Net в анализе УЗИ была нужна, чтобы решить проблему сдвига доменов УЗИ, сделанных на старом аппарате в одной клинике на аппарат другой клиники (более современный). То есть эта архитектура была нужна как умный фильтр на входе. Использовать ее для классификации пользы не даст.

Здесь это описано более подробно и объясняется почему.

DS2Net тоже борется с шумом, но делает это классическими костылями и намного менее качественно, чем EchoJEPA. Чтобы DS2Net поняла, где важная геометрия, а где шум, ей нужны тысячи снимков, где врачи вручную обвели опухоли. Она не понимает общую картину в целом, вместо этого просто ищет корреляции между пикселями и пиксельной маской.

Поэтому если вы принесете в клинику УЗИ-аппарат совершенно нового поколения, шум на котором кардинально отличается от того, что видела DS2Net при обучении, её классификация сломается. Она начнет путать новые шумовые паттерны с анатомическими структурами. Она учится шуму, просто пытается его сгруппировать.

Я ранее описывал это в комментарии, к одной из статей.

https://habr.com/ru/news/1018328/comments/#comment_29766370

EchoJEPA (обученная на 18 млн видео-УЗИ) совершила прорыв именно потому, что JEPA предсказывает смысл в скрытом (абстрактном) пространстве, полностью игнорируя пиксельный шум. Она обучается без учителя, "понимает" анатомию как единое целое и игнорирует спекл-шума.

1) не определяет объект Q, что это феноменальная самосогласованность? Сейчас это звучит так - существует некое свойство Q, отвечающее за сознание.

2) Нет предсказаний. Любая научная гипотеза должна позволять отличить:

Мир А, где сознание есть как глобальное ограничение.

Мир Б, где сознания нет.

без этого это пока философия.

3) в статье вы пытаетесь ответить на вопрос, почему возникает опыт? А в итоге сводите это к "существует глобальное ограничение, связанное с опытом". Но почему возникает опыт, не описываете?

4) В статье вы используете Backprop как риторику. Обратное распространение ошибки не имеет отношения к сознанию. То есть вы взяли две аналогии цель и согласование и поставили между ними знак равенства. На основании чего? Никакой логической связи с квалиа здесь нет (по крайней мере в статье).

Если посыл статьи был, что локальные правила могут быть недостаточны для описания системы и нужны глобальные условия согласованности, то эта математическая идея давно известна.

Насчет квалиа и согласованности, то мне встречался разбор научных работ. Как раз на тему цвета, через понятия квалиа.

И собственно еще одна, с разбором квалиа в ИИ. Тоже разбор работ.

Для примера, гипотеза создания из той же серии. Любая гипотеза, должно иметь критерии, по которым можно оценивать Q который вы описали, чтобы проверить или хотя бы оценить его. Иначе это остается философским рассуждением.

Сейчас это пока больше похоже на философское рассуждение вида "А что если сознание является не локальной причиной, а глобальным условием самосогласованности истории мира? ". Это не притензия, а скорее подчеркну, что для гипотезы сначала нужно определить что такое Q, откуда он берется, как описывается и так далее.

Спасибо за разьяснение, теперь понятно. Был не прав. С учетом описанного, согласен, что они все являются Quasi-LPV. Ранее не встречал "On the State-Space Realization of LPV Input-Output Models: Practical Approaches", хотя судя по всему работа старая.

Recurrent Transformers гораздо ближе к RNN, чем к Quasi-LPV. Они являются прямыми архитектурными наследниками рекуррентных нейросетей.
Основная идея Recurrent Transformers (например RMT), это разбиение длинной последовательности на сегменты и передача информации от одного сегмента к другому через фиксированное скрытое состояние.

В классических RNN это состояние называется h(t) и обновляется через полносвязный слой. В Recurrent Transformers роль h(t) играют специальные токены памяти (memory tokens), которые обновляются с помощью механизма Self-Attention. Математический граф вычислений здесь абсолютно такой же, как у RNN: последовательный, итеративный и использующий скрытый вектор для сжатия предыстории.

Если попытаться найти хоть какое-то сходство, то механизм Attention в Recurrent Transformers можно натянуть на структуру Quasi-LPV лишь концептуально: матрицы внимания (Attention weights) вычисляются динамически на основе текущих входных данных (токенов). В ТАУ это отдаленно напоминает изменение параметров системы в зависимости от её состояния. Однако это лишь аналогия.

Про обучение и остальное согласен. К Quasi-LPV скорее относятся Mamba (SSM), но Recurrent Transformers нет, он построен на RNN, а RNN напрямую к Quasi-LPV не относится, есть только сходство/аналогия.

В рамках рекуррентных сетей, лучше рассматривать подробнее не ParaRNN и старые RNN. Сейчас в 20026 году тенденция сместилась на рекуррентные трансформеры: Recurrent Transformer, Latent Recurrent Transformer, Test-Time Memory и другие. Они сочетают RNN и старый трансформер. Именно благодаря им достигается длинна контекста в 1 млн. токенов и более. Стоит рассмотреть их в статьях.

Recurrent Transformer: https://arxiv.org/pdf/2604.21215

Latent Recurrent Transformer (LRT): https://www.researchgate.net/publication/405317536_Latent_Recurrent_Transformer_Architecture_Exploration_Training_Strategies_and_Scaling_Behavior

Fast Byte Latent Transformer (Fast BLT): https://arxiv.org/pdf/2605.08044

Test-Time Memory архитектуры (Test-Time Training): https://arxiv.org/pdf/2604.06169

Так же понравилась представленная на Хабре работа Sessa (Selective State Space Attention): https://habr.com/ru/articles/990704/

В чистом виде от RNN мало толку, даже с учетом распараллеливания ParaRNN. Подобное решается в SSM (State Space Models) методом "сканирования". Если перенесете подобное в архитектуры выше и покажете, что это работает, то будет очень интересно.

H = X - Y
H = X - Y

Пока у архитектуры не будет динамической реализации predict coding, ни о каком полноценном "не знаю" не может идти речи.

Механизм predict coding, позволяет усилить альтернативные маршруты. То есть, если модель изначально ошибалась и оказалось что альтернативный маршрут "я не знаю" даёт больше вероятность чем текущий, то она переключится на него, потому что ошибка усилит его вероятности. И тогда переход "я не знаю", на множестве данных датасета (а не конкретных) будет иметь высокую вероятность.

Сейчас же, если обучать модель на конкретных данных отвечать "я не знаю", то это ничем не отличается от любого другого обучения другим ответам на конкретных данных. С таким же успехом, можно обучить отвечать "я не знаю" на текст "Маша пошла в лес".

"Я не знаю" должен быть результатом обобщения динамики ошибок при использовании predict coding.

Именно по этой же причине, модель не можем сама полноценно сама переключиться на альтернативный вариант продолжения текста. Случайный выбор токена, который может являться устойчивым альтернативным маршрутом тут не в счёт, так как это рулетка.

https://telegra.ph/Simmetriya-v-rangovoj-teorii-chast-2-12-21

LLM на самом деле предсказывает множество альтернативных маршрутов. Но именно ошибка, должна усиливать наиболее сильные альтернативы.

В мозге за это отвечает слой 6. А в более глубоком погружении зона ACC. Которые выделяют ошибку, и добавляют ее на вход (если упрощённо). Это похоже на то, как Mythos сделали с добавлением выходного сигнала, подмешивая его во входной, чтобы увидеть контекст. Это делают слои 5 неокортекса и MPFC. А вот сигнал ошибки не делают. В упрощённой схеме, ACC смешивает сигнал ошибки и входной сигнал, чтобы усилить альтернативы. А MPFC смешивает выходной сигнал и вход, чтобы сохранить контекст. И уже в зависимости, что сильнее окажется влияние контекст или ошибка, то и будет наиболее вероятным продолжением.

Проблема в том, как встроить такую динамику в трансформеры и обучать с ней. Чтобы "я не знаю", "с другой стороны.." и так далее, стали результатом обобщения ошибки на множестве обучающих данных, а не конкретного ответа.

То что вы описали в статье не утверждается сегодня. Уже давно это понятие расширенно. Во второй лекции Сапольского (которая вышла лет 10 назад), тогда уже говорилось об этом. Стратегии сильно зависят от правил и среды. Более того, возникает круговорот оптимальных стратегий, и описанный в статье вариант это лишь оптимальная стратегия в конкретных условиях.

Дилемма заключённого в чистом виде уже давно не используется и не интерпретируется биологами.

Порой лучше один раз посмотреть лекции, чем сотни раз читать такое.

Эта фраза "Традиционная дилемма предполагает, что игроки действуют вслепую. " в корне не верна на сегодня. Так как рассматриваются разные стратегии, разные состояния среды. И когда игроки действуют в слепую и когда нет, и когда знают когда стратегия закончится, и когда не знают и так далее.

Недавно попадался пример "удачного" внедрения во время церемонии вручения дипломов в этом году в колледже Глендейл в Аризоне. Cистема распознавания имен (подозреваю на основе агентов) галлюцинировала. Пропустила десятки студентов, неправильно произнесла имена и делала длинные паузы, что разозлило толпу. В итоге церемония была приостановлена на несколько часов, и администрация извинялась со словами " Мы используем новую систему искусственного интеллекта в качестве считывателя текста. Так что это для нас урок ", чем сильнее разозлила всех. В итоге пригласили живого ведущего, чтобы правильно объявить имена оставшихся выпускников.

https://www.businessinsider.com/graduation-ceremony-ai-misses-names-boos-glendale-community-college-2026-5

Недовольны в итоге были все. В комментариях на разных ресурсах было как всегда - "да гранаты промпт/агенты у него не той системы" и т.д.

Простой пример, как пытаются запихать нейронки ради нейронок.

Для примера Cortical Labs и систему DishBrain, эксперимент, где культура живых нейронов училась играть в Pong.

Для многих новостей это выглядело как: нейроны играют в Pong. Но для самих авторов центральной была проверка идей Free Energy Principle и active inference.

Идея была примерно такой. Есть культура нейронов, сенсорный вход, обратная связь, возможность действия на среду.

Если системе давать предсказуемую сенсорику при правильных действиях и хаотическую/непредсказуемую при “неправильных”, то нейронная система начинает самоорганизовываться так, чтобы минимизировать непредсказуемость входов и стабилизировать сенсорный поток. Это очень близко к active inference framing.

Ключевой момент, что нейроны не знали Pong.Никто не объяснял правила, не обучал через labels, не делал supervised learning, не делал RLHF.

Нейроны вообще не знали, что такое мяч, не знали, что такое игра, не знали, что такое выигрыш. Но система адаптировала динамику, уменьшала неожиданные сенсорные состояния.

Это и было интерпретировано как минимизация surprise / variational free energy.

Это НЕ означает, что FEP доказан окончательно. И не означает, что FEP единственная теория. Но это сильный аргумент, что FEP не является бессмысленной философией и active inference имеет экспериментальную ценность.

И это уже уровень не философской работы, а повторяемых экспериментов.

Free Energy Principle построена на теории вероятности и Марковской цепи, при этом вы оперируете к Марковскому одеяло и одновременно игнорируете марковскую цепь связанную с ним (когда пишите Марковская память — это архитектурная ложь). Сюрпраз о котором вы пишите - это как раз -ln(P) где P это вероятность.

Вы получили аналог Reservoir Computing моделей (точнее семейства Attention-Enhanced RC и Liquid State Machine (LSM) и Physical Reservoir Computing и Echo State Network (ESN) ). Это, то о чем пишет в статье ниже

https://habr.com/ru/articles/1028548/

Фактически вы получил тоже самое (только через веса attention). У этих моделей интересный подход, но свои ограничения.

Что конкретно? Это фиксированная нелинейная динамическая система, где обучается только outputs. В ней есть некоторый фиксированный резервуар, который инициализирован случайным способом. Обучается только выход (линейный слой или MLP).

Есть разновидности с Attention. Система после обучения выдает осмысленный текст.

Проблема этих систем в не оптимальности, что-то вроде "мы хотим обучаемую динамику, но не хотим её обучать". Они плохо прогнозируют при наличии шума, разной температуре, плохая стабильность, и так далее.

Сейчас таких моделей нет, но речь о том, что они должны появиться, как часть процесса оптимизации. Так как размер таких моделей может быть меньше, так как они заточены под конкретную область.

Они явно будут работать быстрее - так как это будет означать, что токенизатор будет собран на статистике узкой специализации. То есть конструкции for if и прочие уже как токены, и вероятно редкие токены как функции частых фреймворков. Это ускоряет генерацию и уменьшает кол-во токенов. Модель уже не допустит ошибку при написании синтаксиса, так как он ее часть.

Поэтому я уверен, что такие модели будут появляться в будущем (сейчас у всех идет упор на оптимизацию), так как именно это решает бизнес задачи и приносит платежеспособных клиентов. А подобный подход существенно удешевляет развертывание таких моделей.

Их гораздо проще обучать, так как обучение Codex (GPT-5.3-Codex и Codex-5.4, и Codex-ChatGPT 5.5) и Opus прежде всего строиться на специальном подходе обучения, отличном от обучения простым текстам (дообучали). Например для программирования сетка генерирует множество разного кода, этот код запускается через компилятор, выбирается лучший на основе ошибок запуска и с ним модель обучается. Это синтетические данные. Именно поэтому сейчас некоторые делают уклон отдельных моделей под IT разработку, так как проще собрать данные для некоторых областей через корректную синтетику.

Но сейчас, небольшие модели под языки разработки пока ни кто не обучал.

Хотя квантование имеет проблемы, есть подходы к уменьшению значений до (-1, 0, 1) в Bonsai языковой модели, которая обучается с нуля. Но сейчас пока не ясно, насколько хорошо они масштабируются. Если окажется, что хорошо, то это сильно сместит акцент в языковых моделях. Насколько я знаю, исследования пока ведутся, у той же Microsoft как раз BitNet (тоже присутствует в видео).

Да про гроккинг помню статью. Я не говорю что MoE бесполезное решение, но у него есть границы и оно не всегда работает эффективно или имеет преимущество перед другими решениями.

Так же, я не утверждаю, что нам нужна куча моделей взамен больших языковых. Все зависит от оптимальности, а это много вводных: размер модели, скорость работы, точность и так далее. Безусловно для всех областей это не нужно.

Но приведу два аргумента за:

1) сегодня только попалось исследование, где обучили на множестве заболеваний (от Альцгеймера до рака) и лекарств (при чем молекулярных связях по моему - точно не помню) и модель показала результаты гораздо лучше других, так как была заточена под одну область, не было мусора, не было противоречий и лишних обобщений. В этой области такая специализированная модель оправдана, так как шум с сайта мамочки.ком не будет мешать.

2) Если токенизатор заточен под конкретную область, то модель более качественно будет строить прогноз в этой области и быстрее (токенов на прогноз уйдет меньше). Если в нем встречаются все конструкции ЯП вроде for, if и даже каких то методов, потому что они очень часто встречались (мы существенно уменьшили долю общих данных). в этом случае инференс быстрее, модель точнее (она не разделит слово "for " на "fo中" - а иногда подобное встречается в текстах). Но конечно при условии, что в токенизатор действительно попадает это все. Но такая специализация токенизатора - теоретически оправдана. Так ли это будет на практике - я не знаю.

Опять же, я не утверждаю, что все станет специализированными моделями. Речь о том, что специализация позволяет оптимизировать и вероятно часть задач будут решаться в рамках таких моделей.

Все верно, так и есть. Людей 7 млрд. и среди них даже попадаются очень редкие виды, которые изучают палеоантропологию Австралии в период за 100 тыс до 1 млн лет до нашей эры. И таких может быть всего 5 человек на 7 млрд.

Эволюция к этому не просто так пришла. То что модели сейчас ресурсоемко обучать - это другая проблема текущих архитектур и мат. теории (не в том плане что она плохая, а в том что еще не достаточно развилась в этой области).

С ростом модели и данных, возникает проблема обобщения. В реальности данные не всегда уникальны (речь про вероятность их появления) и многие пересекаются и отличаются очень слабо или лежат в небольшом диапазоне. Чем больше данных вы обобщаете, тем сильнее размываете асимметрию между ними и в какой-то момент малейший шум в данных меняет направление предсказание на другое (опечатка, длинный текст, ошибки округления и так далее).

Когда у вас цена ошибки высокая, то вам выгоднее использовать специализированные модели. Например, как муравьи - каждый выполняет свою роль, или как в ИТ где разные разработчики по своим стекам, а есть проджект и архитектор и другие. Если спросить разработчика, который узкий спец по Rust, как реализовать что-то, то он тут же скажет ответ, так как его модель обучена и предсказывает это. Но спроси человека, который обобщил множество знаний и он начнет сомневаться, как лучше сделать (продумывать общее решение). И когда дело дойдет до кода, он может сделать хуже (хотя архитектурно продумал глубже), так как редкие детали языка уже не помнит. Вот с LLM так же, при обобщении детали обобщаются и теряются. Был у вас X1=5 и X2=100, обобщили получили (X1+X2)/2 = 52.5 и если у вас разброс значений при обобщении веса был большой, то вы стираете детали. Все сложнее, но пример просто условный.

Когда же обучение происходит только в одной области данных, то у вас не будет возникать ситуаций, которые так сильно размазываются вероятности. Потому что четко: после конструкции А идет В и ни когда не встречается C (из другой области где после А могла идти С). Модель более уверенно и точно делает предсказание.

Например, вы обучили модель на романе Мастер и Маргарита. Она более точно продолжит нам моменты данного романа, чем крупная модель.

Поэтому все равно уходят и будут уходить к специализированным моделям. И это происходит уже сейчас. Вопрос только на сколько детализировано они будут разбиты.

Например, только сегодня смотрел исследование, где обучали модель на множестве заболеваний, чтобы она лучше специализировалась. И как я понимаю это значительно улучшило качество при разработке лекарств. Будут ли в ИТ разбиения на языки или на бэк/фронт/архитектура или разработка/управление разработкой/проектирование или что-то еще нельзя сказать. Все будет зависеть от стоимости затрат на обучение и поддержку.

Если окажется, то небольшие локальные модели на 24-32B при специализированном обучении только Python дают качество лучше или сопоставимое с крупными в области Python, то разработчику Python нет смысла от крупной при написании своего кода. Он просто будет локально использовать ее или арендовать недорогой доступ к ней.

Да, вы правы тут "с точностью до наоборот" /s, поэтому вы под разные специализации задач, советуете человеку разные модели. Хотя на сегодня все модели обучались на одних и тех же данных, разница какие чаще повторяли и на что делали упор при обучении.

Не понимаю, как вы утверждаете обратное, и тут же в другом месте пишете об этом же, но в другой формулировке.

Я использовал разные и ChatGPT и Gemini, Opus и Sonnet и deepSeek. Так как делать миграцию ручками не очень. И с переносом простых вещей модели справляются хорошо, если делают маленькими патчами за раз (то есть переносят 10 таблиц только, но если все сразу то контекст растет и они начинают терять детали обязательно где то будет не так перенесен тип или поле название измениться или что то еще).

Конечно всегда уточнялось в начале про PG. Но на сложных SQL хранимых процедурах это не очень помогает. Так как PG начинает терять влияние и дальше уже сильнее влияют другие токены. Кроме того, часто было так, что он упорно в самом начале пытался использовать конструкцию из Oracle, а в другом не мог правильно реализовать логику и зацикливался и ходил по кругу (там была конструкция где в PG, ее можно было применять только к одному параметру, а он пытался применять сразу ко всем). Хуже всего, когда код проходит валидацию и выполняется, но в отчетах генерирует мусор.

Поэтому я бы хотел, чтобы модель специализировалась на одной предметной области, а не разбавляла бы свою статистику вероятностей кулинарной книгой, когда мне нужно от нее только написание кода на конкретном языке разработки.

На самом деле тренд на специализированные модели уже есть. Все эти Opus и Sonnet это уже первые специализированные модели под языки программирования, где при обучении упор делается на программирование. Теперь осталось специализировать модели под разные языки программирования и уровни постановки задач.

Это не работает так всегда. Если вы делали миграцию с MS SQL или Oracle на pgSql, то видели бы как это плывет на сложных хранимых процедурах. Ни какой "pgSql" не помогает тут, начинают вставлять конструкции из других диалектах, так как влияние pgSql теряется при росте контекста.

1
23 ...

Information

Rating
2,779-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity