ARad16 фев в 08:36

Почему LLM продолжают генерировать ошибки в коде — и это не исправить масштабированием

Простой

7 мин

13K

Natural Language Processing * Искусственный интеллектИсследования и прогнозы в IT * Программирование *

Мнение

+32

Комментарии 49

Master_Yoda_810 16 фев в 10:09

Но стоит перейти на Rust или Haskell — и появляются логические промахи

Возможно, дальше будут создавать специализированные модели под каждый язык, что логично. Возможно даже для отдельных подзадач - работа и БД или графикой и т.п.

FSmile 16 фев в 11:35

Так это база. Просто дорого

BlackMokona 16 фев в 14:25

Скорее пока не нужно, из-за слишком быстрого роста основной модели. Пока наделаешь сотню под моделей, конкуренты уйдут на пару поколений вперед которые обойдут специализированные модели на старых технологиях

sidewinder1 17 фев в 07:25

Это уже делается и называется fine tuning

GBR-613 17 фев в 09:14

Ох, а я, вот, боюсь, что Хаскель и другая экзотика исчезнут из обращения - из-за отсутствия специализированных моделей (к сожалению).

vitalist84 16 фев в 11:30

Статья 2023 года? Уже появились агенты, оркестраторы агентов, агенты ревьюверы, не один лишь голый чатжпт под рукой.

kostyaBro 16 фев в 20:08

Тоже хотел сказать про это. Один агент ресерчит, пишет спеку, тз, для разработки, другой агент разрабатывает, третий пишет спеки на тесты не оглядываясь на код и тесты, вот и верификация. Общаются и ревьювят друг друга

udattsk 17 фев в 09:43

Вам говорят что они в базе НЕ ПОНИМАЮТ нифига, по своей ПРИРОДЕ. А вы "общаются" 🤦

ToniDoni 16 фев в 14:16

они аппроксимируют вероятности продолжений, а не строят логически непротиворечивые решения

Как будто бы 22 год на дворе и вся эта reasoning/COT история ещё неизвестна автору.

ARad 16 фев в 17:47

Конечно мне это все известно и знакомо. Но даже это не спасает LLM модель от отсутствия понимая кода.

Код, сгенерированный ИИ, меняет проявление сложности в реальных кодовых базах. Люди обычно оценивают архитектуру, паттерны и долгосрочное владение кодом. Большие языковые модели (LLM) фокусируются на локальной функциональной корректности. Такой подход приводит к дублированию логики, несогласованным стилям, лишним слоям абстракции и скрытому техническому долгу, который становится очевидным только при проверке (review) кодовой базы созданной ИИ.

Отдельные функции, написанные ИИ, могут выглядеть чистыми, но при этом создавать всплески сложности в масштабе системы. Проблема часто проявляется на архитектурном уровне, а не внутри одного файла.

ToniDoni 16 фев в 18:56

Ну вот в статье вы попытались опереться на математику, но поспешили с выводами, потому что современная ллм, с которым мы все имеем дело - это далеко не только претрейн, хоть они и называются исторические gpt, а в комментариях уже отвечаете исключительно тезисно.

Большие языковые модели (LLM) фокусируются на локальной функциональной корректности.

Как вы пришли к этому выводу например? Причём, что забавно, вы противоречите своему же обращению к математике в статье, где справедливо вспоминаете, что нейронка - это универсальный аппроксиматор, а здесь уже получается локальный, а не универсальный? - вы уж определитесь.

Конечно мне это все известно и знакомо. Но даже это не спасает LLM модель от отсутствия понимая кода.

Скорее это знание не помогает вам понять как работают современные ллм.

Но если вам так удобнее думать - то ваше право. Но зачем было тогда тащить в статью матан.

ARad 17 фев в 03:05

Ну вот в статье вы попытались опереться на математику, но поспешили с выводами, потому что современная ллм, с которым мы все имеем дело - это далеко не только претрейн, хоть они и называются исторические gpt, а в комментариях уже отвечаете исключительно тезисно.

ИИ Агенты с большим набором возможностей усиливают возможности генерации LLM в тысячи раз и это скрывает математическую основу LLM.

Большие языковые модели (LLM) фокусируются на локальной функциональной корректности.

Как вы пришли к этому выводу например? Причём, что забавно, вы противоречите своему же обращению к математике в статье, где справедливо вспоминаете, что нейронка - это универсальный аппроксиматор, а здесь уже получается локальный, а не универсальный? - вы уж определитесь.

Когда ИИ агенты пишут код, они часто не замечают общую архитектуру системы, делают много ненужного копирования кода, не используют общие уже написанные методы, а создают частные решения, опускают общие знания о проекте, поэтому код получается корректным, но менее поддерживаемым, его приходится дорабатывать.

Скорее это знание не помогает вам понять как работают современные ллм.
Но если вам так удобнее думать - то ваше право. Но зачем было тогда тащить в статью матан.

Потому что статья про математическую основу LLM моделей, и почему не смотря на то что современная обвязка вокруг LLM усиливает их возможности в тысячи раз, они не заменят человека в ближайшее время по контролю кода.

Математика заложенная в LLM и отсутствие до обучения локальными знаниями, пока не позволяют моделям полностью заменить человека на сложных проектах с большими собственными знаниями. Большое контекстное окно помогает, но не всегда.

sidewinder1 17 фев в 07:27

Любой Codebase Retrieval MCP делает простой задачу понимания архитектуры системы на кодовой базе любого масштаба

ToniDoni 17 фев в 11:07

Причём тут агенты вообще, я вам пытаюсь сказать, что вы только с фундаментом ллм познакомились, а именно с претрейном, где как вы верно подметили строится функции распределения условной вероятности, но там же ещё, и другие этапы обучение есть, RL тот же, там своя математика. Познакомились бы с матчастью до конца, прежде чем делать преждевременные выводы.

отсутствие до обучения локальными знаниями,

Про файнтюнинг вы тоже не слышали получается, а ведь это база.

Складывается впечатление, что ваша цель подогнать решение под ответ, который у вас уже в голове сидит, мол ллмки чего-то там не могут бай дизайн, поэтому и повторяйте одни и те же тезисы, как заученные.

Забавно то, что обвиняя ллмки в неспособности к логическому пониманию, вы сами демонстрируете его отсутствие.

ARad 17 фев в 11:18

Методы обучения совершенствуются в невероятной скоростью. Но это не влияет на базовую архитектуру трансформера и глубоких нейронных сетей. Поэтому ваше замечание мало что не меняет.

Чему надо учить модели это логически рассуждать и видеть ошибки в логике. Пока я видел только научные статьи на эту тему, и не видел чтобы создатели нейронок хвастались что научили свою модель полноценным рассуждениям. Возможно у них нет большого обучающего корпуса для этого. Такой корпус обучающих данных сложнее создать.

ARad 17 фев в 11:23

Забавно что другое мнение, основанное на другой оценке тех же знаний вы считаете отсутствием логики. Покажите статью что кто то научил модель полноценно рассуждать.

Не сомневаюсь что LLM модели научат полноценно рассуждать, но этого пока нет по моим данным.

ARad 17 фев в 03:17

https://africa.businessinsider.com/careers/ai-agents-are-transforming-what-its-like-to-be-a-coder-its-been-unlike-any-other-time/99tsw8e

Технический директор Canva говорит, что старшие инженеры теперь проводят большую часть времени, проверяя код, созданный ИИ.

Самая сложная часть инженерной работы — преобразовать зачастую расплывчатые, запутанные, противоречивые требования во что-то готовое к запуску в производство.

Для эффективного использования ИИ-агентов требуется то, что Хамфрис назвал «точностью формулировок» при описании требований и «владением предметной областью», чтобы инженеры могли быстро проверить правильность кода, сгенерированного ИИ. Без экспертизы инженеров сложность может выйти из-под контроля в кодовой базе Canva, которая насчитывает примерно 70 миллионов строк кода.

Инженеры делают тысячи архитектурных правок за ИИ Агентами потому что им не хватает экспертности людей.

martopt 16 фев в 23:06

Так а что CoT принципиально меняет? Улучшает результат - да, но в основе все равно остаётся тот же самый апроксиматор. Автор вполне развернуто описал принципиальную проблему LLM, добавление CoT или каких-либо иных "трюков", чтобы повысить качество, без пересмотра исходного подхода ничего не изменит. Вы же заметили, что все залихватские прогнозы про скорейшее создание AGI на волне хайпа LLM не сбылись? И как приутихли все эти товарищи, которые пророчили глобальные изменения в нашей жизни в связи с появлением LLM? То-то и оно. А причины этого "тупика" (или, если хотите, временного замедления развития) LLM можете найти в статье. Как по мне вполне здравый взгляд с правильными акцентами на фундаментальные ограничения. Жаль только, что автор, как мне кажется, поленился писать текст целиком самостоятельно и воспользовался тем же ChatGPT для создания львиной доли материала.

vitalist84 17 фев в 00:11

Проблемы, которые описаны в статье действительно есть. Но статья написана так, как будто автор нырнул в самую суть и открыл всем глаза. Но на самом деле про эти проблема и ограничения уже давно известно с самого начала как только начали пользоваться LLM для написания кода.

Вы упрекаете, что автор использовал LLM для написания статьи. Так вот похоже что не использовал, перед тем как сесть писать, следовало бы задать любому чатботу несколько вопросов. С какими проблемами сталкиваются разработчики при написании кода с помощью LLM? Чат бот выдает больше чем тут написано. Как ведущие вендоры планируют решать эти проблемы в ближайшие 2 года? И там по каждой проблеме будет предложено подходящее прямое или обходное решение. Вот такая статья была бы действительно дельная, и можно было спорить получится, не получиться. А тут безопеляционные выводы - никогда, да ни за что.

ARad 17 фев в 01:52

Сейчас много пишут про ИИ Агенты с большим набором возможностей которые усиливают возможности генерации LLM в тысячи раз и это скрывает математическую основу LLM.

Перед тем как обсуждать современные методы усиления LLM моделей, надо описать базу.

Писать одну статью портянку и про все сразу тяжело.

vitalist84 17 фев в 03:56

Хорошо, тогда очень хочется продолжения банкета)

ToniDoni 17 фев в 11:19

Базу описывать можно, только зачем поговорив только о 20% (причём весьма поверхностно) сразу делать выводы о всей технологии.

ARad 17 фев в 12:48

На данном этапе технология позволяет обучат LLM только на огромном объёме данных. Они пока не умеют обучаться достаточно быстро и на достаточно на малом объёме данных как это делает человек.

Чтобы система научилась понимать логику, её надо научить рассуждениям, понимать логику и понимать рассуждения. Тогда она начнет обучаться как человек на малом количестве примеров.

Их надо обучать рассуждениям, но у человечества мало такого корпуса знаний. Мы создавали результаты своего труда — факты, но не записывали шаги наших рассуждений почему мы это так решили.

Это есть в математике, и возможно физике. Математика это язык логики и рассуждений, но он очень краткий. Если математику расписать языком ребёнка, с внимательными рассуждениями, то мы сильно продвинем наши LLM модели в математике. Возможно первое где модели начнут полноценно рассуждать это точные науки типа математики, физики, химии и подобные наука. Там мы записывали свои рассуждения.

В общем надо создавать большой обучающий корпус логических рассуждений и обучить на нем модели думать через статистику.

ToniDoni 17 фев в 13:39

Они пока не умеют обучаться достаточно быстро и на достаточно на малом объёме данных как это делает человек.

Homo sapiens вообще-то 300 тысяч лет обучался.

Чтобы система научилась понимать логику, её надо научить рассуждениям, понимать логику и понимать рассуждения.

Это уже давно делается - смотрите COT например

Возможно первое где модели начнут полноценно рассуждать это точные науки типа математики, физики, химии и подобные наука.

Уже лучше среднего человека математический олимпиады решают.

Вы как будто последние два года где-то в отпуске были в дали от новостей.

ARad 17 фев в 13:56

Я с ними общаюсь по несколько часов в день. Похоже вы успехи берете из заголовков статей. Да они отличные помощники. И текст пишут лучше меня и код быстро пишут и объем кода огромный, но они как дети в рассуждениях чуть шире их знаний.

Решают высшую математику они лучше меня в тысячу раз, я её забыл уже. И даже нашли решения которые люди пропустили, потому что не думали над ними. Людям эти проблемы были неинтересны. Более того математики сейчас как раз обучают модели думать математически. У них постепенно получается.

И открытия они делают в основном в биологии и химии, где огромный объем статистических данных. Там они монстры. люди не созданы для такого.

Все это мне известно.

Но вы пишите так, как будто они уже рассуждают на уровне человека, но это не так. При каждой новой для них задаче они буквально галюцинируют. По крайней мере на моих сложных задачах.

Да создать то что они сто раз видели это они умеют. Вы попробуйте им объяснить небанальные вещи, то что им не встречалось.

ToniDoni 17 фев в 14:05

При каждой новой для них задаче они буквально галюцинируют.

А человек как обычно себя проявляет когда сталкиваемся с чем-то впервые?

Да создать то что они сто раз видели это они умеют. Вы попробуйте им объяснить небанальные вещи, то что им не встречалось.

Вот здесь вы заблуждаетесь и причём принципиально. Любая нейросеть в своей днк несёт способность предсказывать, то чему её не учили, не даром валидационный и обучащий датасеты всегда разные.

ARad 17 фев в 14:18

Они видели миллиарды строк кода в отличии от меня, они видели решения миллионов задач. Он не новички в программировании, просто их как следует не учили мыслить.

Если их обучить мыслить они будут в сотни или тысячи раз умнее любого человека. Этого нельзя будет не заметить. Там просто не будет предмета спора. Как спорить сейчас кто лучше играет в шахматы. Мы просто признаем поражение. Этого ещё не произошло. Как скоро произойдёт я не знаю.

Пока не была механизма внимания глубокие нейронные сети вообще не могли текст обрабатывать. Они умели распознавать кошек, собак и так далее, умели видеть обученные предметы. Но генерировать связный текст не умели. Механизм внимания произвёл революцию в понимании текста нейронками.

Что то подобное нужно для рассуждений. Их этому учат, но на базе механизма внимания. Возможно чего то важного не хватает.

Как только они научатся реально рассуждать они станут умнее нас просто в тысячи раз.

В общем количество знаний зашитых внутри LLM моделей меня поражает. Но как они ими распоряжаются нет.

ToniDoni 17 фев в 14:39

Ваше право ждать от ллм большего.

Кстати справедливости ради стоит заметить, что ещё до внимание были рекуррентные сети которые применялись в nlp, внимание просто удобно параллелить на гпу.

ARad 17 фев в 14:00

Они почерпнули почти все знания человечества, так набор знаний у них больше чем у меня в миллионы раз я уверен.

ToniDoni 17 фев в 11:14

Так, аппроксиматор то что вы называете - это просто модель языка, и человек тем же языком пользуется и без проблем демонстрирует способности к логическому пониманию, почему тогда вы отказываете в этой способности лмкам, построенным на том же фундаменте (языке).

А вот COT - это уже конкретный навык работы с этим языком.

Ещё раз подчеркну для понимания, если вдруг его нет, навыки у ллмок, такие например как COT, формируются уже на следующих этапах после претрейна. Поэтому всё это апеллирование к математике в статье - мимо.

martopt 17 фев в 12:21

Человеческий мозг и феномен сознания с очень малой долей вероятности можно назвать апропсиматором, аналогичным нейросетям. LLM просто имитируют поведение человека, но не воссоздают глубинные механизмы, которые есть у людей. И корень проблемы тут в том, что пока что нет общепринятой теории, которая бы объясняла откуда берется сознание и что такое интеллект. Поэтому построить "искусственный интеллект" пока просто невозможно, никто даже не знает, а что такое интеллект, как его тогда можно сделать? А кто заявляет, что машины мыслят и логически рассуждают как человек - либо не разбирается в теме, либо намеренно пытается выдать желаемое за действительное.

По поводу надстройки CoT после претрейна - так а что это меняет? В CoT разве не такие же модели под капотом решают мелкие подзадачи? Если вы хотите сказать, что CoT нивелирует фундаментальные проблемы, описанные в статье, тогда почему даже с CoT остается много галлюцинаций?

ToniDoni 17 фев в 13:54

Вы кажется не поняли, что я вам попытался сказать, попробую еще раз:

Модель языка в ллм - это не фундаментальная проблема, а наоборот то что роднит ллм и человека, так как она аппроксимирует язык человека, и есть математика показывающая, что эта аппроксимация сходится.

COT это пример навыка, которому модель обучают уже после того как закончился претрейн (автор на этом моменте бросил читать теорию), здесь опять нет никакой проблемы, так как, детей также в школе обучают логике после того как они научились читать и писать. И в этом процессе обучения ллм и человека опять похож. Тут тоже все хорошо.

Резюмируя, нет никаких фундаментальных проблем о которых фантазирует автор, потому что он не дочитал до конца.

тогда почему даже с CoT остается много галлюцинаций

Но людям же можно писать статьи в интернете, когда они думаю, что в чем то до конца разобрались, почему тогда ллмкам нельзя уверенно говорить о том, в чем им кажется они уверены. Ллмки хотя бы извиняет то что их сначала спросили, а они ведь обучены стараться давать ответ всегда.

martopt 17 фев в 14:35

Нет, я вас прекрасно понял, просто не согласен (:

Давайте разберемся. Тот факт, что LLM умеют генерировать "осмысленный" текст, который отвечает (соответствует) входному запросу - действительно подтверждает сходимость апроксимации. Также согласен с тем, что CoT добавляет "похожести" на человека в плане размышлений. Далее, как я понимаю, вы пытаетесь приравнять это к мыслительному процессу в мозге человека и вот в этом я как раз не согласен по причинам описанным выше (никто не знает, как на самом деле мыслит человек). И тут ввиду сложности вопроса вряд ли подойдет подход "если что-то выглядит как утка, плавает как утка и крякает как утка, то вероятно это утка", а вы, кажется, ровно этой логикой и пытаетесь воспользоваться. Я же говорю о том, что мы не знаем как работает человеческий мозг и как в нем выстраиваются мысли и цепочки рассуждений, поэтому заявлять о каком-либо соответствии LLM и человека невозможно, ибо невозможно рассуждать о соответствии чему-то, чего мы до конца не можем описать. На мой взгляд здесь уместно осторожно заявлять о похожести и имитации.

Возвращаясь к посылу автора - я правильно понимаю, что вы заявляете, что CoT нивелирует фундаментальное ограничение нейросетей? Потому что выглядит это именно так, будто бы вы признаете наличие фундаментальных проблем у нейросетей в целом, но отрицаете их существование при наличии надстройки в виде CoT.

ToniDoni 17 фев в 17:03

Возвращаясь к посылу автора - я правильно понимаю, что вы заявляете, что CoT нивелирует фундаментальное ограничение нейросетей

Нет же, вы всё-таки неправильно понимаете) нет никакого фундаментального ограничения я пытаюсь это объяснить уже третье сообщение подряд.

вы пытаетесь приравнять это к мыслительному процессу в мозге человека

И опять нет) Я говорю что ллм обучают так же как человека: сначала правилам языка, а потом конкретным навыкам. И тем самым спорю с автором который решил, что в процессе построения ллм есть какие-то врождённые изъяны.

Касаемо правила утки - не вижу здесь тоже больших проблем, но это уже дело вкуса.

ARad 17 фев в 17:37

Нет же, вы всё-таки неправильно понимаете) нет никакого фундаментального ограничения я пытаюсь это объяснить уже третье сообщение подряд.

Мы по разному оцениваем одну и ту же информацию. Вы считаете раз модели пишут рассуждения значит их рассуждения построены на логике и понимании. Я же считают что сейчас они только эмитируют рассуждения на основе предсказаний следующего слова.

Настоящего понимая и рассуждения я там не вижу, попытки есть.

При их объёме знаний и при наличии полноценных рассуждений, этого было бы трудно не заметить. Пока не вижу.

Умения решать нестандартные задачи нестандартными способами не наблюдаю.

И опять нет) Я говорю что ллм обучают так же как человека: сначала правилам языка, а потом конкретным навыкам. И тем самым спорю с автором который решил, что в процессе построения ллм есть какие-то врождённые изъяны.

Не впечатляют меня их рассуждения. Объем знаний впечатляет, рассуждения нет.

going4wrd 17 фев в 21:28

Настоящего понимая и рассуждения я там не вижу, попытки есть.

Вероятно не попытки но имитация понимания и рассуждения.

martopt 17 фев в 18:10

Нет же, вы всё-таки неправильно понимаете) нет никакого фундаментального ограничения я пытаюсь это объяснить уже третье сообщение подряд.

Действительно не понимаю. На стадии претрейна есть фундаментальные ограничения, описанные в статье или нет? Есть есть, тогда по вашему мнению, видимо, CoT эти фундаментальные ограничения нивелирует, разве не так?

Или вы в итоге считаете, что и на стадии претрейна нет никаких проблем?

ToniDoni 17 фев в 18:27

я уже ответил на этот вопрос и не раз, ограничений нет, они возникли в голове автора лишь из-за недостаточной погруженности в тему, думаю дальше можно не продолжать

ARad 17 фев в 18:29

Оценивать надо умение решать нестандартные задачи нестандартными способами.
Вы это наблюдали? Где?

ToniDoni 17 фев в 18:37

Предложите свой бенчмарк, раз знаете как надо

going4wrd 17 фев в 20:56

Непосредственные создатели ллм пишут что ллм не понимает семантической разницы но инференс на внушительный % совпадает с тем что человек ожидает увидеть. Поэтому кажется что эта штука умеет думать и и.п. Chain of thought с большой вероятностью не более чем иллюзия

Upd. Даже доказали иллюзорность COT https://habr.com/ru/companies/technokratos/articles/939072/ Практически то про что автор и говорит

ToniDoni 17 фев в 21:18

Да говорить-то можно, просто это никак не вытекает из того обоснования которое автор подготовил, а так да исследований куча одни одно наисследовали, другие другое - это норма) тем более строгая красивая математика где что то можно доказать и потом уверенно утверждать, там кажется заканчивается как раз на претрейне, а дальше начинается чёрная магия.

Работа на которую вы ссылаетесь типичный пример, чуваки там что-то потыкали и точность упала. А завтра как обычно придут другие чуваки и скажут: Вот вы не так делали и надо было вот так делать - И тогда точность падать не будет)

ARad 18 фев в 06:08

Да нельзя будет не заметить интеллект!!!
ЭТО БУДЕТ ОЧЕВИДНО ВСЕМ!
Без всяких исследований!

Это как иногда статьи пишут, вроде наукообразно, а написан бред, так и рассуждения, они есть но на уровне ребёнка. Да выше чем у любой обезьяны и т.д. Знаний в миллионы раз больше чем у любого человека, а пользоваться для создания новых знаний не умеет. Это же очевидно.

Интеллект создаёт новые знания.

Ioanna 17 фев в 08:16

Спасибо, отличная статья, чтобы отсылать к ней тех, кто кричит о замене программистов нейросетями)

OlegMax 17 фев в 10:17

Статья неполна без side-by-side comparison, где так же математически доказано, что человек лишен этих ограничений. Всегда проще читать критические статьи о новой технологии, где есть сравнение с state of the art

ARad 17 фев в 10:46

К сожалению ещё нет даже примерной математической модели человеческого интеллекта. Поэтому я не знаю как можно оценить ограничения нашего интеллекта.

В скорости генерации LLM моделям мы точно проигрываем, в разумности пока нет.

Ученные изучающие наш интеллект изучили многое косвенно и многие ограничения даже оценили. И ограничения на самом деле достаточно серьёзные.

Например согласно исследованиям, шимпанзе и бонобо способны одновременно оперировать не более чем тремя объектами, что ограничивает их способность к сложному рекурсивному мышлению и изготовлению многосоставных орудий. Это является фундаментальным отличием от человека, чья рабочая память позволяет удерживать до 7 элементов. Ограничение связано с объёмом кратковременной памяти, а не физической силой.

edo1h 17 фев в 23:03

Поэтому я не знаю как можно оценить ограничения нашего интеллекта

Ну раз статья про ошибки при генерации кода, то именно так и оценивать. Назовите хоть одну более-менее сложную программу, написанную кожаными мешками, в которой нет ошибок.

v_0ver 18 фев в 08:58

Но стоит перейти на Rust или Haskell — и появляются логические промахи: неправильная работа с заимствованием, пропущенные граничные случаи. Иногда модель просто не знает синтаксических изменений, вышедших после её обучения, и упускает новые возможности, даже идеально подходящие к задаче.

Ну нет же. LLMка запущенная в агентом режиме с обратной связью от компилятора и линтера почти не делает таких наивных ошибок. Она банально не отдаёт результат пока код не начнёт компилироваться, и не будут устранены все ворнинги линтера(если установлено такое условие).

На моей практике тот же CODEX пишет пишет почти идеально на Rust. Другое дело, что он как джин, который старается вывернуть против темя любую недосказанность в поставленной задаче. Но это уже скилл ишью.

Модель не может ответить на вопрос «корректен ли этот код» — у неё попросту нет инструмента для такого суждения.

Опять же, мне кажется более правильная абстракция это не наивная аппроксимация, а алгоритм мат. программирования. Где LLMка это "интеллектуальный" шаг оптимизатора, а компилятор, линтер, тесты и валидация человеком(работа в реальном мире) это оракул который говорит насколько мы хорошо решаем задачу.

В такой постановки я не вижу причин почему в случае значительного усиления первых трёх барьеров (компилятор, линтер, тесты) к человеку уже придёт задача валидации с которой он просто когнитивно не способен справится, и соответственно станет не нужен.

Jajaba 18 фев в 17:28

Как будто люди ошибок не совершают. Модели становятся только лучше и лучше и им не нужно будет заново учиться, как человеку, только совершенствовать уже имеющиеся способности

Зарегистрируйтесь на Хабре, чтобы оставить комментарий