Комментарии 49
Но стоит перейти на Rust или Haskell — и появляются логические промахи
Возможно, дальше будут создавать специализированные модели под каждый язык, что логично. Возможно даже для отдельных подзадач - работа и БД или графикой и т.п.
Так это база. Просто дорого
Это уже делается и называется fine tuning
Ох, а я, вот, боюсь, что Хаскель и другая экзотика исчезнут из обращения - из-за отсутствия специализированных моделей (к сожалению).
Статья 2023 года? Уже появились агенты, оркестраторы агентов, агенты ревьюверы, не один лишь голый чатжпт под рукой.
Тоже хотел сказать про это. Один агент ресерчит, пишет спеку, тз, для разработки, другой агент разрабатывает, третий пишет спеки на тесты не оглядываясь на код и тесты, вот и верификация. Общаются и ревьювят друг друга
они аппроксимируют вероятности продолжений, а не строят логически непротиворечивые решения
Как будто бы 22 год на дворе и вся эта reasoning/COT история ещё неизвестна автору.
Конечно мне это все известно и знакомо. Но даже это не спасает LLM модель от отсутствия понимая кода.
Код, сгенерированный ИИ, меняет проявление сложности в реальных кодовых базах. Люди обычно оценивают архитектуру, паттерны и долгосрочное владение кодом. Большие языковые модели (LLM) фокусируются на локальной функциональной корректности. Такой подход приводит к дублированию логики, несогласованным стилям, лишним слоям абстракции и скрытому техническому долгу, который становится очевидным только при проверке (review) кодовой базы созданной ИИ.
Отдельные функции, написанные ИИ, могут выглядеть чистыми, но при этом создавать всплески сложности в масштабе системы. Проблема часто проявляется на архитектурном уровне, а не внутри одного файла.
Ну вот в статье вы попытались опереться на математику, но поспешили с выводами, потому что современная ллм, с которым мы все имеем дело - это далеко не только претрейн, хоть они и называются исторические gpt, а в комментариях уже отвечаете исключительно тезисно.
Большие языковые модели (LLM) фокусируются на локальной функциональной корректности.
Как вы пришли к этому выводу например? Причём, что забавно, вы противоречите своему же обращению к математике в статье, где справедливо вспоминаете, что нейронка - это универсальный аппроксиматор, а здесь уже получается локальный, а не универсальный? - вы уж определитесь.
Конечно мне это все известно и знакомо. Но даже это не спасает LLM модель от отсутствия понимая кода.
Скорее это знание не помогает вам понять как работают современные ллм.
Но если вам так удобнее думать - то ваше право. Но зачем было тогда тащить в статью матан.
Ну вот в статье вы попытались опереться на математику, но поспешили с выводами, потому что современная ллм, с которым мы все имеем дело - это далеко не только претрейн, хоть они и называются исторические gpt, а в комментариях уже отвечаете исключительно тезисно.
ИИ Агенты с большим набором возможностей усиливают возможности генерации LLM в тысячи раз и это скрывает математическую основу LLM.
Большие языковые модели (LLM) фокусируются на локальной функциональной корректности.
Как вы пришли к этому выводу например? Причём, что забавно, вы противоречите своему же обращению к математике в статье, где справедливо вспоминаете, что нейронка - это универсальный аппроксиматор, а здесь уже получается локальный, а не универсальный? - вы уж определитесь.
Когда ИИ агенты пишут код, они часто не замечают общую архитектуру системы, делают много ненужного копирования кода, не используют общие уже написанные методы, а создают частные решения, опускают общие знания о проекте, поэтому код получается корректным, но менее поддерживаемым, его приходится дорабатывать.
Скорее это знание не помогает вам понять как работают современные ллм.
Но если вам так удобнее думать - то ваше право. Но зачем было тогда тащить в статью матан.
Потому что статья про математическую основу LLM моделей, и почему не смотря на то что современная обвязка вокруг LLM усиливает их возможности в тысячи раз, они не заменят человека в ближайшее время по контролю кода.
Математика заложенная в LLM и отсутствие до обучения локальными знаниями, пока не позволяют моделям полностью заменить человека на сложных проектах с большими собственными знаниями. Большое контекстное окно помогает, но не всегда.
Любой Codebase Retrieval MCP делает простой задачу понимания архитектуры системы на кодовой базе любого масштаба
Причём тут агенты вообще, я вам пытаюсь сказать, что вы только с фундаментом ллм познакомились, а именно с претрейном, где как вы верно подметили строится функции распределения условной вероятности, но там же ещё, и другие этапы обучение есть, RL тот же, там своя математика. Познакомились бы с матчастью до конца, прежде чем делать преждевременные выводы.
отсутствие до обучения локальными знаниями,
Про файнтюнинг вы тоже не слышали получается, а ведь это база.
Складывается впечатление, что ваша цель подогнать решение под ответ, который у вас уже в голове сидит, мол ллмки чего-то там не могут бай дизайн, поэтому и повторяйте одни и те же тезисы, как заученные.
Забавно то, что обвиняя ллмки в неспособности к логическому пониманию, вы сами демонстрируете его отсутствие.
Методы обучения совершенствуются в невероятной скоростью. Но это не влияет на базовую архитектуру трансформера и глубоких нейронных сетей. Поэтому ваше замечание мало что не меняет.
Чему надо учить модели это логически рассуждать и видеть ошибки в логике. Пока я видел только научные статьи на эту тему, и не видел чтобы создатели нейронок хвастались что научили свою модель полноценным рассуждениям. Возможно у них нет большого обучающего корпуса для этого. Такой корпус обучающих данных сложнее создать.
Забавно что другое мнение, основанное на другой оценке тех же знаний вы считаете отсутствием логики. Покажите статью что кто то научил модель полноценно рассуждать.
Не сомневаюсь что LLM модели научат полноценно рассуждать, но этого пока нет по моим данным.
Технический директор Canva говорит, что старшие инженеры теперь проводят большую часть времени, проверяя код, созданный ИИ.
Самая сложная часть инженерной работы — преобразовать зачастую расплывчатые, запутанные, противоречивые требования во что-то готовое к запуску в производство.
Для эффективного использования ИИ-агентов требуется то, что Хамфрис назвал «точностью формулировок» при описании требований и «владением предметной областью», чтобы инженеры могли быстро проверить правильность кода, сгенерированного ИИ. Без экспертизы инженеров сложность может выйти из-под контроля в кодовой базе Canva, которая насчитывает примерно 70 миллионов строк кода.
Инженеры делают тысячи архитектурных правок за ИИ Агентами потому что им не хватает экспертности людей.
Так а что CoT принципиально меняет? Улучшает результат - да, но в основе все равно остаётся тот же самый апроксиматор. Автор вполне развернуто описал принципиальную проблему LLM, добавление CoT или каких-либо иных "трюков", чтобы повысить качество, без пересмотра исходного подхода ничего не изменит. Вы же заметили, что все залихватские прогнозы про скорейшее создание AGI на волне хайпа LLM не сбылись? И как приутихли все эти товарищи, которые пророчили глобальные изменения в нашей жизни в связи с появлением LLM? То-то и оно. А причины этого "тупика" (или, если хотите, временного замедления развития) LLM можете найти в статье. Как по мне вполне здравый взгляд с правильными акцентами на фундаментальные ограничения. Жаль только, что автор, как мне кажется, поленился писать текст целиком самостоятельно и воспользовался тем же ChatGPT для создания львиной доли материала.
Проблемы, которые описаны в статье действительно есть. Но статья написана так, как будто автор нырнул в самую суть и открыл всем глаза. Но на самом деле про эти проблема и ограничения уже давно известно с самого начала как только начали пользоваться LLM для написания кода.
Вы упрекаете, что автор использовал LLM для написания статьи. Так вот похоже что не использовал, перед тем как сесть писать, следовало бы задать любому чатботу несколько вопросов. С какими проблемами сталкиваются разработчики при написании кода с помощью LLM? Чат бот выдает больше чем тут написано. Как ведущие вендоры планируют решать эти проблемы в ближайшие 2 года? И там по каждой проблеме будет предложено подходящее прямое или обходное решение. Вот такая статья была бы действительно дельная, и можно было спорить получится, не получиться. А тут безопеляционные выводы - никогда, да ни за что.
Сейчас много пишут про ИИ Агенты с большим набором возможностей которые усиливают возможности генерации LLM в тысячи раз и это скрывает математическую основу LLM.
Перед тем как обсуждать современные методы усиления LLM моделей, надо описать базу.
Писать одну статью портянку и про все сразу тяжело.
Хорошо, тогда очень хочется продолжения банкета)
Базу описывать можно, только зачем поговорив только о 20% (причём весьма поверхностно) сразу делать выводы о всей технологии.
На данном этапе технология позволяет обучат LLM только на огромном объёме данных. Они пока не умеют обучаться достаточно быстро и на достаточно на малом объёме данных как это делает человек.
Чтобы система научилась понимать логику, её надо научить рассуждениям, понимать логику и понимать рассуждения. Тогда она начнет обучаться как человек на малом количестве примеров.
Их надо обучать рассуждениям, но у человечества мало такого корпуса знаний. Мы создавали результаты своего труда — факты, но не записывали шаги наших рассуждений почему мы это так решили.
Это есть в математике, и возможно физике. Математика это язык логики и рассуждений, но он очень краткий. Если математику расписать языком ребёнка, с внимательными рассуждениями, то мы сильно продвинем наши LLM модели в математике. Возможно первое где модели начнут полноценно рассуждать это точные науки типа математики, физики, химии и подобные наука. Там мы записывали свои рассуждения.
В общем надо создавать большой обучающий корпус логических рассуждений и обучить на нем модели думать через статистику.
Они пока не умеют обучаться достаточно быстро и на достаточно на малом объёме данных как это делает человек.
Homo sapiens вообще-то 300 тысяч лет обучался.
Чтобы система научилась понимать логику, её надо научить рассуждениям, понимать логику и понимать рассуждения.
Это уже давно делается - смотрите COT например
Возможно первое где модели начнут полноценно рассуждать это точные науки типа математики, физики, химии и подобные наука.
Уже лучше среднего человека математический олимпиады решают.
Вы как будто последние два года где-то в отпуске были в дали от новостей.
Я с ними общаюсь по несколько часов в день. Похоже вы успехи берете из заголовков статей. Да они отличные помощники. И текст пишут лучше меня и код быстро пишут и объем кода огромный, но они как дети в рассуждениях чуть шире их знаний.
Решают высшую математику они лучше меня в тысячу раз, я её забыл уже. И даже нашли решения которые люди пропустили, потому что не думали над ними. Людям эти проблемы были неинтересны. Более того математики сейчас как раз обучают модели думать математически. У них постепенно получается.
И открытия они делают в основном в биологии и химии, где огромный объем статистических данных. Там они монстры. люди не созданы для такого.
Все это мне известно.
Но вы пишите так, как будто они уже рассуждают на уровне человека, но это не так. При каждой новой для них задаче они буквально галюцинируют. По крайней мере на моих сложных задачах.
Да создать то что они сто раз видели это они умеют. Вы попробуйте им объяснить небанальные вещи, то что им не встречалось.
При каждой новой для них задаче они буквально галюцинируют.
А человек как обычно себя проявляет когда сталкиваемся с чем-то впервые?
Да создать то что они сто раз видели это они умеют. Вы попробуйте им объяснить небанальные вещи, то что им не встречалось.
Вот здесь вы заблуждаетесь и причём принципиально. Любая нейросеть в своей днк несёт способность предсказывать, то чему её не учили, не даром валидационный и обучащий датасеты всегда разные.
Они видели миллиарды строк кода в отличии от меня, они видели решения миллионов задач. Он не новички в программировании, просто их как следует не учили мыслить.
Если их обучить мыслить они будут в сотни или тысячи раз умнее любого человека. Этого нельзя будет не заметить. Там просто не будет предмета спора. Как спорить сейчас кто лучше играет в шахматы. Мы просто признаем поражение. Этого ещё не произошло. Как скоро произойдёт я не знаю.
Пока не была механизма внимания глубокие нейронные сети вообще не могли текст обрабатывать. Они умели распознавать кошек, собак и так далее, умели видеть обученные предметы. Но генерировать связный текст не умели. Механизм внимания произвёл революцию в понимании текста нейронками.
Что то подобное нужно для рассуждений. Их этому учат, но на базе механизма внимания. Возможно чего то важного не хватает.
Как только они научатся реально рассуждать они станут умнее нас просто в тысячи раз.
В общем количество знаний зашитых внутри LLM моделей меня поражает. Но как они ими распоряжаются нет.
Они почерпнули почти все знания человечества, так набор знаний у них больше чем у меня в миллионы раз я уверен.
Так, аппроксиматор то что вы называете - это просто модель языка, и человек тем же языком пользуется и без проблем демонстрирует способности к логическому пониманию, почему тогда вы отказываете в этой способности лмкам, построенным на том же фундаменте (языке).
А вот COT - это уже конкретный навык работы с этим языком.
Ещё раз подчеркну для понимания, если вдруг его нет, навыки у ллмок, такие например как COT, формируются уже на следующих этапах после претрейна. Поэтому всё это апеллирование к математике в статье - мимо.
Человеческий мозг и феномен сознания с очень малой долей вероятности можно назвать апропсиматором, аналогичным нейросетям. LLM просто имитируют поведение человека, но не воссоздают глубинные механизмы, которые есть у людей. И корень проблемы тут в том, что пока что нет общепринятой теории, которая бы объясняла откуда берется сознание и что такое интеллект. Поэтому построить "искусственный интеллект" пока просто невозможно, никто даже не знает, а что такое интеллект, как его тогда можно сделать? А кто заявляет, что машины мыслят и логически рассуждают как человек - либо не разбирается в теме, либо намеренно пытается выдать желаемое за действительное.
По поводу надстройки CoT после претрейна - так а что это меняет? В CoT разве не такие же модели под капотом решают мелкие подзадачи? Если вы хотите сказать, что CoT нивелирует фундаментальные проблемы, описанные в статье, тогда почему даже с CoT остается много галлюцинаций?
Вы кажется не поняли, что я вам попытался сказать, попробую еще раз:
Модель языка в ллм - это не фундаментальная проблема, а наоборот то что роднит ллм и человека, так как она аппроксимирует язык человека, и есть математика показывающая, что эта аппроксимация сходится.
COT это пример навыка, которому модель обучают уже после того как закончился претрейн (автор на этом моменте бросил читать теорию), здесь опять нет никакой проблемы, так как, детей также в школе обучают логике после того как они научились читать и писать. И в этом процессе обучения ллм и человека опять похож. Тут тоже все хорошо.
Резюмируя, нет никаких фундаментальных проблем о которых фантазирует автор, потому что он не дочитал до конца.
тогда почему даже с CoT остается много галлюцинаций
Но людям же можно писать статьи в интернете, когда они думаю, что в чем то до конца разобрались, почему тогда ллмкам нельзя уверенно говорить о том, в чем им кажется они уверены. Ллмки хотя бы извиняет то что их сначала спросили, а они ведь обучены стараться давать ответ всегда.
Нет, я вас прекрасно понял, просто не согласен (:
Давайте разберемся. Тот факт, что LLM умеют генерировать "осмысленный" текст, который отвечает (соответствует) входному запросу - действительно подтверждает сходимость апроксимации. Также согласен с тем, что CoT добавляет "похожести" на человека в плане размышлений. Далее, как я понимаю, вы пытаетесь приравнять это к мыслительному процессу в мозге человека и вот в этом я как раз не согласен по причинам описанным выше (никто не знает, как на самом деле мыслит человек). И тут ввиду сложности вопроса вряд ли подойдет подход "если что-то выглядит как утка, плавает как утка и крякает как утка, то вероятно это утка", а вы, кажется, ровно этой логикой и пытаетесь воспользоваться. Я же говорю о том, что мы не знаем как работает человеческий мозг и как в нем выстраиваются мысли и цепочки рассуждений, поэтому заявлять о каком-либо соответствии LLM и человека невозможно, ибо невозможно рассуждать о соответствии чему-то, чего мы до конца не можем описать. На мой взгляд здесь уместно осторожно заявлять о похожести и имитации.
Возвращаясь к посылу автора - я правильно понимаю, что вы заявляете, что CoT нивелирует фундаментальное ограничение нейросетей? Потому что выглядит это именно так, будто бы вы признаете наличие фундаментальных проблем у нейросетей в целом, но отрицаете их существование при наличии надстройки в виде CoT.
Возвращаясь к посылу автора - я правильно понимаю, что вы заявляете, что CoT нивелирует фундаментальное ограничение нейросетей
Нет же, вы всё-таки неправильно понимаете) нет никакого фундаментального ограничения я пытаюсь это объяснить уже третье сообщение подряд.
вы пытаетесь приравнять это к мыслительному процессу в мозге человека
И опять нет) Я говорю что ллм обучают так же как человека: сначала правилам языка, а потом конкретным навыкам. И тем самым спорю с автором который решил, что в процессе построения ллм есть какие-то врождённые изъяны.
Касаемо правила утки - не вижу здесь тоже больших проблем, но это уже дело вкуса.
Нет же, вы всё-таки неправильно понимаете) нет никакого фундаментального ограничения я пытаюсь это объяснить уже третье сообщение подряд.
Мы по разному оцениваем одну и ту же информацию. Вы считаете раз модели пишут рассуждения значит их рассуждения построены на логике и понимании. Я же считают что сейчас они только эмитируют рассуждения на основе предсказаний следующего слова.
Настоящего понимая и рассуждения я там не вижу, попытки есть.
При их объёме знаний и при наличии полноценных рассуждений, этого было бы трудно не заметить. Пока не вижу.
Умения решать нестандартные задачи нестандартными способами не наблюдаю.
И опять нет) Я говорю что ллм обучают так же как человека: сначала правилам языка, а потом конкретным навыкам. И тем самым спорю с автором который решил, что в процессе построения ллм есть какие-то врождённые изъяны.
Не впечатляют меня их рассуждения. Объем знаний впечатляет, рассуждения нет.
Нет же, вы всё-таки неправильно понимаете) нет никакого фундаментального ограничения я пытаюсь это объяснить уже третье сообщение подряд.
Действительно не понимаю. На стадии претрейна есть фундаментальные ограничения, описанные в статье или нет? Есть есть, тогда по вашему мнению, видимо, CoT эти фундаментальные ограничения нивелирует, разве не так?
Или вы в итоге считаете, что и на стадии претрейна нет никаких проблем?
я уже ответил на этот вопрос и не раз, ограничений нет, они возникли в голове автора лишь из-за недостаточной погруженности в тему, думаю дальше можно не продолжать
Оценивать надо умение решать нестандартные задачи нестандартными способами.
Вы это наблюдали? Где?
Непосредственные создатели ллм пишут что ллм не понимает семантической разницы но инференс на внушительный % совпадает с тем что человек ожидает увидеть. Поэтому кажется что эта штука умеет думать и и.п. Chain of thought с большой вероятностью не более чем иллюзия
Upd. Даже доказали иллюзорность COT https://habr.com/ru/companies/technokratos/articles/939072/ Практически то про что автор и говорит
Да говорить-то можно, просто это никак не вытекает из того обоснования которое автор подготовил, а так да исследований куча одни одно наисследовали, другие другое - это норма) тем более строгая красивая математика где что то можно доказать и потом уверенно утверждать, там кажется заканчивается как раз на претрейне, а дальше начинается чёрная магия.
Работа на которую вы ссылаетесь типичный пример, чуваки там что-то потыкали и точность упала. А завтра как обычно придут другие чуваки и скажут: Вот вы не так делали и надо было вот так делать - И тогда точность падать не будет)
Да нельзя будет не заметить интеллект!!!
ЭТО БУДЕТ ОЧЕВИДНО ВСЕМ!
Без всяких исследований!
Это как иногда статьи пишут, вроде наукообразно, а написан бред, так и рассуждения, они есть но на уровне ребёнка. Да выше чем у любой обезьяны и т.д. Знаний в миллионы раз больше чем у любого человека, а пользоваться для создания новых знаний не умеет. Это же очевидно.
Интеллект создаёт новые знания.
Спасибо, отличная статья, чтобы отсылать к ней тех, кто кричит о замене программистов нейросетями)
Статья неполна без side-by-side comparison, где так же математически доказано, что человек лишен этих ограничений. Всегда проще читать критические статьи о новой технологии, где есть сравнение с state of the art
К сожалению ещё нет даже примерной математической модели человеческого интеллекта. Поэтому я не знаю как можно оценить ограничения нашего интеллекта.
В скорости генерации LLM моделям мы точно проигрываем, в разумности пока нет.
Ученные изучающие наш интеллект изучили многое косвенно и многие ограничения даже оценили. И ограничения на самом деле достаточно серьёзные.
Например согласно исследованиям, шимпанзе и бонобо способны одновременно оперировать не более чем тремя объектами, что ограничивает их способность к сложному рекурсивному мышлению и изготовлению многосоставных орудий. Это является фундаментальным отличием от человека, чья рабочая память позволяет удерживать до 7 элементов. Ограничение связано с объёмом кратковременной памяти, а не физической силой.
Но стоит перейти на Rust или Haskell — и появляются логические промахи: неправильная работа с заимствованием, пропущенные граничные случаи. Иногда модель просто не знает синтаксических изменений, вышедших после её обучения, и упускает новые возможности, даже идеально подходящие к задаче.
Ну нет же. LLMка запущенная в агентом режиме с обратной связью от компилятора и линтера почти не делает таких наивных ошибок. Она банально не отдаёт результат пока код не начнёт компилироваться, и не будут устранены все ворнинги линтера(если установлено такое условие).
На моей практике тот же CODEX пишет пишет почти идеально на Rust. Другое дело, что он как джин, который старается вывернуть против темя любую недосказанность в поставленной задаче. Но это уже скилл ишью.
Модель не может ответить на вопрос «корректен ли этот код» — у неё попросту нет инструмента для такого суждения.
Опять же, мне кажется более правильная абстракция это не наивная аппроксимация, а алгоритм мат. программирования. Где LLMка это "интеллектуальный" шаг оптимизатора, а компилятор, линтер, тесты и валидация человеком(работа в реальном мире) это оракул который говорит насколько мы хорошо решаем задачу.
В такой постановки я не вижу причин почему в случае значительного усиления первых трёх барьеров (компилятор, линтер, тесты) к человеку уже придёт задача валидации с которой он просто когнитивно не способен справится, и соответственно станет не нужен.
Как будто люди ошибок не совершают. Модели становятся только лучше и лучше и им не нужно будет заново учиться, как человеку, только совершенствовать уже имеющиеся способности

Почему LLM продолжают генерировать ошибки в коде — и это не исправить масштабированием