Обновить

Когда Кнут признаёт, что Claude решил его задачу за час — пора менять инфраструктуру

Время на прочтение19 мин
Охват и читатели27K
Всего голосов 46: ↑14 и ↓32-13
Комментарии44

Комментарии 44

Так проекты не рекламируются!

Мы не пилим новую модель. Мы делаем правильную форму данных и правильный интерфейс доступа под режим, описанный выше

(C)

Компьютер (да даже калькулятор) считает несоизмеримо быстрее чем человек. Повозка с лошадью перевозит больше, чем носильщик, а примитивный грузовик больше чем повозка. И подобных примеров уйма.

Да, но критическая точка находится в том месте, где лошадь перевозит груз так быстро, что пока человек донесет его из нужной точки А в нужную точку Б - лошадь успеет проехать весь алфавит.
Совсем же тяжело становится когда пока лошадь объезжает весь алфавит - человек еще даже нужные точки определить не может.

В принципе мы (человечество) сейчас уже где-то в районе этих точек. Наука по большей части превратилась в "а давайте предположим" и последующую проверку, нет больше одиночек ньютонов которых озаряет яблоком так, что они придумывают диф. исчисление и гравитацию:) Как открыли пеницилин, лсд, графен?:)
От программ тоже не требуется быть правильно написанными, достаточно если они будут выдавать правильный результат в приемлимом количестве случаев. random () { return 4; //honest dice roll" } вполне может прокатить.
Вечная игла для примуса никому больше не нужна.

Проще говоря лозунг - "количество переходит в качество" практически сбылся, частично за счет понижения требований к качеству:)

О боже, это что за каша.

Согласен
Читать невозможно, как будто шизофазия местами.

Справедливости ради. Очень высокая перплексия текста. которая определяется Вашей встроенной LLM, часто ощущается именно как шизофазия. Если верить LLM, конечно.

перплексия измеряет «удивление» модели: чем ниже перплексия, тем увереннее модель в своих предсказаниях и тем лучше она понимает структуру текста.

Да, напомнило дневники Курта Кобейна.

Повелся на заголовок, оказалось что цитата Кнута - это единственное, что стоит внимания. Остальной материал вообще не возможно читать.

— OpenArx — открытая MCP-инфраструктура, которая закрывает обе стороны: индексированный корпус с поагрегатной экстракцией идей плюс publication path без APC и endorsement

Слова вроде русские, а смысл всё равно не понятный. Кстати, у меня есть знакомый, который вот так вот разговаривает. Интересно то, что он тоже очень, гипер увлечён нейронками. Что это получается – шизофрения или проф.деформация?

Перевод от ИИ: " OpenArx — это открытая платформа для науки и ИИ, где есть база статей с умным поиском и автоматическим извлечением идей, а также возможность публиковать работы без платных взносов, через систему рекомендаций или одобрения сообщества."

Д.Кнут забыл что ему 88 лет, а это значит что ему простительно проиграть калькулятору

Я один не понял, что означает термин "храповик" в данной статье?
Интуитивно понятно, что это означает запрет отката на более ранние варианты решений с более низким... вознаграждением, что ли, но можно выражаться яснее?

Машинный/ленивый перевод, очевидно

А тут и рекламировать нет ничего, одни общие фразы. На 100% уверен, что Автор не опубликовал в серьёзных изданиях ни одной научной статьи и не представляет как устроена научная работа. И это самая мягкая формулировка ощущения, которая возникает после чтения этой статьи. """Независимые исследователи, аспиранты без грантов, учёные из стран без сильной институциональной аффилиации могут публиковаться здесь.""". Да, могут, но зачем терять на это своё время? Публикация - это признание результатов авторитетным сообществом. Какой может быть авторитет у Автора, который среди преимуществ своей системы указывает на реализацию semantic chanhing вместо банального фиксированного chanhing. Про semantic chanhing даже Алиса от Яндекса знает, только что проверил и сегодня "козырять" semantic chanhing-гом простительно только школьникам. Отклонение редакцией или оргкомитетом "научных статей" я считаю только положительным моментом. В моей практике в ответ на поданные статьи всегда приходит рецензия с кучей вопросов и практически всегда после ответов статьи принимались для публикации.

Главный совет Автору. При сравнении своей работы с существующими, уделяете внимание не на то, что плохо у других аналогичных работ. Покажите свои преимущества конкретными цифрами. Вы городите свою работу для научной публики, а научная публика отличается наличием критического мышления и маркетинговым заклинаниям не верит.

А откуда термин "chanhing"? Впервые такой слышу, поисковики тоже не знают такого...

Видимо, имеется в виду chunking

Скорее всего. Но несколько странно видеть такую ошибку (а это трёхкратно повторённая ошибка, не просто опечатка) в сообщении, написанном с таким апломбом, столь агрессивно. Хотя, на самом деле, наверное, и не странно, да...

Извините, действительно опечатка, повторенная трижды. Интересно, что Алиска на запрос именно "semantic chАnhing" ответила корректно: """Семантический чанкинг (semantic chunking) — это метод обработки текста, при котором текст разбивается на фрагменты (чанки) на основе их смысловой целостности и контекста, а не фиксированного количества символов или слов. Цель — создать семантически связные единицы, которые сохраняют идеи и информацию, а не разрываются на произвольные части. """.

""""написанном с таким апломбом, столь агрессивно """. Апломб подтверждён опытом. Агрессии нет, это скорее большое сожаление, что потратил время на подобную статью и большое непонимание алгоритма формирования кармы на примере Автора.

если твою задачу решает нейронка значит задача было херня и ее кто то уже решил…

НЛО прилетело и опубликовало эту надпись здесь

Несколько дней назад рассказывал о своей задаче:

https://habr.com/ru/articles/1033416/comments/#comment_29953900

Скрытый текст

У меня живой пример прошедшей недели: достаточно стандартная и не слишком сложная задача - сделать работающий (!!!) оптимизатор параметров узлов нециклического направленного графа с некоторым списком ограничений на оптимизируемые параметры в качестве ТЗ. Разработчик - Opus 4.6 на платной подписке.

Бродили с ним кругами несколько дней. Сначала были просто запросы реализации кода класса-оптимизатора с unit тестами, по текстовой спецификации. Сами спецификации тестировались от кратко-минимальных до очень подробных. В результате часть своих же сгенерированных тестов не проходят. В процессе итеративных исправлений ломает вообще все тесты. Были попылки сброса контекста и работы с его же кодом с посылом "проанализируй и исправь". Не смог.

Затем, снова с нуля. Он писал декомпозицию и план реализации для себя (да, 5000 строк текста для кода на 400 строк). Результат - почти работающая версия (судя по интеграционным тестам) и работающие unit тесты. После сброса контекста и написания ещё одной пачки unit тестов для этого же кода - половина из них красные. Попытки исправить сделали красными все тесты.

Было ещё несколько аналогичных итераций, но на тот момент я решил остановиться и написать оптимизатор самостоятельно, на основе одной из LLM-реализаций. После вдумчивого review от кода осталось около 10%. В вырезанных кусках неправильно и откровенно криво было реализовано почти всё - от дублирующегося перечисления уже обработанных ранее списочных структур до ошибок в логике.

Единственное, что можно назвать условно полезным - выбор (но не реализацию) алгоритма координатного спуска для оптимизации (не факт, что оптимального для этих графов) и примерная реализация оценочной функции, которую я переписал всего на 50%.

И да, для бойлерплейта и unit тестов я использую LLM достаточно успешно, даже локальные - после выхода Qwen 3.6.

НЛО прилетело и опубликовало эту надпись здесь

Вам не показывали ни ТЗ, ни промпты, только вкратце описали смысл, но вы уже словно бы подводите к тейку про "не умеете готовить".

НЛО прилетело и опубликовало эту надпись здесь

А как вы оцените результат генерации, даже если я скину вам ТЗ на 50 страницах? Спросите у клода?

Ни у вас, ни у вашего собеседника нету примеров ТЗ и промптов потому, что вы просто в общих чертах делитесь опытом использования. И собеседник не пытается кого-то в чем-то убеждать. Он поделился своим опытом, и все. Превращать ветку комментариев тут в репозиторий для своих ТЗ и промптов немного не уместно.

У меня не было цели доказать достоверность, просто пример задачи. Сомневаюсь, что кто-то будет разбирать сотни килобайт моих промптов и ответов на них, чтобы её доказать.

Просто пользуясь LLM для целей разработки с первых релизов сильных моделей, я вижу, что работает, а что маркетинговый булшит, с погрешностью на специфичные (сложные) методики готовки окружения и контекста промптов, которые кто-то применяет для каких-то своих задач. Мне, в этом случае, проще реализовать задачу вручную.

Круды и перекладывание JSON без сложной логики - да, это то, что можно генерировать и без LLM, алгоритмическими генераторами кода. Не бойлерплейт, но близкое, много раз присутствующее в обучающей выборке модели. Стоимость разработки такого кода будет снижаться (из-за ускорения его написания), как некоторое время назад снизилась стоимость (увеличилась скорость) написания любого кода из-за встроенного в IDE автодополнения.

Что касается моего "умного" примера - это абсолютно жизненный конвейер обработки аудио, в виде графа, для которого необходим алгоритм выбора частоты дискретизации входных и выходных устройств. Не круды, но и не коллайдер и подобная оптимизация может потребоваться чуть-ли ни везде, где есть графы или деревья.

легенда вернулась) запускаем отсчёт до очередного ридонли?

НЛО прилетело и опубликовало эту надпись здесь

Никто не говорит про "ничего не могущий". Может многое. Но не все. Как и человек, бтв.

нужно больше громких эпитетов и тогда уж точно ваши мечты станут явью) так ведь это работает в мире нейронок? чем больше шум - тем охотнее верится в общую концепцию.

весь мир пользуется передовыми ИИ технологиями и переписывают целые движки за неделю

ну вот, что и требовалось доказать) кто-то переписал движок - ВЕСЬ МИР😂

что же касается самого переписывания за неделю - ну конечно, нейронка правда способна сделать такой объём работы, на который человек просто не способен. и калькулятор может, внезапно. только с переписыванием за неделю, в отличие от калькулятора, не всё так просто. к примеру вот(тоже кстати за неделю, это наверное как строчки кода, следующий тренд относительно нейронок) - перенесли Next.js с проприетарного Turbopack на VIte с помощью нейронки, и даже заявляется самими Cloudflare, что в продакшене уже используется это клиентами! Однако при детальном рассмотрении выясняется, что не всё так просто, есть куча проблем с безопасностью, а для прода оно ещё просто сырое, что в дальнейшем подтверждается Cloudflare, "«Клиент в production» у Cloudflare — это бета-сайт без значимого трафика". То есть нам врут не только те, кто делает нейронки, но и те, кто с помощью них за неделю(обязательно!!) что-то там огромное переписал. А вы потом с этими ссылками на переписывание за неделю бегаете по интернету, разгоняя маховик вранья.

Присоединяюсь к вашему комментарию. Либо я дурак, либо лыжи не едут.

Неделю назад понадобилось переписать относительно простой алгоритм балансировки одного дерева с top-down на bottom-up approach. Тесты покрывающие все возможные пограничные случаи уже имелись. Задача не новая, в Интернете нужный алгоритм уже наверняка был опубликован сотни раз. Просто было очень лень искать и адаптировать его под свои структуры данных.

Жаления делать это руками было очень мало. Начитавшись статей на Хабре о том, что LLM пишут код лучше человека, обрадовался и попробовал скормить задачу OpenCode + Gemini 3.1 Pro. Агент пыхтел минут 20, постоянно натыкаясь на сломанные тесты. В конце концов с задачей справился, но к коду у меня много вопросов. Одно из условий можно сильно оптимизировать, т.к. его часть всегда истина (т.е. там if (cond1 && cond2) и cond2 всегда истина). Переменные использовались без всякого смысла, т.е. например есть переменная “a”, LLM пишет код int b = a; int c = b; прям в двух строках подряд и b больше нигде не используется. Почему бы не сделать сразу int c = a? Количество потребляемой памяти просто запредельное (старый алгоритм потреблял в 5 раз меньше и речь идет о десятках КБ).

Короче ревертнул все изменения и переписал руками :-( Общее впечатление - LLM абсолютно не понимает что делает, но пытается всеми силами это скрыть изображая абсолютную уверенность.

На каком-то моменте в процессе кстати Gemini сломалась и начала выводить свои thinking токены, которые должна по идее прятать. Было очень забавно читать этот поток сознания :-)

Если бы LLM умели генерировать говнокод, но работающий, то это было бы пол беды. Но пока что на что-то более-менее нетривиальное, не присутствующее в обучающей выборке в явном виде, получается неработающий говнокод. Полагаю, что это встроенное свойство LLM как вероятностной аппроксимирующей функции.

НЛО прилетело и опубликовало эту надпись здесь

Извините, но описывать весь алгоритм я здесь не буду. Во-первых, он вам не нужен, во-вторых, на это просто уйдет очень много времени.

НЛО прилетело и опубликовало эту надпись здесь

алгоритм балансировки одного дерева

Написать заумную хрень

Разработчики, которых мы заслужили.

Не спорьте :)

Это тот самый распространенный случай, когда написать формальную спецификацию показалось недопустимо дорого в часть трудозатрат вначале, но оказалось в конце, что со спецификацией было бы гораздо дешевле.

И это относится не только к llm, разумеется

С точки зрения программера в энтерпрайзе Вы абсолютно правы.

С точки зрения ученого - нет

Ну, допустим, у многих профессиональных программистов, включая и меня, и многих других здесь присутствующих, есть патенты на изобретения и/или научные публикации в области способов программирования. Это подразумевает отсутствие предыдущих известных решений. Конечно, это не относится к широкой публике, но Кнут, вынесенный в заголовок статьи, безусловно, находится на самом высоком уровне профессионализма.

пук-срень-ки о том, что ИИ ничего не может и умеет только в то, чему его там научили в 2026

Одно словно бы исключает другое) Это похоже не на поговорки, а на биполярку.

Как-то иронии, правда, по поводу "научили в 2026" не очень понял. Что, уже пропала нужда постоянно, каждый год обучать LLMки? При чем наиболее качественные циклы обучения - это прежде всего на контенте, сделанном человеком?

Явно автор реплики подразумевал, что "в 2026" относится к тексту после, а не до, т.е. "в 2026 смотрятся".

Спасибо за обратную связь. Главная претензия — язык второй половины — справедлива. Обновил статью: переписал «Что происходит со статьёй при загрузке», «Набор инструментов», «Симметричный цикл» и «Apache 2.0», добавил конкретные цифры по корпусу OpenArx. Подробности в P.S. в конце статьи.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации