Pull to refresh

Comments 44

Так проекты не рекламируются!

Мы не пилим новую модель. Мы делаем правильную форму данных и правильный интерфейс доступа под режим, описанный выше

(C)

Компьютер (да даже калькулятор) считает несоизмеримо быстрее чем человек. Повозка с лошадью перевозит больше, чем носильщик, а примитивный грузовик больше чем повозка. И подобных примеров уйма.

Да, но критическая точка находится в том месте, где лошадь перевозит груз так быстро, что пока человек донесет его из нужной точки А в нужную точку Б - лошадь успеет проехать весь алфавит.
Совсем же тяжело становится когда пока лошадь объезжает весь алфавит - человек еще даже нужные точки определить не может.

В принципе мы (человечество) сейчас уже где-то в районе этих точек. Наука по большей части превратилась в "а давайте предположим" и последующую проверку, нет больше одиночек ньютонов которых озаряет яблоком так, что они придумывают диф. исчисление и гравитацию:) Как открыли пеницилин, лсд, графен?:)
От программ тоже не требуется быть правильно написанными, достаточно если они будут выдавать правильный результат в приемлимом количестве случаев. random () { return 4; //honest dice roll" } вполне может прокатить.
Вечная игла для примуса никому больше не нужна.

Проще говоря лозунг - "количество переходит в качество" практически сбылся, частично за счет понижения требований к качеству:)

Согласен
Читать невозможно, как будто шизофазия местами.

Справедливости ради. Очень высокая перплексия текста. которая определяется Вашей встроенной LLM, часто ощущается именно как шизофазия. Если верить LLM, конечно.

перплексия измеряет «удивление» модели: чем ниже перплексия, тем увереннее модель в своих предсказаниях и тем лучше она понимает структуру текста.

Да, напомнило дневники Курта Кобейна.

Повелся на заголовок, оказалось что цитата Кнута - это единственное, что стоит внимания. Остальной материал вообще не возможно читать.

— OpenArx — открытая MCP-инфраструктура, которая закрывает обе стороны: индексированный корпус с поагрегатной экстракцией идей плюс publication path без APC и endorsement

Слова вроде русские, а смысл всё равно не понятный. Кстати, у меня есть знакомый, который вот так вот разговаривает. Интересно то, что он тоже очень, гипер увлечён нейронками. Что это получается – шизофрения или проф.деформация?

Перевод от ИИ: " OpenArx — это открытая платформа для науки и ИИ, где есть база статей с умным поиском и автоматическим извлечением идей, а также возможность публиковать работы без платных взносов, через систему рекомендаций или одобрения сообщества."

Д.Кнут забыл что ему 88 лет, а это значит что ему простительно проиграть калькулятору

Я один не понял, что означает термин "храповик" в данной статье?
Интуитивно понятно, что это означает запрет отката на более ранние варианты решений с более низким... вознаграждением, что ли, но можно выражаться яснее?

Машинный/ленивый перевод, очевидно

А тут и рекламировать нет ничего, одни общие фразы. На 100% уверен, что Автор не опубликовал в серьёзных изданиях ни одной научной статьи и не представляет как устроена научная работа. И это самая мягкая формулировка ощущения, которая возникает после чтения этой статьи. """Независимые исследователи, аспиранты без грантов, учёные из стран без сильной институциональной аффилиации могут публиковаться здесь.""". Да, могут, но зачем терять на это своё время? Публикация - это признание результатов авторитетным сообществом. Какой может быть авторитет у Автора, который среди преимуществ своей системы указывает на реализацию semantic chanhing вместо банального фиксированного chanhing. Про semantic chanhing даже Алиса от Яндекса знает, только что проверил и сегодня "козырять" semantic chanhing-гом простительно только школьникам. Отклонение редакцией или оргкомитетом "научных статей" я считаю только положительным моментом. В моей практике в ответ на поданные статьи всегда приходит рецензия с кучей вопросов и практически всегда после ответов статьи принимались для публикации.

Главный совет Автору. При сравнении своей работы с существующими, уделяете внимание не на то, что плохо у других аналогичных работ. Покажите свои преимущества конкретными цифрами. Вы городите свою работу для научной публики, а научная публика отличается наличием критического мышления и маркетинговым заклинаниям не верит.

А откуда термин "chanhing"? Впервые такой слышу, поисковики тоже не знают такого...

Видимо, имеется в виду chunking

Скорее всего. Но несколько странно видеть такую ошибку (а это трёхкратно повторённая ошибка, не просто опечатка) в сообщении, написанном с таким апломбом, столь агрессивно. Хотя, на самом деле, наверное, и не странно, да...

Извините, действительно опечатка, повторенная трижды. Интересно, что Алиска на запрос именно "semantic chАnhing" ответила корректно: """Семантический чанкинг (semantic chunking) — это метод обработки текста, при котором текст разбивается на фрагменты (чанки) на основе их смысловой целостности и контекста, а не фиксированного количества символов или слов. Цель — создать семантически связные единицы, которые сохраняют идеи и информацию, а не разрываются на произвольные части. """.

""""написанном с таким апломбом, столь агрессивно """. Апломб подтверждён опытом. Агрессии нет, это скорее большое сожаление, что потратил время на подобную статью и большое непонимание алгоритма формирования кармы на примере Автора.

если твою задачу решает нейронка значит задача было херня и ее кто то уже решил…

Расскажите о своих задачах в IT, которые до Вас никто не решал. Что вы там делаете? Коды межгалактических кораблей пишите на ассемблере? ПО для запуска ядерного реактора?

Скрытый текст

пук-срень-ки о том, что ИИ ничего не может и умеет только в то, чему его там научили в 2026 смотрятся примерно так же, как "Не нужон нам этот ваш интернет"

Несколько дней назад рассказывал о своей задаче:

https://habr.com/ru/articles/1033416/comments/#comment_29953900

Скрытый текст

У меня живой пример прошедшей недели: достаточно стандартная и не слишком сложная задача - сделать работающий (!!!) оптимизатор параметров узлов нециклического направленного графа с некоторым списком ограничений на оптимизируемые параметры в качестве ТЗ. Разработчик - Opus 4.6 на платной подписке.

Бродили с ним кругами несколько дней. Сначала были просто запросы реализации кода класса-оптимизатора с unit тестами, по текстовой спецификации. Сами спецификации тестировались от кратко-минимальных до очень подробных. В результате часть своих же сгенерированных тестов не проходят. В процессе итеративных исправлений ломает вообще все тесты. Были попылки сброса контекста и работы с его же кодом с посылом "проанализируй и исправь". Не смог.

Затем, снова с нуля. Он писал декомпозицию и план реализации для себя (да, 5000 строк текста для кода на 400 строк). Результат - почти работающая версия (судя по интеграционным тестам) и работающие unit тесты. После сброса контекста и написания ещё одной пачки unit тестов для этого же кода - половина из них красные. Попытки исправить сделали красными все тесты.

Было ещё несколько аналогичных итераций, но на тот момент я решил остановиться и написать оптимизатор самостоятельно, на основе одной из LLM-реализаций. После вдумчивого review от кода осталось около 10%. В вырезанных кусках неправильно и откровенно криво было реализовано почти всё - от дублирующегося перечисления уже обработанных ранее списочных структур до ошибок в логике.

Единственное, что можно назвать условно полезным - выбор (но не реализацию) алгоритма координатного спуска для оптимизации (не факт, что оптимального для этих графов) и примерная реализация оценочной функции, которую я переписал всего на 50%.

И да, для бойлерплейта и unit тестов я использую LLM достаточно успешно, даже локальные - после выхода Qwen 3.6.

Я рад за Вас. Правда, ТЗ Ваше звучит примерно как "ничего не понятно, но очень интересно". Достоверность этого я проверить не могу, а вот сам Клод говорит что это в его силах:

Скрытый текст

Без деталей утверждение не оценишь — оно описывает результат, но не вход. Несколько замечаний:

1. «Стандартная и не слишком сложная» — оптимистичная классификация

Оптимизация параметров на DAG с ограничениями в общем виде — это семейство задач от «10 строк numpy» (линейная, выпуклая, малая) до полноценного MILP/смешанной нелинейной оптимизации, где не справляются ни люди, ни модели за одну итерацию. Без указания:

- природа параметров (непрерывные/дискретные), - форма ограничений (линейные/нелинейные/логические), - целевая функция, - размер графа, - требование к оптимальности (глобальный/локальный)

— оценка «несложно» висит в воздухе.

2. «Работающий (!!!)» — критерий приёмки расплывчат

Что значит «работающий»? Запускается без ошибок? Сходится? Находит глобальный оптимум? На каких тестах проверялся? Без формальных тестов и acceptance-критериев в ТЗ модель не может «защититься» — отсутствие тестов превращает задачу в «угадай, что я имел в виду».

3. Главный пропущенный фактор — методика работы

В таких заявлениях почти всегда не упоминается:

- Сколько итераций было? - Давал ли разработчик минимальный воспроизводимый failing-test после каждой неудачи? - Был ли исходный промпт на 3 строки или на 3 страницы со схемой графа, инвариантами и примерами? - Был ли заведён proper-loop (тест → запуск → анализ → правка)?

В моём опыте 80% «модель не справилась» — это «промпт без acceptance-критериев + одна попытка без обратной связи». Opus 4.6 на задачах такого класса вполне работоспособен, если ТЗ формализовано, есть тесты и итерация по диффу.

Ну да ладно... это я так... Я такими умными вещами не занимаюсь - круды пишу, джсоны гоняю и CC отлично справляется с этим всем. Даже не "отлично", а где-то на уровне фантастики.

И таких как я - подавляющее большинство. Их мечты, что их не заменят и мантры в стиле "если твою задачу решает нейронка значит задача было херня и ее кто то уже решил" подавляющее большинство не спасут от неизбежного.

Вам не показывали ни ТЗ, ни промпты, только вкратце описали смысл, но вы уже словно бы подводите к тейку про "не умеете готовить".

Вам не показывали ни ТЗ, ни промпты

В том то и дело. ТЗ - полная дичь, задача из разряда какой-то заумной хрени непонятно для чего. Где ТЗ, где описание того, что должно получиться в итоге, что бы я это скормил ИИ и посмотрел, что там автора такое программирует особенного, что ИИ не знает?

А как вы оцените результат генерации, даже если я скину вам ТЗ на 50 страницах? Спросите у клода?

Ни у вас, ни у вашего собеседника нету примеров ТЗ и промптов потому, что вы просто в общих чертах делитесь опытом использования. И собеседник не пытается кого-то в чем-то убеждать. Он поделился своим опытом, и все. Превращать ветку комментариев тут в репозиторий для своих ТЗ и промптов немного не уместно.

У меня не было цели доказать достоверность, просто пример задачи. Сомневаюсь, что кто-то будет разбирать сотни килобайт моих промптов и ответов на них, чтобы её доказать.

Просто пользуясь LLM для целей разработки с первых релизов сильных моделей, я вижу, что работает, а что маркетинговый булшит, с погрешностью на специфичные (сложные) методики готовки окружения и контекста промптов, которые кто-то применяет для каких-то своих задач. Мне, в этом случае, проще реализовать задачу вручную.

Круды и перекладывание JSON без сложной логики - да, это то, что можно генерировать и без LLM, алгоритмическими генераторами кода. Не бойлерплейт, но близкое, много раз присутствующее в обучающей выборке модели. Стоимость разработки такого кода будет снижаться (из-за ускорения его написания), как некоторое время назад снизилась стоимость (увеличилась скорость) написания любого кода из-за встроенного в IDE автодополнения.

Что касается моего "умного" примера - это абсолютно жизненный конвейер обработки аудио, в виде графа, для которого необходим алгоритм выбора частоты дискретизации входных и выходных устройств. Не круды, но и не коллайдер и подобная оптимизация может потребоваться чуть-ли ни везде, где есть графы или деревья.

легенда вернулась) запускаем отсчёт до очередного ридонли?

В ридонли вас всех отправляют, вы просо этого ещё не понимаете.

Пока весь мир пользуется передовыми ИИ технологиями и переписывают целые движки за неделю (https://github.com/oven-sh/bun/pull/30412) российские айтишники на фашистском швабре (где нет инакомыслия) усердно доказывают в комментариях про ничего не могущий ИИ, приводят какие-то абстрактные задачи, не удосужившись даже эти ТЗ написать, что бы люди с доступом к ИИ проверили достоверность их слов.

Никто не говорит про "ничего не могущий". Может многое. Но не все. Как и человек, бтв.

нужно больше громких эпитетов и тогда уж точно ваши мечты станут явью) так ведь это работает в мире нейронок? чем больше шум - тем охотнее верится в общую концепцию.

весь мир пользуется передовыми ИИ технологиями и переписывают целые движки за неделю

ну вот, что и требовалось доказать) кто-то переписал движок - ВЕСЬ МИР😂

что же касается самого переписывания за неделю - ну конечно, нейронка правда способна сделать такой объём работы, на который человек просто не способен. и калькулятор может, внезапно. только с переписыванием за неделю, в отличие от калькулятора, не всё так просто. к примеру вот(тоже кстати за неделю, это наверное как строчки кода, следующий тренд относительно нейронок) - перенесли Next.js с проприетарного Turbopack на VIte с помощью нейронки, и даже заявляется самими Cloudflare, что в продакшене уже используется это клиентами! Однако при детальном рассмотрении выясняется, что не всё так просто, есть куча проблем с безопасностью, а для прода оно ещё просто сырое, что в дальнейшем подтверждается Cloudflare, "«Клиент в production» у Cloudflare — это бета-сайт без значимого трафика". То есть нам врут не только те, кто делает нейронки, но и те, кто с помощью них за неделю(обязательно!!) что-то там огромное переписал. А вы потом с этими ссылками на переписывание за неделю бегаете по интернету, разгоняя маховик вранья.

Присоединяюсь к вашему комментарию. Либо я дурак, либо лыжи не едут.

Неделю назад понадобилось переписать относительно простой алгоритм балансировки одного дерева с top-down на bottom-up approach. Тесты покрывающие все возможные пограничные случаи уже имелись. Задача не новая, в Интернете нужный алгоритм уже наверняка был опубликован сотни раз. Просто было очень лень искать и адаптировать его под свои структуры данных.

Жаления делать это руками было очень мало. Начитавшись статей на Хабре о том, что LLM пишут код лучше человека, обрадовался и попробовал скормить задачу OpenCode + Gemini 3.1 Pro. Агент пыхтел минут 20, постоянно натыкаясь на сломанные тесты. В конце концов с задачей справился, но к коду у меня много вопросов. Одно из условий можно сильно оптимизировать, т.к. его часть всегда истина (т.е. там if (cond1 && cond2) и cond2 всегда истина). Переменные использовались без всякого смысла, т.е. например есть переменная “a”, LLM пишет код int b = a; int c = b; прям в двух строках подряд и b больше нигде не используется. Почему бы не сделать сразу int c = a? Количество потребляемой памяти просто запредельное (старый алгоритм потреблял в 5 раз меньше и речь идет о десятках КБ).

Короче ревертнул все изменения и переписал руками :-( Общее впечатление - LLM абсолютно не понимает что делает, но пытается всеми силами это скрыть изображая абсолютную уверенность.

На каком-то моменте в процессе кстати Gemini сломалась и начала выводить свои thinking токены, которые должна по идее прятать. Было очень забавно читать этот поток сознания :-)

Если бы LLM умели генерировать говнокод, но работающий, то это было бы пол беды. Но пока что на что-то более-менее нетривиальное, не присутствующее в обучающей выборке в явном виде, получается неработающий говнокод. Полагаю, что это встроенное свойство LLM как вероятностной аппроксимирующей функции.

ТЗ в студию и что должно быть в итоге.

Извините, но описывать весь алгоритм я здесь не буду. Во-первых, он вам не нужен, во-вторых, на это просто уйдет очень много времени.

Понятно.

1. Написать заумную хрень
2. Сообщить всем что ИИ это сделать не смог
3. С предложением прогнать это ТЗ через ИИ - слиться

Это диалог школьного уровня.

Вы тут все на зарплате, кто вещает о том, что ИИ у вас ничего не может?

алгоритм балансировки одного дерева

Написать заумную хрень

Разработчики, которых мы заслужили.

Не спорьте :)

Это тот самый распространенный случай, когда написать формальную спецификацию показалось недопустимо дорого в часть трудозатрат вначале, но оказалось в конце, что со спецификацией было бы гораздо дешевле.

И это относится не только к llm, разумеется

С точки зрения программера в энтерпрайзе Вы абсолютно правы.

С точки зрения ученого - нет

Ну, допустим, у многих профессиональных программистов, включая и меня, и многих других здесь присутствующих, есть патенты на изобретения и/или научные публикации в области способов программирования. Это подразумевает отсутствие предыдущих известных решений. Конечно, это не относится к широкой публике, но Кнут, вынесенный в заголовок статьи, безусловно, находится на самом высоком уровне профессионализма.

пук-срень-ки о том, что ИИ ничего не может и умеет только в то, чему его там научили в 2026

Одно словно бы исключает другое) Это похоже не на поговорки, а на биполярку.

Как-то иронии, правда, по поводу "научили в 2026" не очень понял. Что, уже пропала нужда постоянно, каждый год обучать LLMки? При чем наиболее качественные циклы обучения - это прежде всего на контенте, сделанном человеком?

Явно автор реплики подразумевал, что "в 2026" относится к тексту после, а не до, т.е. "в 2026 смотрятся".

Спасибо за обратную связь. Главная претензия — язык второй половины — справедлива. Обновил статью: переписал «Что происходит со статьёй при загрузке», «Набор инструментов», «Симметричный цикл» и «Apache 2.0», добавил конкретные цифры по корпусу OpenArx. Подробности в P.S. в конце статьи.

Sign up to leave a comment.

Articles