Обновить
4
0.2
Владимир@thethee

Пользователь

Отправить сообщение

Если даже идея ваша. Если нейросетки просто верстают итоговую версию статьи и исправляют опечатки. Вычитывайте пожалуйста

Это не «желательно» — это условие работоспособности.

Дичайший маркер, будто в чатгпт/дипсик зашёл. Очень режет глаз, когда нейронки воду льют, переставляя слова из предыдущего предложения. В предыдущем уже было что версии должны совпадать, иначе ошибки, и тут просто из ниоткуда "пустое" предложение, которое попросту не нужно в тексте.

Щас почти во всех агентах есть то что автоматически подгружается в контекст, AGENTS.md, CLAUDE.md и так далее. Система грузит контент такого документа, в том числе при автоматическом сбросе контекста, так что у агента нет выбора читать или не читать этот файл.

И часто делают иерархические, по модулям раскиданные AGENTS.md которые тоже автоматом грузятся когда агент работает с этим модулем, и там до любой глубины папок можно создавать.

Да тут и не нужно быть нейроцыганом, чтобы посмотреть что модели уже прошли трешхолд бесполезности. Достаточно быть немного техническим человеком, уметь копировать ошибки из консоли, или понимать что такое "claude code", чтобы начать что то строить. Абсолютно любой вопрос задаётся в коробочку, "как мне это построить, какие бест практисы, как задеплоить, где купить домен, что это за цифро-буквы reg.ru и что мне туда вписывать, где взять SSL сертификат" и коробочка за ручку проведет по всему процессу.

Это может быть не фулл продуктовое решение, но время от идеи до MVP сокращается семимильными шагами, а питчить перед инвесторами намного легче не по слайдам, и даже не по макету, а по готовому решению, которое уже исполняет идею. Тут в плюс идёт сразу же доказательство, что это в принципе работает, причем почти без прилегания усилий, остаётся нудная доработка или даже переработка с нуля до продуктива, но уже заранее известно что это то что нужно.

It just works (c) (tm)

Причем без шуток. Сидишь на чистом pip - мучаешься с зависимостями, которые обновляются неизвестно когда, причем якобы минорный багфикс, но меняется поведение, пересаживаешься на conda - мучаешься с тем насколько долго это работает, все ещё требует активации, и dependency hell продолжается, потому что тут нужен conda forge, там какой то другой сборник пакетов. Перешёл на uv - just works. Хочешь поставить чисто torch из репы Nvidia - пожалуйста, хочешь поставить все "как нибудь" - окей, вот тебе через 0.1 секунду ошибка несовместимости, причем конкретная и иногда с путями решения.

Кажется что source .venv/bin/activate это всего несколько символов, но насколько же удобнее без этого, просто uv run из нужной директории и все работает. Причем это обратно совместимо, если нужен чистый venv - он доступен.

Я через uv иногда просто для старых проектов venv собираю потому что он и с requirements.txt работает и позволяет получить преимущество удобства/скорости в установке и потом все равно uv run работает. Даже залочить зависимости можно без pyproject.toml, если мне не изменяет память.

Это инструмент который помимо общего улучшения приносит кучу мелких удобств. Это как работа с проектом без git и с git. Абсолютно другой уровень, хотя идея простая. Просто "правильно" реализована.

Истратил все лайки уже, но абсолютно согласен, прекрасная аналогия.

Если вы без агентских приблуд запускали просто в чате, то обязательно нужно включать режим веб поиска и инструктировать модель искать. В "чатах" у нее менее точные инструкции для технических задач и она реже ищет информацию.

А как выше уже писали - claude code как минимум py_compile запустит и ошибку импорта отловит, а как максимум, если кэш локально висит - самостоятельно зайдет и посмотрит. Все это занимает ну на 2-3 минуты дольше, но получается в итоге более качественный код, явно не час чтобы разобраться самому, но и пользы меньше в таком подходе, учиться таким способом все равно не получится, пока не сделали какие нибудь режимы обучения грамотные

О, прям за живое задели.

С конца начну. Если надо что-то дополнить, а вы делали допустим план второй фичи номер 3, создаётся в той же фиче план 2.1 который описывает доработку. В gsd (get shit done) это обычно insert phase, или даже quick когда надо что то доработать поверх существующего плана. Фэн шуем тут и не пахнет, доки/спеки тут только для того чтобы контекст у модели не съехал, и источник правды для модели-ревьюера, использовать такое как продовую документацию я бы не стал, а продовая документация не подойдёт для модели.

По поводу того что "не написано" - к сожалению путем проб и ошибок пришел к тому что больше 2-3 раундов "верификации спеки" с чистого контекста нет смысла и не сильно помогает. Агент скатывается в уточнение излишних деталей, упуская некую важную ненаписанную вещь, либо сообщает что ему все понятно и даёт GO реализации. Есть вариант попробовать запустить "творческую верификацию идеи" (кастомный промпт), когда в промпте написано все что можно про угадывание желаний пользователя, творчество, поиск неизвестности, такое бывает отлавливает некоторые недосказанности, но все ещё остаётся шанс. Да и далее распишу почему я думаю что это в целом нормально.

В случае если в процессе приемки оказывается, что действительно что-то пропустили/не дочитали, см на абзац выше про вставку фаз или быстро-фиксы с дополнением плана. А вот если после релиза уже отловили - ну тогда только пытаться как то побольше запускать верификацию, и всякие творческие штуки, но это естественно время.

Про вычитывание спек - я не придумал ничего лучше чем поднять LLM 32b (или около того, не помню уже что там последнее) для суммаризации, и путем проб и ошибок подобрал что мне подходит. Этого хватает, чтобы пробежаться по верхам и ознакомиться со структурой документа, чтобы при вычитывании понимать какие моменты я могу лишь мазнуть взглядом, а какие моменты надо подробнее просмотреть. Там же рядом развернут интерфейс под это дело, чтобы сразу видеть структуру спек/фаз/планов/задач с коротким 1-2 слова названием на каждое. В общем - структуризация и автоматизация.

Вообще говоря LLM и были созданы чтобы структурировать неструктурированную информацию, надо чаще этим пользоваться. Structured output в vllm это спасение

Старая добрая автоматизация

Много столбцов или связей != Сложная реализация. Одноуровневые и двух уровневые group by и все виды join-ов это простейшая реализация. Муторная из за количества связей или столбцов, но логика все ещё простейшая

Так вот про sonnet 3.5 - там столько багов генерилось, что без человеческого вмешательства нельзя было оставить. Сейчас их генерится не особо меньше, я вас уверяю. Просто код, как и текст, стал более осмысленным. На него смотришь и "ну вроде верно". При этом нейросеть не несёт ответственность. И если по паттерну который был в датасете сначала положено вставить ошибку, а потом исправить если пользователь заметил, она вставит ошибку и даже не задумывается.

Ещё один пример - кванты GLM (да и полные по апишке тоже этим грешат) любят вставлять китайские символы, в когда спрашиваешь их чё это такое они говорят что это ты сам вставил, наверное китайский учишь, а у них все на русском написано.

Не говорите пожалуйста что LLM разумны и могут кого то там заменить или писать код без багов. Даже с режимом "размышлений" они не могут писать код без багов, вы просто эти баги не замечаете. Ради эксперимента прямо сейчас код составленный лучшей моделью в котором как вам кажется нет багов, возьмите и заснапшотте. Прям весь проект целиком, хотя бы тыщ 30 строк кода. В котором все работает и кажется идеальным. Вот его возьмите и спустя год проверьте новой SOTA моделью. Получите пачку critical/high (p0/p1) замечаний и скажете "точно, это же очевидно", а модель не заметила. А вы бы, обладай вы навыками, могли бы заметить ещё год назад.

писать код без дырок

Ну да, ну да... Делай хорошо, плохо не делай. "Не совершай ошибок, пиши безопасный код" как говорится.

Как человек который пользовался tabnine до того как вышел gpt-2 скажу что это нереализуемо за разумное число токенов без участия человека.

А если человек участвует он всегда становится узким горлышком.

Никакие линтеры и TDD не спасут от того что ллм просто нагаллюцинирует себе "безопасный ранний return в best-effort функции", обходя проверку тестов. Причем на ревью то она найдет собственный баг, вот только сколько не найдет? А если в коде не 100 файлов, а 1000, 10000? И при плохой архитектуре (а ИИ не умеет в архитектуру сложных приложений ещё) добавление фичи перерастает в глобальный рефакторинг.

UPD: отличный пример вспомнил. Все кипятком нужду справляли когда вышел Sonnet 3.5. Сейчас его даже рядом с опенсорсом нет в лидербордах. Новые модели которые выходят смотрят на код старых моделей и начинают бубнить типо "кто это писал" (не прямым текстом, но там забавные перлы выдают). И новое поколение будет так же про старое. Но при этом даже сейчас добиться грамотной архитектуры которая не только здесь и сейчас будет корректна практически нереально. Спустя пару фичей модель уже пишет следующую пачку функций в файл в котором уже 6000 строк. Хотя изначально все было "ну вроде хорошо".

И там где человек остановится и сам подумает, что не нужно плодить техдолг, т.к. ему же этот код поддерживать в ближайшие месяцы/годы, модель в той же ситуации живёт "одним днём" от промпта до промпта. Ей без разницы на качество кода, потому что она все видит каждый раз впервые. У нее нет строгого начальника который её пожурит, нет необходимости возвращаться домой и играть с ребенком. У нее есть задача которую надо выполнить и выполнить как можно скорее. У нее нет ощущения течения времени, скорость генерации токенов может как повышаться так и замедляться из за внешних факторов, и модель просто не в состоянии понять что она выдавала 20 слов в течение минуты из-за ошибок сети, и самое время проверить как там поживает background скрипт.

Я не понимаю почему люди все это не понимают и пытаются зачем то заменить реальных сотрудников, с которыми можно действительно работать, на абсолютно невероятно эмоционально мертвую программу ЭВМ, которая по великолепным математическим причинам может выдавать осмысленный текст, но она не становится человеком от этого...

Все верно, яснее ясного. Какой ты станок Папе Карло не давай, он все равно останется Папой Карло и не сможет избежать поломки станка.

Вы же об этом? Об этом же, да?

Ещё в копилку за что зацепился глаз пока листал картинки в статье, после чего желание ее читать пропало

это уже не «скачать веса», а «дать продукту мозг через API», где важнее стабильность

Ну это прям уж извините...

Смысл есть, он плотно упакован в мелкий текст, но люди другие. Причина в датасете — он, по большей части, английский.

LLM модели имеют порочный круг, пишут маркерами.

(Да-да, именно имеют круг, я такое видел в одном из ответов)

Если хочешь, составлю список маркеров следующим сообщением.

Вот что-то типо такого я зачастую вижу. Модель часто как бы с конца начинает объяснять, при этом между предложениями теряется связь между сущностями, хотя общая логика, несомненно, присутствует.

И рядом с написанным "человеческим" языком эти тексты ОЧЕНЬ хорошо видно. А люди, которые генерят статьи, обижаются, когда их ловят на том, что они сгенерили статью, тогда как у аудитории такие статьи вызывают только чувство отторжения и никак не добавляют желания читать.

Если я захочу узнать эту информацию у ГПТ, я пойду в ГПТ.

И чатгпт и Клод, все они такими маркерами общаются. Так общаются американцы судя по всему, и эта же манера речи перенимается, т.к. основной датасет на претрейне и на RL этапе английский, а квен тоже через RL подгоняют в том числе и под это.

Люди в датасете отмечали ответы с такими формулировками как полезные, т.к. это решало их вопрос, но модель помимо решения вопроса привязывается ещё и к формулировкам.

И дальше порочный круг, это уже не выбить из них. Они таким же образом генерят новые данные, сами же на них учатся.

Openai перекрутили и gpt 5.2 вообще разговаривать разучился. На thinking xhigh на русском языке внятно составленный текст это чудо. Зачастую какие то слова вставлены будто ни к месту. Там есть смысл, и он очень плотно упакован в маленькое количество текста, но люди так не общаются.

Это отнюдь не продуктовая разработка. Если у вас codex за дизайнера-фронтовика - соболезную. Ну либо восхищаюсь, у меня не получилось любыми скиллами и скриншотами заставить его сделать то что прошу с первого, а иногда и с десятого, раза. Ради теста пробовал, разумеется, причем в течение месяца так пробовал делать. В процессе тот же месяц потратил на изучение angular + material и за две недели склепал то что нужно. Для чистоты эксперимента попробовал заново с нуля собрать то что нужно но уже с более точными указаниями, терминами и пониманием, которое я получил за время обучения. О чудо, пришлось переделывать не 10 раз, а всего 2-3. Иногда даже с первого раза начало получаться. Итого вывод - без подходящих навыков у человека и корректной постановки задачи, LLM будет пытаться угадать его намерения. Общими формулировками вы не построить production-ready продукт, яркий пример - molt-кто то там, который был а-ля reddit для ИИ. Там в открытом доступе лежали все ключи, можно было зайти под любой учеткой, писать что угодно, делать ферму по разгонке лайков итд итп.

До тех пор пока ИИ модели воспринимают визуальную информацию так как они не воспринимают, сколько ни учи на бест практисах, он не заработает как надо после фразы "сделай красиво и как я хочу". Может это изменится в ближайшем будущем, а может и нет.

Ну вы и сравнили, это разные машины все таки :-D

Посмотрите под кппо машины и "под капот" пк. Уверяю вас, вы не увидите всего что есть в ПК. Там под микроскопом рассматривать надо, все транзисторы и прочее. Технологии совершенно разного уровня.

Кстати про срок и прочность не согласен, знакомые у меня регулярно меняют запчасти, некоторые вообще раз в год, которые выходят из строя в машинах. При этом свой ПК я уже лет 15 не чистил если честно, и ничего, работается пыхтит потихоньку.

И если в машине нужно менять что то постоянно и довольно часто масло заливать, то ПК нужно по хорошему хотя бы раз в год кисточкой проходиться, от пыли освобождать, да термопасту менять - по сути тоже самое что масло обновить, в этом схожесть, да. А вот сами компоненты десятилетиями работать могут. Старенький ПК из 2000х до сих пор в рабочем состоянии на даче стоит, каждое лето ностальгируем включаем, ждём пока за 15 минут запустится. Какая машина сможет 20+ лет вообще без чистки и замены запчастей?

В общем и целом, сравнение некорректное, я считаю. Одна - рабочая лошадь, в которой трение, экстремальные температуры (летом под солнцем, зимой что нибудь отморозить может, влага коррозию дает), а другая пылится и греется, может сгореть, но т.к. область применения разная думаю что сравнивать нельзя

Извиняюсь, если это показалось оскорбительным, я дал субъективную оценку набору символов в вашем комментарии выше. Не понятна изначальная мысль, нет итога, структура прыгает от одной темы к другой без видимой связи, поэтому и назвал "потоком мыслей". Вы так привыкли общаться, но это, возможно, хорошо смотрится в живом диалоге, где между вашими репликами звучит ответ собеседника вам или контр-аргумент, который и заставляет переключаться между темами, но вот так в едином сообщении - большинству будет непонятно о чем речь и почему вы именно так построили свой комментарий.

Подобный комментарий если честно выглядит как заметка, которую человек пишет сам для себя в obsidian, например. Кстати, советую скачать.

Погуглите про openclaw или другой помощник поискать можно. Таким помощникам можно подобного рода заметки скидывать и он даст вам и ликбез по текущему состоянию ИИ, и про операционные системы пообщается, и если вы ему в инструкциях укажете что нужно вести вашу личную "базу знаний", то он ещё и структурирует все о чем вы говорите. На естественном языке просто говорите типо "привет, ты будешь вести базу знаний, запомни это в памяти/инструкциях, я буду скидывать тебе заметки, ты со мной на эти темы общайся и параллельно сохраняй в базу. Регулярно раз в день в 7 часов вечера присылай мне интересные ссылки согласно топикам по которым мы недавно общались. В коде я не понимаю и вообще далек от IT, так что самостоятельно пиши нужные функции чтобы выполнять мои просьбы - это тоже запомни".

Сам я openclaw не пользуюсь, я ещё раньше собственного помощника писать начал и если ему подобное напишу он:

1) обновит свой код чтобы он мог регулярно выполнять задачи по систематизации базы знаний

2) добавит эти регулярные задачи

Ну и далее будет систематизировать и присвлать

Это наиболее близко подходит к вашей идее про операционную систему в которой ничего настраивать не нужно. Да, есть первичный этап установки и настройки, но потом, как говорится, "оно само".

Интеллект ошибается, вот это новость. Подсчитаете самостоятельно количество ошибок совершенных вами в жизни?

UPD:

Дополню что ошибки можно разделить по уровню критичности. Очевидно, что если вы на краю пропасти оступились, это фатальная ошибка которую нельзя исправить. А если вы, например, устроились в компанию которая по итогу вам не понравилась - дело вполне исправимое.

Также и тут, LLM(ИИ)-системы можно сделать таким образом, что процесс проверки и тестирования гипотез будет встроен в процесс общения с пользователем. Просто эта сырых чат-ботов прошла, и сейчас именно такие системы с самопроверкой набирают популярность. Вот нужно не просто в чатгпт идти, а брать более сложные вещи, в которых люди уже накрутили и настроили, тогда и далее оно будет само себя настраивать в зависимости от ваших потребностей.

Но до финального представления о полностью автономной работе еще не дошли. Но может это и благо? Зачем тогда люди будут нужны если ИИ сможет заменить всех, исправить ошибки, в том числе долгоиграющие, которые годами тянутся, например, неправильно выбранная стратегия финансирования бизнеса. Сейчас ни один ИИ с таким не справится, а нужно ли нам такое будущее где вообще все будет уметь делать компьютер?

Я вам скажу что я такого не хочу. Уже сейчас скорость и качество выросло настолько, что я не успеваю отвлечься как задача сделана. И мне надо погрузиться в подробности чтобы дать следующее направление, а это время. Агент делает 10 минут, а я потом полчаса проверяю - я уже в отстающих. Но пока что проверять нужно. Пока что.

Ещё лет через 50 может и будет что то подобное, но пока что звучит как мечта. Человек слишком иррациональное существо, компонентов из которых строится ПК великое множество, и код операционной системы слишком большой и сложный чтобы избавиться от всех ошибок и сделать чтоб работало без сучка и задоринки. Это только верхушка айсберга. Посудите сами, сегодня вам надо на Хабре комментарий написать, завтра документ отправить руководителю, послезавтра видосик посмотреть - это все разные технологии которые разрабатываются по большей части разными компаниями и сообществами. И везде нужно неформальные человеческие требования перевести в четкий машинный язык, который не терпит двусмысленностей, в котором каждый краевой случай в идеальном мире должен быть обработан. А чтобы оно все без ошибок работало, на каждый краевой случай нужно прописать как оно должно работать.

Вот только это невозможно, зачастую краевые случаи наслаиваются друг на друга и мы получаем неразрешимую ситуацию. Человеку оно надо, может быть, зачем-то, а машина так не может сделать. При этом скорее всего человек просто сам ещё не додумался что то что ему нужно сделать попросту невозможно, а нужно ему несколько другое.

В общем и целом, звучит как фантастика - а-ля ИИ операционная система которая считывает намерения человека и в которой все работает как нужно именно ему. Но это та фантастика и мечта к которой определенно стоит стремиться, оно даже звучит круто.

1
23 ...

Информация

В рейтинге
3 178-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность