atomlib Jul 12 at 00:21

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Easy

20 min

22K

Machine learning * Programming * Natural Language Processing * Artificial IntelligenceText editors and IDEs *

Digest

+56

Comments 79

Skykharkov Jul 12 at 01:17

Да по моему все просто. Что-то сложнее диалога "Yes"\"No" и привет. Все равно за этими всеми копилотами бесконечными, подчищать и переписывать большую часть. У меня ничего из того что я пробовал, например, нормально не справилось с reader'ом SQL запроса, правильной сериализацией в JSON или десериализации из JSON и обновления базы... Ну не может оно. То автоинкрименты апдейтид, то все что в индексе отбрасывает... Странная штука. Но умная, не отнять. Саботировать работу научилась почти как человек...

SergeyEgorov Jul 12 at 07:04

На мой субъективный взгляд использование ИИ в разработке это ровно то же самое, что парное программирование. Чтобы что-то делать совместно, нужно взаимодействовать. Вот эти коммуникации сильно замедляют процесс, потому что ИИ не умеет читать мысли разработчика.

Одинокий разработчик думает сам себе в голове и пишет код.

Разработчик в паре с ИИ должен каждый раз сформулировать запрос для ИИ и затем удостовериться что ИИ выдал то, что он ожидает. Вот это вот "сформулировать запрос" оно не мгновенное и вполне себе способно съесть 19 процентов времени, если ИИ не в теме, а проект сложный и старый. А в данном случае, поскольку это не запрос "напиши мне бинарный поиск", то ИИ однозначно "не в теме".

Skykharkov Jul 12 at 07:22

Ну где-то так. Пока сформулируешь и потом попытаешься ответ довести до ума через того-же копилота, у тебя уже весь код в голове и его только набрать остается. Да и про парное программирование вы правы. Всегда утверждал, что это как секс втроем. Движухи много, а толку мало...

aamonster Jul 12 at 08:32

Ну так и надо набивать. Получил подсказку, прошёл трудное место (где чего-то не знал или сообразить с ходу не мог) – двигайся дальше.

UFO landed and left these words here

SergeyEgorov Jul 12 at 06:22

Такое исследование будет стоить очень и очень дорого и его результаты никому не выгодны пока инвесторы готовы вкладывать деньги в разработку ИИ.

UFO landed and left these words here

San_tit Jul 12 at 09:00

По уму , там надо строго посчитать значимость различий. Судя по форматированию в ArXiV стиле -- будут подавать в журнал (уже подали), там на ревью, скорее всего, попросят добавить.

Но вообще, на глаз там значимость различий есть и так.

В поддержку большего масштаба: он даст распределение по опыту разработчиков и, как следствие, оценку порога "нужности" разработчика

mehatron Jul 13 at 10:57

И пока его проведут, оно уже устареет...

arheops Jul 13 at 16:30

Проблема в том, что оценить большой коллектив сложнее, ибо оценка производительности возможна только в ручном режиме.

Если опросить - ну тут видите тоже сказали, что +20%, а не -19%.

У нас в ретро рассказывают про +500% производительности, ибо менджеры хотят это слышать.

UFO landed and left these words here

arheops Jul 13 at 16:42

Ну обьективно надо нащупывать границы применимости инструмента и учится им пользоваться.

Чем более независим ваш кусок кода, тем больше выигрышь. Тоесть надо учиться в правильные абстракции и доносить их до ЛЛМ.

Отфильтровать данные больших групп не получится, ибо 80-20, большинство разработчиков в корпорации вообще не разработчики ;)

Даже топовых командах больше половины не видят проблем производительности и не могут писать сложные алгоритмы, после офигенного отбора.

SergeyEgorov Jul 12 at 06:24

после первого знакомства с Cursor он потратил более часа на работу с ИИ, после чего плюнул и написал всё сам

Вот у меня так каждый раз, когда я в очередной раз пытаюсь начать использовать ИИ в повседневной работе.

Politura Jul 12 at 07:09

Курсор это инструмент, а не магический кристалл. С ним надо учиться работать. Настраивать его под себя, под проект. Понять какие промпты работают, а какие не очень. Какие задачи решаются промтами хорошо, а какие не очень. Понять, что модель часто не знает либ используемых в проекте и научиться давать ссылки на необходимую документацию в промпте. И ид, и тп.

Возьмите людей, которые полгода активно кодят в курсоре. Настройте им VS Code, один в один как курсор, только минус ИИ. Ну и давайте делать задания что там что там.

Onito Jul 12 at 10:08

Столько всего надо чтобы работать с курсором что в итоге быстрее будет просто самостоятельно писать код)

sloww Jul 12 at 14:33

Примерно столько же надо что бы научиться кодить в современных IDE и пользоваться всеми их преимуществами, примерно столько же надо что бы на адекватном уровне использовать свою unix платформу как полноценный десктоп...

Продолжать можно до бесконечности.

Это все инструменты, с инструментами нужно учиться работать прежде чем это принесет результат, будь то циркулярная пила, электрический лобзик или Cursor.

Раньше тоже писали "можно быстрее накидать 3 строчки кода в notepad, а не открывать этот ваш Intelij IDEA". Только время показало, что те кто кодил на JAVA в блокноте, сейчас поголовно сидят в IDE.

Тут будет аналогично, нейронки - инструмент, всякие Cursor и Windsurf пока не самый лучший инструмент, но прогресс необратим.

Politura Jul 13 at 01:43

Столько времени надо сдать на водительские права, очевидно, что добежать самому или доехать на автобусе быстрее, чем все это потерянное время.

Onito Jul 13 at 07:12

Да нет, в комментарии на который я отвечал достаточно вещей указано которые надо делать постоянно а не один раз в начале, да и не всё тут описано что надо во время работы.

thethee Jul 13 at 09:59

А вы один раз создаёте шаблон под проект и потом ничего в нем не меняете? Язык программирования всегда один? Архитектуру в коде всегда одну и ту же используете? Если да, то и тут один раз настроить надо будет, а в долгоиграющем проекте это тем более только один раз настроить, привыкнуть, и дальше пользоваться.

thethee Jul 13 at 10:05

Тут ведь всякие .cursorrules CLAUDE.md и прочие файлы с инструкциями для LLM довольно похожи на конфигурационные файлы. Если пишете на Python очередной микросервис в проекте - нужно скопировать и отредактировать только ту часть которая отвечает за конкретный микросервис, или скопировать общий шаблон и заставить ИИ отредактировать. Немного нужно руками сделать, да. Но путей упрощения и автоматизации много, в будущем все это станет проще.

rg_software Jul 14 at 01:17

Это если вы хорошо знаете язык. А бывает приходится сделать что-то нестандартное - исправить баг в чужой библиотеке или банально доработать html шаблон или шейдер, ну или понять как правильно использовать в небанальной ситуации winapi, или найти где в большой колдобазе спряталась нужная функциональность - и сразу все окупается.

Sly_tom_cat Jul 12 at 17:12

В VS Code упорно Copilot себя предлагает, а последний, свежий релиз был на 80% про Copilot и иже с ним.

JBFW Jul 12 at 07:32

Господа писатели, если уж сложилась общепринятая аббревиатура типа LLM - используйте ее!

БЯМ, МЯВ, ГАВ - это конечно соответствует последним решениям Политбюро, но может, не надо?

Vedomir Jul 12 at 15:31

У меня БЯМ никакого отторжения не вызывает.

JBFW Jul 12 at 15:42

Напоминает советскую фантастику 50х годов, где у них всякие МУМ, БУМ, ГУМ, и полётное задание надо промумить, потому что на БУМ очередь на полгода и даже блат в виде секретаря райкома не поможет

Vedomir Jul 12 at 15:46

Так LLM это абсолютно то же самое, только на английском. Я на нем более-менее свободно читаю как и на русском так что вообще не вижу разницы - та же LLM ничуть не кажется чем-то таким загадочным и притягательным.

vvovas Jul 12 at 10:01

Мой опыт показывает, что cursor довольно неплох в написании каких-то небольших скриптов, если технология хорошо документирована. Периодически использую для написания скриптов. Из недавнего: анализ AWS S3 Access Logs и анализ CloudWatch Logs. Оба скрипта были написаны хорошо, разве что в парсинге S3 Access Logs формата была пара ошибок. Но в целом за пару минут у тебя готовый скрипт, на отладку которого уйдет еще несколько минут. Это будет быстрее, чем лезть в документацию и писать с нуля самому.

Более сложные задачи тоже интересно было попробовать. Создать сайт на React - пара минут и готово, добавить страницу с таблицей и данными - без проблем, сделать таблицу редактируемой - ну, вот тут мы и посыпались. И становится ясно, что когда ты полностью отдаешь генерацию ИИ без понимания, а что он там делает - это не работает. Он чего-то нагенерил и у таблицы поехали стили, а вот как это исправить совершенно непонятно и надо потратить уйму времени, чтобы разобраться в написанном и легче написать самому. Но опыт интересный.

ChatGPT очень неплох в качестве получения инструкций. Обращаюсь к нему для того чтобы понять как что-то реализовать в магазине на Shopify, с которым я никогда не работал. Инструкции получаю хорошие, изредка (5% от всего) бывают шаги, которых на самом деле нет (несуществующие меню или что-то подобное). Но опять же это гораздо проще и быстрее, чем шерстить интернет в поисках решения и выуживания простой реализации из кучи статей, где написано, что надо поставить платное приложение.

sloww Jul 12 at 14:40

Для меня необходимым стал chatgpt, когда я столкнулся с интеграцией со всякими гос и приближенными к ним структурами. А учитывая, как там любят давать описание API (никаких вам песочниц, вот docx файл на 300 страниц с примерами прямо там), это просто спасение.

В половине случаев достаточно было скормить docx/pdf чату и попросить сформировать реализацию авторизации, и далее последовательно накидывать ему функционал, не забывая добавлять до контекста поэтапно готовый код.

В итоге прям СИЛЬНО экономит время и решает головную боль этого идиотского формализма в документах, где написано совсем не то, что автор имеет ввиду в голове.

MadeByFather Jul 12 at 17:46

Если вы скормите 300 страниц в контекст запроса, то через несколько запросов это уже будет дороже, чем посадить джуна или аналитика читать это

Хотя я даже не уверен, что это вообще влезет в максимальный контекст даже топовых моделей

sloww Jul 13 at 07:44

Условный docx на 300 страниц с картинками графами и тп это 100-150к токенов, и обойдется это в 10$ в API.

Хочется посмотреть где вы захайрите за 10 баксов джуна :)

Не обязательно же в контекст вкидывать весь документ, можно поэтапно - структура плюс авторизация, потом дать готовый код авторизации со всякой сессионкой и уже просить реализовывать методы.

Через чатгопоту так вообще будет бесплатно (20 в месяц), просто надо сильно резать документ и не так эффективно как через API.

pavelsha Jul 14 at 19:11

Для меня необходимым стал chatgpt, когда я столкнулся с интеграцией со всякими гос и приближенными к ним структурами. А учитывая, как там любят давать описание API (никаких вам песочниц, вот docx файл на 300 страниц с примерами прямо там), это просто спасение.
В половине случаев достаточно было скормить docx/pdf чату и попросить сформировать реализацию авторизации

Тут, наверное, стоит вспомнить про мнительных ИБ и СБ в этих структурах... Я надеюсь, что docs/PDF Вы не под NDA получали... А то иначе "ОЙ"... " Трансграничная передача... ", " Разглашение... "

Vedomir Jul 12 at 15:36

Как поисковик и замена Stack Overflow это огромный шаг вперед. Не обязательно прямо просить его написать сам код целиком, но ему можно загнать этот код и спросить человеческим языком что и почему не работает и как это исправить. И это реально может сэкономить часы и дни, особенно на малознакомой технологии. Потому что ответа от человека на SO еще ждать надо и не факт что получишь, а существующая документация не учитывает особенностей твоего кода и нередко сама может быть не очень хорошо написана.

Ну а код я пока предпочитаю сам писать, потому что написанный мной код тренирует мою собственную нейронную сеть и нейронка чужая ее в данном случая обогащает, а не заменяет.

thethee Jul 13 at 10:15

Мне очень нравится использовать claude taskmaster, он генерит пошаговый план реализации, который можно провалидировать и дополнить/исправить, если ты эксперт в топике.

Но больше всего в этом мне нравится то что у тебя фактически появляется пошаговый верхнеуровневой план обучения какому либо топику. Я так фронт в свободное время изучаю на примере проекта, которому хочу красивую морду сделать. Настроил правила, чтобы он писал код по-минимуму, добавил MCP на поиск, чтобы он снабжал ссылками и отправляюсь каждый день на пару часов в приключение по документациям, а он мне оценки ставит. А когда получше в топике разбираюсь, то и сам понимаю, где и что подтянуть надо, какой кусок кода все ещё смущает и конкретно по нему задаю вопрос - как улучшить.

Заодно паттерны подтягиваю. По умолчанию ИИ не всегда пишут расширяемый код, но если ему сказать например "используй паттерн репозиторий" потому что знаешь что он лучше сработает в твоём сервисе, то он пишет достаточно хорошо и даже код структурирует лучше. Или если уже написал фиговый код, так и пишешь "предложи как исправить или сделать более поддерживаемым на будущее, подбери паттерн" и оказывается что он все вполне понимает, просто поверх ИИшки нужны обертки которые будут заранее планировать, а после реализации постепенно улучшать код задавая правильные вопросы и выбирая правильные реакции на ответы.

maximlubyanov Jul 12 at 11:56

Эксперимент предполагал бодрое решение задач на свежую голову...

Тема ai и прокастинация не раскрыта. Вот пусть на протяжении года понаблюдают - тогда будет понятно какой эффект оказывает искусственный идиот на производительность.

thethee Jul 13 at 10:21

Да где то писали, что не очень положительный. Как и к любым подобным вещам надо подходить с осторожностью, мозг тоже не дурак и хочет отдыхать, вот только когда начинает отдавать одни, например самые монотонные, вычисления компьютеру, он начинает пытаться отдать и все остальные - а вот это уже не совсем то как с калькуляторами было. Калькулятор нельзя попросить составить расписание на отпуск, а ИИ - можно. И всем начинает казаться, что это волшебная палочка-выручалочка, а по факту очень опасный инструмент, благодаря которому можно случайно разучиться думать.

arheops Jul 13 at 16:34

Есть другое исследование, что использование АИ переводит мозг почти в режим сна. И соответсвенно он из него не выходит.

И третье, что executives после консультации с чатом принимают решения... хуже, чем без него. Ну тут понятно, чат выдает стандартное решение, на уровне менеджера сильно ниже уровнем.

maximlubyanov Jul 13 at 22:43

Врут безбожно - не верьте. Общение с искусственным идиотом дает толчок мозгам и прогоняет сон.

arheops Jul 14 at 00:21

https://www.media.mit.edu/publications/your-brain-on-chatgpt/

Dhwtj Jul 12 at 12:09

На основе этого METR сделала вывод, что в течение 5 лет системы искусственного интеллекта смогут решать такие задачи, которые требуют целый месяц человеко-часов.

MountainGoat Jul 12 at 12:18

БЯМ

Трям!

KonstantinTokar Jul 12 at 12:27

В результате эксперимента был получен результат. Правда, смысла в нём не было, но люди старались.

cs0ip Jul 12 at 12:44

Интересно, есть ли смысл в длинной статье с кучей графиков, которая доказывает снижение производительности, если в это же время курсор за меня чинит тесты при масштабных рефакторингах и гененерирует тысячи строк кода для типовых задач, реально экономя просто месяцы работы?

Rive Jul 12 at 13:18

Если люди не разобрались или предметная область очень плохо подходит для Клода и других совместимых с Курсором нейронок, то в их случаях падение производительности выглядит вполне реалистичным.

cs0ip Jul 12 at 14:38

Если не разобрались, то возможно заголовок нам врет, рассказывая об "опытных" разработчиках

vvzvlad Jul 21 at 16:45

Да нет, к LLM реально надо привыкнуть. Иногда очень бесит, что он пишет код НЕ ТАК как ты привык, и если это начать микроменеджерить, то я легко верю в снижение производительности

arheops Jul 13 at 16:37

Только недавно мы потратили неделю на х5 разработчиков на поиск бага. Причина была АИ тесты.

Написание АИ тестов классная штука, сам использую. Но по сути это отложеный тех долг.

Ибо если есть баг, АИ убедится что он задокументирован в тесте. И если ваша система не тривиальна - у вас проблема.

Все это, конечно, решается правильной модульной архитектурой. Но тогда надо разработчики супер-высокого уровня, где их взять то.

cdriper Jul 14 at 07:44

подопытные из статьи тоже так думали. что что-то им экономит.

а по факту -- наоборот.

edyatl Jul 12 at 13:19

На опеннете обсуждение этой новости гораздо более активное и драматичное.

Обращает внимание, что в исходном исследовании приняли участие 16 программистов, размер выборки как-то не поражает воображение.
Также есть некоторые задачи, за счёт которых будет реальное ускорение, например, написание тестов.

bogolt Jul 12 at 14:27

например, написание тестов.

Как будто человеку не придется убедится что они что-то в принципе тестируют.

edyatl Jul 12 at 14:40

Конечно убедиться придётся, но я вот тесты писать не люблю и наверное поэтому вымучиваю их довольно долго, а ИИ пишет их на раз и справляется неплохо.

bogolt Jul 12 at 15:03

А я например нормально отношусь к их написаю но ненавижу их читать. Потому что написать средний тест куда проще чем понять "что хотел сказать автор". Почему вначале два запроса туда, потом три сюда? Почему не наоборот? А что это за значение мы ждем в ответ, во всех ли случаях?

Проблема тестов в том что легко написать чушь которая будет выглядеть убедительно.

Мой любимый пример выглядит так:

compA = createCompany()
companies = searchCompany(compA.name)
require.In(companies, compA)

Создаем компанию, а потом проверяем что мы можем ее найти по имени.

Код работает отлично, вот только функция searchCompany() на самом деле игнорирует параметры и просто возвращает первую компанию из базы данных.

При этом база данных по умолчанию просто возвращает последний созданный объект в таблице.

То есть чтобы тест начал ловить эту проблему нам нужно создать несколько компаний и убедится что каждую из их можно найти.

Но чтобы разобраться в этом мало пробежать чужой код глазами, нужно ожидать подвоха, понимать как работает ваша система, какие ошибки могут произойти, как их лучше искать.

thethee Jul 13 at 10:29

Так никто не мешает дать достаточно подробную инструкцию для теста. "Создай несколько компаний и попробуй найти их все" все ещё быстрее напечатать, чем действительно написать код который это делает. Пример игрушечный, но мне было приятнее прочитать код и попросить его дополнить новым тестом или текущий отредактировать, чем писать самому. Лень? Может быть. Но в целом задача выполняется и при этом приятнее работать в целом, меньше усталость к концу дня.

bogolt Jul 13 at 12:19

Конечно проще. А еще проще написать "Напиши хорошие тесты", потом убедится что все зелененькое и пойти спокойно домой. А чтобы понять что оно там на самом деле тестирует нужно думать, а это как мы все знаем сложно и лениво.

Мой пример именно об этом, не о том что код проще написать, а о том что плохие тесты сложно визуально отличить от хороших. И он том что чтобы написать хорошую инструкцию нужно все равно напрячься. Проще ли написать инструкцию чем код? Ну допустим проще. Но как проверишь что тесты тестируют то что нужно?

Как проверять программу мы вроде понимаем - если запустилась и что-то сделала то считаем что все ок. А как проверить тесты которые что-то делают и возвращают успех? ломать программу? или читать код тестов? И второе и первое уже достаточно сложно, отсюда и мое сомнение в ускорении процесса.

thethee Jul 18 at 10:54

Факты, однозначно факты. Надо самому разбираться и правильно использовать инструмент. Мой комментарий был скорее к тому что можно "рыбу" тестов набросать со структурой, а затем пройтись построчно и проверить, я сам обычно так и делаю, уже заранее имею план и представление того что и как тестировать. А чтобы читать было приятнее - скармливаю привычные правила оформления кода и в каком случае писать или не писать комментарии, получается обычно вменяемо, но рука-лицо почти каждый раз происходит и правки вручную делаются, но мне например морально легче так, условно, проводить ревью, чем в очередной раз писать бойлерплейт с нуля и тратить силы не на логику тестов, а на конструкции вокруг.

mnemosha Jul 12 at 14:56

А способны ли современные модели, корректно реализовать такие вещи, как напримр TCP-сокеты, строго по спецификации? Ведь спецификация по сути - это идеально поставленная задача с детальным описанием того, что должно быть реализовано и что ожидается на выходе.

thethee Jul 13 at 10:31

Способны. Особенно, если спецификацию им положить в контекст.

cdriper Jul 14 at 07:46

а дайте пруф.

arheops Jul 13 at 16:38

Способны. Только результат очень вероятно будет хуже, чем написаный средним программистом(или текущий код). Но, точно, быстрее.

cdriper Jul 14 at 07:50

Общаясь с Chat GPT на уровне написания маленького объема кода в духе типичного топика на StackOverflow я примерно в трети случаев получаю ошибки и неработающий код.

Внимание вопрос, сможет ли система на основе LLM сгенерировать код по спецификации, который минимум на два-три порядка сложнее типичного кода из топика на StackOverflow?

thethee Jul 18 at 11:02

Модели становятся лучше, вы бы ещё к GPT-3.5 пришли с просьбой написать код. Сравните с Gemini 2.5 Pro для начала, бесплатно доступно в плейграунде гугла, а потом можно и к Claude 4 Opus сходить. Любая из этих нейросетей будет сильно лучше как дефолтного ChatGPT, так и специализированных o3/o4 моделей. А если положить документацию в файловую систему и поставить claude code, сообщив о месте где находится документация, то эта утилита самостоятельно найдет нужные вещи и даже по расплывчатому описанию сгенерирует внятный код. А если в задачу добавить "протестируй", то и ошибки она итераивно исправит, можно уйти кофе пить и вернуться проверять работу минут через 20.

В целом выдуманные библиотеки - известный нюанс работы с ЛЛМ системами, и правильное построение контекста через RAG и агентский поиск по кодовой базе или документации это сейчас самая жаркая тема исследований. Утилита, которую я упомянул, имея набор инструментов, самостоятельно их использует и использование инструментов сейчас активно включают в цикл обучения LLM. Китайская Kimi K2 недавно вышла, очередной бомбовый опенсорс от Китая. Гигантская модель, которая является лучшей среди моделей с отключеным рассуждением именно из-за активного обучения агентским возможностям.

cdriper Jul 18 at 11:07

Любая из этих нейросетей будет сильно лучше как дефолтного ChatGPT

трудно найти что-то более тупое, чем gemini

генератор бреда

MagisterAlexandr Jul 12 at 16:44

LLM хорош как языковед (понятие из книги "Мифический человеко-месяц или как создаются программные системы").

sanyvaa Jul 12 at 17:15

Был проведён огромный труд, который METR зааутсорсила неназванной группе людей

похоже статья писалась тем самым БЯМом)

подумалось, а может ИИ уже живет своей жизнью в инете и генерит тысячи статей для саморекламы? цель - заставить кожаных наделать больше железа для работы ИИ.

atomlib Jul 12 at 19:02

Ну поищите сами в оригинальном документе. Там вообще ничего напрямую не указано. В основном разделе написано, что «мы» расставили метки. Однако в приложении G.8 на 45-й странице приводится текст инструкции, где в одном из пунктов указывается: «We’ll pay standard per hour rates for image labeling». Выглядит как инструкция для каких-то малооплачиваемых людей, возможно даже не в США. Сомневаюсь, что это именно полноценные сотрудники METR, поэтому я поразмышлял и написал, что куда-то заутсорсили.

Кстати, статьи я вообще пишу, плотно консультируясь с языковыми моделями и разными помощниками, чтобы упростить поиск информации. И именно вот этот вопрос я задавал модели o3, которая насочиняла ерунды ниже.

На всякий случай я дополнительно заставил o3 поискать этих людей в других работах METR. Они там тоже не данные размечали, а предоставляли экспертизу высокого уровня, к примеру для другой работы один из них указан как соавтор.

На самом деле указанный список людей — это просто какие-то благодарности. Беглый поиск по их именам показывает, что среди них может быть глава стартапа или инженер машинного обучения. Вряд ли это они вручную размечали 84 часа видео.

То есть если хотите обсуждать написание статей БЯМ — вот их уровень. Постоянные глупые ошибки и необходимость всё допроверять. ИИ в его текущем виде не только не может заменить человека, но даже помочь может не всегда. В общем-то, это и есть тема статьи.

VADemon Jul 13 at 00:12

S&P 500 на конференц-звонках для инвесторов с финансовыми результатами упоминают ИИ в той или иной форме.

https://youtu.be/-qbylbEek-M (Gamers Nexus: AI buzzword)

gaal_dev Jul 13 at 05:29

С чего это устоявшейся истиной???

Эта "истина" навязана маркетинговыми "исследованиями" OpenAI, Microsoft, Google и прочими заинтересованными сторонами вбухавшими в это биллионы долларов - отказаться равно потерять свои посты директорату. Поэтому тащить несмотря ни на что.

Pavia00 Jul 13 at 07:32

По моим ощущениям ИИ снижает производительность на 40%. Да в качестве рыбы он хорош, но потом за наим надо переделывать. От 30-60% кода. При этом его нельзя просить что-то исправить. Потому что все БЯМ это генераторы и у них стоит штраф за повтор. Из-за этого штрафа они так же с легкостью меняют правильные, но старые данные на новые и неправильные! И если он прибавил 30% галлюцинаций потом снова 30%, то на 3 запросе у вас будет 100% галлюцинаций. И это именно из-за природы БЯМ.

arheops Jul 13 at 16:39

Вносите в промт агента "не исправлять в таких то файлах".

Оно работает.

einhorn Jul 13 at 17:56

Из-за этого штрафа они так же с легкостью меняют правильные, но старые данные на новые и неправильные!

Курсор уже умеет показывать diff, и можно выборочно применять изменения от модели

einhorn Jul 13 at 12:39

Я ни хрена не понимаю

С самого начала, еще с лета 2022, я слышу постоянно "ИИ туп, не помогает в кодинге, проще самому" - и при этом у меня лично всё ровно наоборот

У меня есть несколько гипотез

Я питонист-MLщик, я привык промтить LLM, поэтому у меня на подсознательном уровне получаются более правильные запросы
У меня очень много экспериментального кода, к качеству которого ниже требования. Я однажды слышал мнение, что "ИИ пишет говнокод, потому что он обучен на гитхабе, где много непрофессиональных проектов"
У меня код низкой связности - всякую математику не очень сложно изолировать и решать каждую задачу отдельно
У меня нет безумного легаси

В этом же исследование самое главное - Большие и сложные репозитории (иногда больше миллиона строк), то есть они работали с легаси. ИИ тяжело понимать огромные проекты. Плюс, они фиксили баги, а не писали фичи с нуля. Если бы они писали проект с нуля (ну или если хотя бы кодбаза была нормальных размеров), ситуация была бы противоположной

arheops Jul 13 at 16:40

Эксперементальный и репорт-код оно пишет просто замечательно.

Проблемы начинаются в рефакторе больших проектов.

Просто надо чувствовать границы применимости инструмента.

И да, чем меньше связаность и больше модульность - тем лучше.

К агентам надо относится как к джунам.

einhorn Jul 13 at 17:45

Я немного порефлексировал над своими практиками, и понял еще одну вещь: с опытом использования LLM подсознательно понимаешь, как она отработает на каждой из задач, и просто не просишь ее делать то, что LLM не умеет

А разработчик с меньшим опытом будет долбиться в курсор и ходить кругами с неподходящей задачей и угробит кучу времени

arheops Jul 13 at 19:10

Основная проблема - вам УЖЕ надо иметь офигенный опыт, причем именно код ревью, а не кодинга.

Тоесть для мидлов риски значительно возрастают, не говоря про джунов.

einhorn Jul 14 at 01:04

Ну, опыта человеческого код-ревью у меня не очень много

Я бы сказал, нужен опыт кодинга с LLM, в процессе появляется интуиция, на каком уровне LLM решает разные задачи

У меня тоже бывают ситуации, когда я "хожу кругами". Один раз я за день сделал 17 неудачных попыток задеплоить fastapi сервер на Digital Ocean App Platform (курсор предлагал рандомные правки, которые не работали). Проблема была в версиях питоновских либ, на следующий день на свежую голову проблема решилась за час (нужно было упростить сервер, получить другую ошибку, и с ней курсор сообразил)

Еще один раз нужно было добавить управление на мобильных устройствах в генерируемом html файле. Курсор написал кучу кода (я до сих пор не очень понимаю, почему настолько много), который почти работал (но вот это почти никак не исправлялось, за несколько итераций нуль результата, а JS код слишком длинный, чтобы MLщику а него вникать). В итоге я все нафиг удалил, попросил курсор написать простую рыбу (реакция на события), и быстро реализовал в ней логику самостоятельно, потом еще попросил курсор немного причесать UI, с чем он прекрасно справился

Просто чем дальше, тем такие истории случаются все реже. И я полагаю, адепты теории "ИИ бесполезен" просто в начале этого пути

Gorodbox Jul 13 at 20:20

Cursor пишет отлично. Делаю с ним портал на WP. Результаты радуют. Да нужно пошагово, да нужно разбирать всё. Но это не тоже самое что писать самому или искать кого то и объяснить что же ты хотел. Всё таки тут очень удобно и подгрузка и пани нация и фильтры сделает и json и api . Я очень доволен.

Gorodbox Jul 13 at 20:25

Ps взял сразу платную pro поэтому модели там работают на ура. А уже после 2-3х трёх дней работы с ним, он как будто понимает что ты пишешь и табами тебе докидывает. Да курсор это решение если нада что-то, но нет желания искать кого то или ждать пока ценник залупят. Это типа викс для сеошников только для решения задач . Он не заменит всё, иначе бы уже вп и битрикс разорились но.. Многим станет удобнее, как когда-то стало когда пришли конструкторы

cdriper Jul 14 at 08:03

А давайте рассмотрим работу с AI ассистентом на "тактическом уровне", когда ты пишешь код, а он тебе предлагает дописывать небольшие его части за тебя.

По сути своей это просто попытка ускорить твою работу в области нажимания на кнопки. Ты мгновенно получаешь текст, на набор которого у тебя уйдет несколько десятков секунд.
Экономит это копейки, потому что редко когда производительность программиста ограничивается скоростью печати на клавиатуре.

Но на самом деле, как экономия времени это не работает в принципе, потому что на 10 правильных подсказок, AI выдает одну кривую. И если все подсказки бездумно принимать (чтобы экономить время на наборе), то потом все заканчивается кучей потраченного времени на поиски багов, которые насовал тебе ассистент, а ты их бездумно принял.
Ну а если внимательно читать каждый промпт перед принятием, то тратится на порядок больше времени, чем просто на набор из головы. Потому что ты выходишь из потока, из режима написания и начинаешь внимательно читать чужой код. А чтение чужого кода это всегда более затратная вещь, чем его написание.

pavelsha Jul 14 at 19:22

А давайте рассмотрим работу с AI ассистентом на "тактическом уровне", когда ты пишешь код, а он тебе предлагает дописывать небольшие его части за тебя..

У Мартина Фаулера на сайте про подобные "исследования" писали. Сложности оказались в том, что LLM дает не на 100% тот вариант, которые ожидает отправивший запрос программист. В итоге приходится искать баланс: или несколько итераций с уточнениями контекста, или плюнули и переписали сами. 😁😁

И да... По словам Фаулера и Ко "Экономия" появляется не мгновенно, а после усердных тренировок. При этом Мартина Фаулера стоит относить к явным сторонникам развития и внедрения ИскИнов 😀

3draven Jul 14 at 09:11

Я в итоге написал MCP сервер свой что бы ей правила напоминать и код искать в проекте, очень помогает.

https://github.com/3DRaven/semantrix

Но все равно работаю с ней так, сначала прошу заготовку напилить, а потом переписываю и использую ее только как автодолполнение. В таком режиме без повторных промптов, норм.