Про "цикл отладки" - я думаю тут речь о том, что Devinу в теории можно просто отдать багу из таск трекера, а все остальное он сделает сам (ну в идеале, пока совсем не всегда делает, конечно). Может быть можно в .cursorrules прописать подход как вы написали "статический анализ и автотесты" и оно заработает. Единственное что, думаю чтобы нормально заработало нужна будет рассуждающияя модель на шаге продумывания архитектуры решения и тестов. Т.е. :
Прочитал задачку, отдал ее подумать в o1/o3/R1
Получил план решения и что проверяют тесты - преедал его в Claude
Claude Написал код, проганл тесты, вернул в o1 на проверку
Не исключено, что уже довольно скоро сможет. Попытки таких агентов сделать уже есть (Devin, SWE Agent, Amazon Q и т.д.), пока еще не очень работает, но кажется что уже вот-вот может поменяться
Вообще там все есть, но вот еще раз: 1. Общественное мнение сформировалось, что ИИ для разработчиков - уже must have, а не преимущество; 2. Бизнес опасается опоздать и пробует ИИ; 3. Процессы delivery и создания продуктов должны адаптироваться под новую реальность, где код пишется быстрее с ИИ 4. Не смотря на все заявления Сэма Альтмана в общественном сознании есть опасения, что в перспективе 5+ лет ИИ серьезно расшатает индустрию разработки софта
Не совсем так, исследователи усредняли показатели по языкам, при этом большинство запросов было на пайтоне, что не удивительно, сейчас это самый популярный язык в мире, а плагин может поставить кто угодно.
Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно
Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/
Да, большая модель корректно отвечает. Собственно в этом и смысл моего поста был, что вышла модель, которая справляется с такими задачами значительно лучше, чем предыдущие. Она неплохо рассуждает. Может еще не как кандидат наук, но уже неплохо и часто гораздо быстрее. Есть задачи с которыми она не справляется, но вот с этим похоже вопрос закрыт. Приложил скрины:
На первый взгляд она реально неплохо рассуждает и 83% задач на отборочных экзаменах IMO (Международная математическая олимпиада) и 89% в соревнованиях Codeforces - звучит неплохо. Думаю в ближайший месяц мы узнаем насколько она справляется с задачами в целом, а не с конкретными бенчмарками
Все эволюционирует со страшной скоростью, те кто хотят быть на передовой видимо могут себе позволить и пару лишних инструментов освоить да и бонусов выдать по такому случаю
К сожалению, автор не написал в граммах насколько это им помогло, а просто усталые и довольные вернулись мы домой - согласен, что в таком виде эффект от внедрения выглядит сомнительным. Где-то в отчете Гугла о внедрении чего-то похожего, они отрапортовали о повышении производительности на 2% засчет автохотификсов. Если они все честно посчиталали это в масштабах нескольких сотен человек уже может быть существенно. Плюс я думаю главная история тут - они попробовали, оно в целом работает. Значит завтра можно будет настроить и более сложные вещи. В Sonarqube 100% будет встроена LLM и тогда строить кастомный пайплайн наверное не потребуется (вот кстати https://community.sonarsource.com/t/any-roadmap-to-combine-sonarqube-with-llm/111715/3).
Вообще говоря в любом, и csv, и excel хоть картинкой. Смотря какие задачи вы решаете и в какой модели. Если прямо в промпт запихнуть таблицу в тысячи или даже несколько сотен строчек - могут начать ошибаться, если десятки строчек - на моей практике все хорошо считает, сортирует, ищет и т.д.. Большие таблицы я бы аттачментом кидал. Часто для подсчетов LLM пишет python код, в OpenAI это раньше называлось Advanced Data Analysis. Сейчас кажется модель сама как-то определяет тип задачи и входит в такой режим. Если отказывается считать - как вариант дать пример файла с данными - 10-20 строчек, попросить модель написать код для вашей задачи, а запустить самостоятельно уже локально у себя, так будет больше уверенности в результате, если вы понимаете python. В Gemini кажется можно и без подписки файлы подгружать.
Попробовал сегодня Сodestral:22B с пормптом из поста, результат хуже чем у GPT4o и "Im-also-a-good-gpt2-chatbot". Код написала правдоподобный, но половину требований не выполнила, сортировку не сделала, данные не в те колонки внесла. Ну, т.е. на самом деле вполне неплохо для свободной модели, но есть лучше)
Это да, но кажется к живым разумным существам еще сложнее промпты, чем к GPT) Кстати, натыкался где-то на исследование, что у LLM можно выделить некоторый набором культурных ценностей, и этот набор не совпадает с традиционно человеческим
Про "цикл отладки" - я думаю тут речь о том, что Devinу в теории можно просто отдать багу из таск трекера, а все остальное он сделает сам (ну в идеале, пока совсем не всегда делает, конечно). Может быть можно в .cursorrules прописать подход как вы написали "статический анализ и автотесты" и оно заработает. Единственное что, думаю чтобы нормально заработало нужна будет рассуждающияя модель на шаге продумывания архитектуры решения и тестов. Т.е. :
Прочитал задачку, отдал ее подумать в o1/o3/R1
Получил план решения и что проверяют тесты - преедал его в Claude
Claude Написал код, проганл тесты, вернул в o1 на проверку
и так по кругу, пока проблема не решена.
Получается в подписку Cursor за $20 как бы входит подписка на Claude $18
Спасибо, с примерами с YOLO супер!
Автор собственно пишет, что т.к. windsurf и cursor в основе своей vs code, то плагины к ним тоже подходят, и cline на них прекрасно работает тоже
Не исключено, что уже довольно скоро сможет. Попытки таких агентов сделать уже есть (Devin, SWE Agent, Amazon Q и т.д.), пока еще не очень работает, но кажется что уже вот-вот может поменяться
sudo -u Владимир Владимирович Post_на_Habr
Все верно подмечено, Владимир Владимирович не заводил себе аккаунт на Хабре, запостили от его имени
Вообще там все есть, но вот еще раз: 1. Общественное мнение сформировалось, что ИИ для разработчиков - уже must have, а не преимущество; 2. Бизнес опасается опоздать и пробует ИИ; 3. Процессы delivery и создания продуктов должны адаптироваться под новую реальность, где код пишется быстрее с ИИ 4. Не смотря на все заявления Сэма Альтмана в общественном сознании есть опасения, что в перспективе 5+ лет ИИ серьезно расшатает индустрию разработки софта
Не совсем так, исследователи усредняли показатели по языкам, при этом большинство запросов было на пайтоне, что не удивительно, сейчас это самый популярный язык в мире, а плагин может поставить кто угодно.
Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно
Обычно с этим просто, чем больше кода в интернете, тем лучше работает. Лучше всех Python, потом JS и т.д.
Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/
llama.cpp / ollama, кажется koboldcpp считается проще
Так все уже там: https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct-GGUF
Да, большая модель корректно отвечает. Собственно в этом и смысл моего поста был, что вышла модель, которая справляется с такими задачами значительно лучше, чем предыдущие. Она неплохо рассуждает. Может еще не как кандидат наук, но уже неплохо и часто гораздо быстрее. Есть задачи с которыми она не справляется, но вот с этим похоже вопрос закрыт. Приложил скрины:
Скрытый текст
На первый взгляд она реально неплохо рассуждает и 83% задач на отборочных экзаменах IMO (Международная математическая олимпиада) и 89% в соревнованиях Codeforces - звучит неплохо. Думаю в ближайший месяц мы узнаем насколько она справляется с задачами в целом, а не с конкретными бенчмарками
Все эволюционирует со страшной скоростью, те кто хотят быть на передовой видимо могут себе позволить и пару лишних инструментов освоить да и бонусов выдать по такому случаю
К сожалению, автор не написал в граммах насколько это им помогло, а просто усталые и довольные вернулись мы домой - согласен, что в таком виде эффект от внедрения выглядит сомнительным. Где-то в отчете Гугла о внедрении чего-то похожего, они отрапортовали о повышении производительности на 2% засчет автохотификсов. Если они все честно посчиталали это в масштабах нескольких сотен человек уже может быть существенно. Плюс я думаю главная история тут - они попробовали, оно в целом работает. Значит завтра можно будет настроить и более сложные вещи. В Sonarqube 100% будет встроена LLM и тогда строить кастомный пайплайн наверное не потребуется (вот кстати https://community.sonarsource.com/t/any-roadmap-to-combine-sonarqube-with-llm/111715/3).
Вообще говоря в любом, и csv, и excel хоть картинкой. Смотря какие задачи вы решаете и в какой модели. Если прямо в промпт запихнуть таблицу в тысячи или даже несколько сотен строчек - могут начать ошибаться, если десятки строчек - на моей практике все хорошо считает, сортирует, ищет и т.д.. Большие таблицы я бы аттачментом кидал. Часто для подсчетов LLM пишет python код, в OpenAI это раньше называлось Advanced Data Analysis. Сейчас кажется модель сама как-то определяет тип задачи и входит в такой режим. Если отказывается считать - как вариант дать пример файла с данными - 10-20 строчек, попросить модель написать код для вашей задачи, а запустить самостоятельно уже локально у себя, так будет больше уверенности в результате, если вы понимаете python. В Gemini кажется можно и без подписки файлы подгружать.
Попробовал сегодня Сodestral:22B с пормптом из поста, результат хуже чем у GPT4o и "Im-also-a-good-gpt2-chatbot". Код написала правдоподобный, но половину требований не выполнила, сортировку не сделала, данные не в те колонки внесла. Ну, т.е. на самом деле вполне неплохо для свободной модели, но есть лучше)
Это да, но кажется к живым разумным существам еще сложнее промпты, чем к GPT) Кстати, натыкался где-то на исследование, что у LLM можно выделить некоторый набором культурных ценностей, и этот набор не совпадает с традиционно человеческим