Как стать автором
Обновить
71
0.4
Андрей Шагалов (Artezio) @AndyKy

IT

Отправить сообщение

Про "цикл отладки" - я думаю тут речь о том, что Devinу в теории можно просто отдать багу из таск трекера, а все остальное он сделает сам (ну в идеале, пока совсем не всегда делает, конечно). Может быть можно в .cursorrules прописать подход как вы написали "статический анализ и автотесты" и оно заработает. Единственное что, думаю чтобы нормально заработало нужна будет рассуждающияя модель на шаге продумывания архитектуры решения и тестов. Т.е. :

  1. Прочитал задачку, отдал ее подумать в o1/o3/R1

  2. Получил план решения и что проверяют тесты - преедал его в Claude

  3. Claude Написал код, проганл тесты, вернул в o1 на проверку

и так по кругу, пока проблема не решена.

Получается в подписку Cursor за $20 как бы входит подписка на Claude $18

Спасибо, с примерами с YOLO супер!

Автор собственно пишет, что т.к. windsurf и cursor  в основе своей vs code, то плагины к ним тоже подходят, и cline на них прекрасно работает тоже

Не исключено, что уже довольно скоро сможет. Попытки таких агентов сделать уже есть (Devin, SWE Agent, Amazon Q и т.д.), пока еще не очень работает, но кажется что уже вот-вот может поменяться

sudo -u Владимир Владимирович Post_на_Habr

Все верно подмечено, Владимир Владимирович не заводил себе аккаунт на Хабре, запостили от его имени

Вообще там все есть, но вот еще раз: 1. Общественное мнение сформировалось, что ИИ для разработчиков - уже must have, а не преимущество; 2. Бизнес опасается опоздать и пробует ИИ; 3. Процессы delivery и создания продуктов должны адаптироваться под новую реальность, где код пишется быстрее с ИИ 4. Не смотря на все заявления Сэма Альтмана в общественном сознании есть опасения, что в перспективе 5+ лет ИИ серьезно расшатает индустрию разработки софта

Не совсем так, исследователи усредняли показатели по языкам, при этом большинство запросов было на пайтоне, что не удивительно, сейчас это самый популярный язык в мире, а плагин может поставить кто угодно.

Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно

Обычно с этим просто, чем больше кода в интернете, тем лучше работает. Лучше всех Python, потом JS и т.д.

Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/

llama.cpp / ollama, кажется koboldcpp считается проще

Да, большая модель корректно отвечает. Собственно в этом и смысл моего поста был, что вышла модель, которая справляется с такими задачами значительно лучше, чем предыдущие. Она неплохо рассуждает. Может еще не как кандидат наук, но уже неплохо и часто гораздо быстрее. Есть задачи с которыми она не справляется, но вот с этим похоже вопрос закрыт. Приложил скрины:

Скрытый текст

На первый взгляд она реально неплохо рассуждает и 83% задач на отборочных экзаменах IMO (Международная математическая олимпиада) и 89% в соревнованиях Codeforces - звучит неплохо. Думаю в ближайший месяц мы узнаем насколько она справляется с задачами в целом, а не с конкретными бенчмарками

Все эволюционирует со страшной скоростью, те кто хотят быть на передовой видимо могут себе позволить и пару лишних инструментов освоить да и бонусов выдать по такому случаю

К сожалению, автор не написал в граммах насколько это им помогло, а просто усталые и довольные вернулись мы домой - согласен, что в таком виде эффект от внедрения выглядит сомнительным. Где-то в отчете Гугла о внедрении чего-то похожего, они отрапортовали о повышении производительности на 2% засчет автохотификсов. Если они все честно посчиталали это в масштабах нескольких сотен человек уже может быть существенно. Плюс я думаю главная история тут - они попробовали, оно в целом работает. Значит завтра можно будет настроить и более сложные вещи. В Sonarqube 100% будет встроена LLM и тогда строить кастомный пайплайн наверное не потребуется (вот кстати https://community.sonarsource.com/t/any-roadmap-to-combine-sonarqube-with-llm/111715/3).

Вообще говоря в любом, и csv, и excel хоть картинкой. Смотря какие задачи вы решаете и в какой модели. Если прямо в промпт запихнуть таблицу в тысячи или даже несколько сотен строчек - могут начать ошибаться, если десятки строчек - на моей практике все хорошо считает, сортирует, ищет и т.д.. Большие таблицы я бы аттачментом кидал. Часто для подсчетов LLM пишет python код, в OpenAI это раньше называлось  Advanced Data Analysis. Сейчас кажется модель сама как-то определяет тип задачи и входит в такой режим. Если отказывается считать - как вариант дать пример файла с данными - 10-20 строчек, попросить модель написать код для вашей задачи, а запустить самостоятельно уже локально у себя, так будет больше уверенности в результате, если вы понимаете python. В Gemini кажется можно и без подписки файлы подгружать.

Попробовал сегодня Сodestral:22B с пормптом из поста, результат хуже чем у GPT4o и "Im-also-a-good-gpt2-chatbot". Код написала правдоподобный, но половину требований не выполнила, сортировку не сделала, данные не в те колонки внесла. Ну, т.е. на самом деле вполне неплохо для свободной модели, но есть лучше)

Это да, но кажется к живым разумным существам еще сложнее промпты, чем к GPT) Кстати, натыкался где-то на исследование, что у LLM можно выделить некоторый набором культурных ценностей, и этот набор не совпадает с традиционно человеческим

Информация

В рейтинге
2 243-й
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность