Спасибо за разбор. Весь цикл выполнения с самого начала на примере реальной задачи интересно было бы посмотреть - какие промпты, параметры передаются, как он определяет какие файлы надо прочитать.
Подскажите, что мешает использовать для эмбеддингов отдельную модель? Qwen 3 Embeddings 0.5B, например, великолепные эмбеддинги. И ещё можете для чата попробовать новую Gemma 3n
Вы авторы бенчмарка? Есть ли лидерборд? И пишите плиз точные версии моделей - какая именно Gemini 2.5 Pro? Их уже 3 разных версии, причем последняя с явным thinking budget, и указывайте, пожалуйста, thinking или non thinking версия - так будет профессиональнее выглядеть ваша работа.
Ну, результаты, конечно, прям похвальные для 7B модельки. Правда, кажется, что Sonnet 3.5 еще и без доступа к актуальным данным - не лучший судья в такого рода челлендже. Кстати, в следующий раз еще решение от Google учитывайте плиз, их Deep Research как раз недавно заработал в бесплатной версии.
Эта борьба с AI на собеседовании мне все больше напоминает запрет на использование IDE на собеседовании (а ведь где-то до сих пор лайвкодить в IDE запрещают). И я рад, что вы постепенно приходите к принятию. Вот, кстати, возможное решение: Если в компании допустимо использовать AI-тулинг в работе, скажите об этом кандидату и спросите хочет ли он законно использовать AI прямо на собеседовании. И если он за AI, дайте ему не просто задачку на написание небольшого алгоритма, а что-то пошире - можно программу небольшую с нуля написать и посмотреть как он действует. А можно пойти дальше, найти какой-нибудь опенсорсный проект и попросить кандидата пофиксить какой-нибудь небольшой баг в этом проекте. Самое главное то, что даже необязательно, что кандидат успеет написать программу или пофиксить баг за время интервью - важно скорее то, как именно он будет это делать (тут уже было бы неплохо, чтобы собеседующий сам изначально попробовал решить свои задачи с использованием AI, чтобы примерно понимать флоу). Кроме того, уже после завершения задачки может быть полезным позадавать вопросы о получившемся коде/решении. Что касается теоретических вопросов без контекста, я бы в принципе GPT-driven программисту их не задавал бы, а спрашивал бы контекстуальные вещи, отталкиваясь от текущего кода/проблемы кандидата. И это то, как провожу собеседования я. Да, такой подход менее формализуем, чем классические подходы к интервью и требует определенной креативности в реализации (а ещё, желательно опыта в использовании AI тулинга у самого собеседующего). Тем не менее, мы постепенно двигаемся в эту сторону (я убежден, что скоро станет нормой проверять навыки использования AI в программировании как минимум для специалистов уровня Junior/Middle), поэтому наиболее инициативные лиды могут начинать экспериментировать уже сейчас и плавно переходить от отрицания к принятию и извлечению пользы.
NB: чуть позже я планирую выложить одну из таких AI-задачек у себя в Пробелов.NET.
Спасибо, что описали нюансы копайлота. Ещё, хочу отметить, что опыт использования в VS Code и IDE от JB может отличаться. Читал отзывы, что в VS Code расширение работает сильно качественнее. Ещё, для желающих получить автокомплишн полностью локально могу подсказать Tabby, CodeGPT и Continue.
Спасибо за подборку! Кому интересен более полный список инструментов, предлагаю заглянуть в репозиторий https://github.com/rodion-m/awesome_ai_for_programmers , в нем я веду список актуальных AI тулов и полезностей для разработчиков с описанием на русском.
Спасибо за статью, сравнений российских LLM действительно мало. Поделитесь, пожалуйста, как они смотрятся на фоне популярных опенсорсных решений (OpenChat, Command R(+), llama 3) или, например, в сравнении с Claude 3 Haiku?
Я предпочитаю просить кандидатов писать код в Блокноте или текстовом редакторе без подсветки кода, чтобы видеть, как он/она может думать без дополнительной поддержки. Это просто мое предпочтение, и это максимально приближено к интервью у доски.
Не совсем понятно, для чего проверять возможность думать без дополнительной поддержки, если в реальности эта поддержка всегда есть в IDE, почему бы не разрешить кандидату писать код в его любимой IDE? И что хорошего в интервью у доски?
И поделитесь, плиз, вашим отношением к использованию нейронок на собеседовании - копайлотов и прочих гпт. Просто запрещаете?
А в чем резон использовать GPT-3.5, когда доступна GPT-4? Тем более, а случае использования GPT-4 через Playground не придется платить за подписку. Ещё интересно будет если вы попробуете сделать все тоже самое через GPT-Engineer, либо GPT Pilot. https://github.com/gpt-engineer-org/gpt-engineer https://github.com/Pythagora-io/gpt-pilot Они как раз предназначены для создания софта с нуля.
Ссылочку на JAIG дайте плиз. Кстати, GPT-4 по качеству кода и сложности решаемых задач - небо и земля в сравнении с GPT-3.5. Ещё, есть простой лайфхак, который может существенно повысить качество кода на выходе - прибавить к промпту "сделай как Senior разработчик". Всевозможные юзкейсы работы с LLM для программиста я собираю в этом репозитории: https://github.com/rodion-m/ChatGPT_for_programmers
Да, именно поэтому и еще по ряду причин David Fowler в своем AsyncGuidanceне рекомендует делать такие прокси. Поэтому, ответ использовать их или нет зависит от того, что важнее - корректный стек вызовов плюс другие плюшки, либо мизерный выигрыш от экономии аллокации в куче.
Спасибо за разбор. Весь цикл выполнения с самого начала на примере реальной задачи интересно было бы посмотреть - какие промпты, параметры передаются, как он определяет какие файлы надо прочитать.
Подскажите, что мешает использовать для эмбеддингов отдельную модель? Qwen 3 Embeddings 0.5B, например, великолепные эмбеддинги.
И ещё можете для чата попробовать новую Gemma 3n
Важная деталь, о которой стоит рассказывать :)
Ну и главный вопрос - что вы используете в кач-ве Scaffold? Cursor, Cline, OpenHands или какого-то своего агента?
Вы авторы бенчмарка? Есть ли лидерборд? И пишите плиз точные версии моделей - какая именно Gemini 2.5 Pro? Их уже 3 разных версии, причем последняя с явным thinking budget, и указывайте, пожалуйста, thinking или non thinking версия - так будет профессиональнее выглядеть ваша работа.
Ну, результаты, конечно, прям похвальные для 7B модельки. Правда, кажется, что Sonnet 3.5 еще и без доступа к актуальным данным - не лучший судья в такого рода челлендже.
Кстати, в следующий раз еще решение от Google учитывайте плиз, их Deep Research как раз недавно заработал в бесплатной версии.
https://stack-auth.com/
https://ssoready.com/
Ory
И да, сравнение было бы очень интересно
Эта борьба с AI на собеседовании мне все больше напоминает запрет на использование IDE на собеседовании (а ведь где-то до сих пор лайвкодить в IDE запрещают). И я рад, что вы постепенно приходите к принятию. Вот, кстати, возможное решение:
Если в компании допустимо использовать AI-тулинг в работе, скажите об этом кандидату и спросите хочет ли он законно использовать AI прямо на собеседовании. И если он за AI, дайте ему не просто задачку на написание небольшого алгоритма, а что-то пошире - можно программу небольшую с нуля написать и посмотреть как он действует. А можно пойти дальше, найти какой-нибудь опенсорсный проект и попросить кандидата пофиксить какой-нибудь небольшой баг в этом проекте. Самое главное то, что даже необязательно, что кандидат успеет написать программу или пофиксить баг за время интервью - важно скорее то, как именно он будет это делать (тут уже было бы неплохо, чтобы собеседующий сам изначально попробовал решить свои задачи с использованием AI, чтобы примерно понимать флоу). Кроме того, уже после завершения задачки может быть полезным позадавать вопросы о получившемся коде/решении. Что касается теоретических вопросов без контекста, я бы в принципе GPT-driven программисту их не задавал бы, а спрашивал бы контекстуальные вещи, отталкиваясь от текущего кода/проблемы кандидата.
И это то, как провожу собеседования я.
Да, такой подход менее формализуем, чем классические подходы к интервью и требует определенной креативности в реализации (а ещё, желательно опыта в использовании AI тулинга у самого собеседующего). Тем не менее, мы постепенно двигаемся в эту сторону (я убежден, что скоро станет нормой проверять навыки использования AI в программировании как минимум для специалистов уровня Junior/Middle), поэтому наиболее инициативные лиды могут начинать экспериментировать уже сейчас и плавно переходить от отрицания к принятию и извлечению пользы.
NB: чуть позже я планирую выложить одну из таких AI-задачек у себя в Пробелов.NET.
А через контейнеры Nvidia NIM пробовали инференсить? Там ребята смогли добиться существенного прироста к перфу.
Попробуйте Aider - он сам за вас найдет нужные файлы, отправит их LLM и пропатчит старые / добавит новые.
Спасибо, что описали нюансы копайлота. Ещё, хочу отметить, что опыт использования в VS Code и IDE от JB может отличаться. Читал отзывы, что в VS Code расширение работает сильно качественнее. Ещё, для желающих получить автокомплишн полностью локально могу подсказать Tabby, CodeGPT и Continue.
Спасибо за подборку! Кому интересен более полный список инструментов, предлагаю заглянуть в репозиторий https://github.com/rodion-m/awesome_ai_for_programmers , в нем я веду список актуальных AI тулов и полезностей для разработчиков с описанием на русском.
Спасибо за статью. Расскажите, пожалуйста, это вы какую именно версию ChatGPT и YandexGPT тут тестировали?
Спасибо за статью, сравнений российских LLM действительно мало. Поделитесь, пожалуйста, как они смотрятся на фоне популярных опенсорсных решений (OpenChat, Command R(+), llama 3) или, например, в сравнении с Claude 3 Haiku?
Спасибо, неплохие советы!
Не совсем понятно, для чего проверять возможность думать без дополнительной поддержки, если в реальности эта поддержка всегда есть в IDE, почему бы не разрешить кандидату писать код в его любимой IDE? И что хорошего в интервью у доски?
И поделитесь, плиз, вашим отношением к использованию нейронок на собеседовании - копайлотов и прочих гпт. Просто запрещаете?
А просто количество тредов выкручивать пробовали? Чем не подошло такое решение?
А в чем резон использовать GPT-3.5, когда доступна GPT-4? Тем более, а случае использования GPT-4 через Playground не придется платить за подписку.
Ещё интересно будет если вы попробуете сделать все тоже самое через GPT-Engineer, либо GPT Pilot.
https://github.com/gpt-engineer-org/gpt-engineer
https://github.com/Pythagora-io/gpt-pilot
Они как раз предназначены для создания софта с нуля.
Спасибо, подход интересный. Из статьи только не понял, поддерживает ли при таком способе автоматизированный переход на другие страницы?
Ссылочку на JAIG дайте плиз. Кстати, GPT-4 по качеству кода и сложности решаемых задач - небо и земля в сравнении с GPT-3.5. Ещё, есть простой лайфхак, который может существенно повысить качество кода на выходе - прибавить к промпту "сделай как Senior разработчик". Всевозможные юзкейсы работы с LLM для программиста я собираю в этом репозитории: https://github.com/rodion-m/ChatGPT_for_programmers
Да, именно поэтому и еще по ряду причин David Fowler в своем AsyncGuidance не рекомендует делать такие прокси. Поэтому, ответ использовать их или нет
зависит от того, что важнее - корректный стек вызовов плюс другие плюшки, либо мизерный выигрыш от экономии аллокации в куче.