Комментарии 8
RL изначально лежал на поверхности и о нём точно думал каждый разработчик языковых моделей. Даже удивительно, что ощутимые результаты он начал давать только сейчас (по крайней мере ранее мне не попадалась информация о прорывах в этом направлении).
росту на 5 процентных пунктов Qwen2.5-Coder-7B-Ins, сравняв ее по качеству с гораздо более крупной DeepSeek-V2.5 (236B параметров).
Ещё раз: модель в 7 миллиардов параметров стала выдавать качество модели в 236 миллиардов, в 33 раза большей
Звучит так, словно она и без этих 5 процентов выдавала качество на том же уровне.
Куда же без рекламы своего канала.
А можно ли использовать ИИ для покрытия тестами существующего кода? Зачастую это достаточно рутинная и не особо интеллектуальная работа, резко замедляющая написание кода, что и отпугивает от применения TDD на практике.
конечно. я 90% тестов последний год пишу только через ИИ (Claude 3.5 в Cursor). качество тестов отличное, ни капли не хуже, чем я бы сам написал.
А почему нет? Собственно это то что он делает очень даже хорошо. При этом возможны несколько вариантов:
тест не компилируется - даны не все данные (кодовая база то может быть большой), правим (ну или используем более нормальную модель)
тест падает хотя вроде не должен - выясняем - это тест кривой и или код (у меня были оба варианта), правим чтоб не падало больше. Улучшаем шансы что следующий кто сюда полезет - не сломает.
тест не падает хотя вообщем то должен. пусть получили бесполезный тест, есть ненулевые шансы что просмотр кода теста приведет к тому что будет что-то поправлено
В любом случае - небольшие затраты времение а покрытие - растет, да - 100% покрытия не будет но лучше так чем никак.
Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ