ElKornacio 5 фев в 18:33

Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ

2 мин

Искусственный интеллектМашинное обучение*TDD*Программирование*

Комментарии 8

RL изначально лежал на поверхности и о нём точно думал каждый разработчик языковых моделей. Даже удивительно, что ощутимые результаты он начал давать только сейчас (по крайней мере ранее мне не попадалась информация о прорывах в этом направлении).

Hardcoin 5 фев в 20:22

RL используется уже два года минимум. RLHF от OpenAI - это тоже RL (RLHF без сомнения прорыв)

Прорыв именно в автоматической генерации данных, но два года назад это было просто невозможно. Не было сетей, которые смогли бы это сделать достаточно качественно.

Shannon 5 фев в 22:23

росту на 5 процентных пунктов Qwen2.5-Coder-7B-Ins, сравняв ее по качеству с гораздо более крупной DeepSeek-V2.5 (236B параметров).
Ещё раз: модель в 7 миллиардов параметров стала выдавать качество модели в 236 миллиардов, в 33 раза большей

Звучит так, словно она и без этих 5 процентов выдавала качество на том же уровне.

arantar 6 фев в 02:34

Куда же без рекламы своего канала.

Trab_l13 6 фев в 13:47

Почему нет? В условиях отсутствия монетизации.

TastaBlud 6 фев в 08:16

А можно ли использовать ИИ для покрытия тестами существующего кода? Зачастую это достаточно рутинная и не особо интеллектуальная работа, резко замедляющая написание кода, что и отпугивает от применения TDD на практике.

ElKornacio 6 фев в 13:49

конечно. я 90% тестов последний год пишу только через ИИ (Claude 3.5 в Cursor). качество тестов отличное, ни капли не хуже, чем я бы сам написал.

vikarti 12 фев в 07:05

А почему нет? Собственно это то что он делает очень даже хорошо. При этом возможны несколько вариантов:

тест не компилируется - даны не все данные (кодовая база то может быть большой), правим (ну или используем более нормальную модель)
тест падает хотя вроде не должен - выясняем - это тест кривой и или код (у меня были оба варианта), правим чтоб не падало больше. Улучшаем шансы что следующий кто сюда полезет - не сломает.
тест не падает хотя вообщем то должен. пусть получили бесполезный тест, есть ненулевые шансы что просмотр кода теста приведет к тому что будет что-то поправлено

В любом случае - небольшие затраты времение а покрытие - растет, да - 100% покрытия не будет но лучше так чем никак.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий