artkulakov Dec 24 2022 at 04:17

ML алгоритм нашел баг в моем коде…

1 min

6.5K

Python*Big Data*Natural Language Processing*

Translation

Я играл с языковой моделью SalesForce CodeGen. Она генерирует новый код по подсказкам. Но я хотел посмотреть, как она будет анализировать уже написанный код.

Я попросил модель посмотреть на существующий код и оценить вероятность появления каждого слова с учетом предыдущих слов. Далее я сравнил вероятность появления моего слова с вероятностью слова предсказанного моделью

Я взял один из файлов моего проекта. Яркость отражает маловероятность каждого слова. Красный цвет показывает, насколько более вероятен токен модели.

Зеленый - Алгоритм не уверен, но не может предложить другого более вероятного варианта,

Красный - Алгоритм может предложить другой вариант, которое ему больше нравится.
Серый - Алгоритм ничего не изменил

Хотя сами комментарии являются сюрпризом для алгоритма, краснота вокруг них уменьшилась. За исключением оператора return, который очень сильно выделяется на фоне остальных токенов.

Как оказалось, в моем коде была ошибка. Когда listener события удаляется во время dispatch, я возвращаюсь из функции. Алгоритм же правильно предлагает continue, вместо return.

Теперь этот алгоритм можно использовать для регулярной проверки моего кода.

Еще больше примеров использования ML в современных сервисах можно посмотреть в моем телеграм канале. Я пишу про ML, стартапы и релокацию в UK для IT специалистов.

Hubs: