скажи а вот эти репы, которые вы отобрали, написаны одним человеком, одним уровнем ? я вижу 2 проблемы: отбор экспертной выборки, а вторая как выделить код целевого разработчика.. мы разрабатываем продукт по схожей тематике, у нас есть проблема что обычно в проекте работает несколько людей, не всегда сеньер может писать как ему нравится, есть тех долг, другие ограничения.. т.е. в обычном репозитории сидит много людей разного уровня в условиях ограничений проекта..думали над такой задачкой ?
ясно, немного смутило что GraphCodeBERT не обучался на c# коде и если вы не дообучали модели, результаты могут быть зашумлены. второе, проекты которые вы собирали, должны быть типичными и семантически "равными" что ли. иначе это также может шуметь. например, небольшой проект с простым доменом, никогда не дотянет по уровню наследования к проекту со сложной доменной моделью.
да, спасибо за ваш труд. будем на связи)
с блоками тоже не все просто.. блоки постепенно размываются другими людьми, иногда это происходит довольно быстро
скажи а вот эти репы, которые вы отобрали, написаны одним человеком, одним уровнем ? я вижу 2 проблемы: отбор экспертной выборки, а вторая как выделить код целевого разработчика..
мы разрабатываем продукт по схожей тематике, у нас есть проблема что обычно в проекте работает несколько людей, не всегда сеньер может писать как ему нравится, есть тех долг, другие ограничения.. т.е. в обычном репозитории сидит много людей разного уровня в условиях ограничений проекта..думали над такой задачкой ?
ясно, немного смутило что GraphCodeBERT не обучался на c# коде и если вы не дообучали модели, результаты могут быть зашумлены. второе, проекты которые вы собирали, должны быть типичными и семантически "равными" что ли. иначе это также может шуметь. например, небольшой проект с простым доменом, никогда не дотянет по уровню наследования к проекту со сложной доменной моделью.
ваш подход показался интересным, чем вызвано ограничение ? GraphCodeBERT с тренировочным датасетом ?