
Комментарии 10
Для толковой оценки надо было привести ответы той же модели на те же вопросы до обучения, чтобы видеть, насколько её логику скукожило тренировкой.
Здравствуйте! Я сейчас ради интереса прогнал эти же вопросы через базовую Qwen2.5-0.5B - без обучения. И она, по сути, отвечает примерно так же странно. Поэтому важно понимать: вся эта история - именно эксперимент. Хотелось проверить, можно ли вообще получить хоть какую-то дореформенную стилизацию на маленькой модели, дообученной локально.
Да, у такой модели сразу видно, где всё разваливается. Это нормально: мало параметров, синтетический датасет, одна эпоха обучения. С этим можно работать - собрать датасет получше, сбалансировать вопросы или взять модель покрупнее, но всё ещё в пределах реальных ресурсов.
В общем, задача была проверить сам подход — и он, в целом, оказался рабочим. Дальше уже можно доводить.

А может проще было бы использовать LoRa? И обучать проще, и подключить потом к мощной модельке - сплошныя выгоды.
А то и просто системный промпт: описать заранее правила дореформенного написания и "пошла писать губернiя"
Спасибо, замечание по делу! Да, для такой узкой задачи LoRA правда удобнее - и обучать легче. С промптами та же история: если брать API средней модели и нормально расписать правила дореформенного письма, она всё это держит без проблем.
Здесь же я сознательно пошёл по самому простому пути - tiny-модель, минимум ресурсов, синтетический датасет - просто чтобы проверить саму идею: а можно ли вообще получить хоть какую-то стилизацию такими силами? Как эксперимент - получилось, дальше уже можно идти в сторону LoRA и моделей побольше.
Ну и эти эксперименты могут стать неплохой заготовкой для будущего модуля коррекции в нашем основном проекте Manuscript OCR.
Мне больше интересно, как вы задались вообще таким вопросом "а можно ли силами 1000 ресурсов сделать работу, на которую при другой технологии ушло бы 5 ресурсов"?. Ну это примерно как - можно ли выкопать яму силами 50 человек за неделю, которую экскаватор копает за 10 минут? Понятное дело же что вполне можно. А у вас в проекте тоже все будет так устроено?
Я обучал gpt2 разговаривать в стиле персонажей собачьего сердца. Получилось супер только смысла в этом не было никакого.
Смысл был в том чтобы не просто заставить модель отвечать как попугай а мыслить и рассуждать в стиле того же Преображенского, но это далеко не мой уровень
Есть у меня ощущение, сударь, что стиль выдержан не очень, но это именно на уровне ощущений и собственного опыта чтения литературы того периода. Было бы интересно узнать мнение специалистов по языку. А сам эксперимент очень интересный. Спасибо!
Экое диво! Воистину ужъ на какіе забавы ваша машинерія способна. Ну съ починомъ, для путешествія во времени - это первое дѣло
Люто плюсую
Иоаннъ Кеплеръ и Исаакъ Бекманъ - люди учёныя и серьёзныя.
По дореформенной орфографии окончание -ыя использовалось для женского и среднего родов, а для мужского - окончание -ые.
Так что уже в этом месте появилось сомнение насчёт затеи в целом.
«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»