Комментарии / Профиль Vovenzza / Хабр

Владимир@Vovenzza

Пользователь

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Без проблем, общайтесь с ии, если вам так комфортнее)
Я думаю, у нас с вами в любом случае не получилось бы плодотворного сотрудничества

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Vovenzza 22 янв в 11:48

Как было сказано в комментариях выше, гайдов по тюнингу полно в интернете. На саму тренировку: написание скриптов, создание среды, выставление настроек и выбор модели у меня ушла пара дней. На составление датасета - 2 месяца.

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Vovenzza 21 янв в 13:38

Здравствуйте!
Само собой, я не составлял их полностью сам, мне в этом помогали нейронки. Их задачей было написать промпт на кусок реальной задачи (чатсть кода), которую я им скидывал + дать последовательность команд в модуле <think>. Я это все дело проверял, чтобы они не понапридумывали лишнего и заносил в датасет.
Однако даже не смотря на такую автоматизацию, на написание датасета уходит неприлично большое количество времени)

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Vovenzza 21 янв в 13:31

Здравствуйте, спасибо большое за отзыв!
Касательно составления датасета - тут, судя по всему, Вы правильно написали. Много нюансов и нет конкретного "рецепта" на мой, или схожий с моим, кейсы. Поэтому в самой первой версии (тогда это еще была не "reasoning" модель) датасет был составлен по принципу "вопрос пользователя - ответ нейросети". И во время тестирования я обратил внимание, в чем она ошибается. А ошибалась она примерно во всем. Я понял, что при работе с кодом мне желательно в каждой инструкции как-нибудь прописать логику работы и последовательность написания команд. Надо научить нейросеть, что, например, блок модуля AQUA (ответственный за назначение материалов) не может идти после ASE (модуль, осуществляющий линейный статический анализ). Для этого я и ввел блок <think>, в котором буквально в каждой инструкции в датасете на каждый пример прописаны: последовательность модулей, последовательность команд и описание этих команд.
Датасет, естественно, составлялся на конкретных рабочих примерах и информации из официальных мануалов. Т.к это файн-тюнинг, а не тренировка с нуля, то в целом при работе с ней не нужно прописывать точный промпт, чтобы она поняла, что от нее требуется. Достаточно в коде упомянуть, что Вам нужен от нее код на cadinp.
Сколько образцов нужно для конечного продукта? Понятия не имею, если честно. Я написал об этой штуке везде, где только можно (включая линкедин, тэгнув при этом сам SOFISTIK AG) в надежде, что комьюнити инженеров поможет мне в тестировании. Чем больше будет выявлено и исправлено дыр в датасете - тем лучше она будет генерить код.

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Vovenzza 21 янв в 11:38

Так, ну начну с того, что я не недавно тут. Просто опытом своих разработок я еще здесь не делился, и подумал, что возможно здесь найдутся люди, которые дадут хорошие советы по реализации моих идей.
В чем, собственно цель моего проекта. Софистик - очень сложный инструмент, но при этом максимальную гибкость ему дает знание языка cadinp, и я считаю, что инженер не обязан его знать. Я лично не учился на программиста и мне хватает вещей, которые я должен знать и постоянно изучать в своей работе. Инженер, например, обязан знать и понимать, как работают конструкции. Должен, посмотрев на расчет, понять, соответствует ли действительности то, что ему показывает программа. Нейросети, мкэ-программы и программы для 3д-моделирования - были, есть и останутся только инструментами.
А что касается этики: цель моего проекта - не заменять инженеров операторами. Экспертиза чаще всего требует, чтобы помимо красивых картинок из программ для конечно-элементного анализа вы прилагали аналитический расчет. И не только экспертиза, сами инженеры не любят рисковать. К Вашим словам по поводу черных ящиков я добавлю, что мы не только проверяем расчеты в нескольких программах, но и почти всегда проверяем сами программы аналитическими методами, вручную. А это, как Вы можете догадаться, занимает время.
Если Вы боитесь, что развитие технологий и ускорение работы в программах как-то затронет качество расчетов, то претензии я бы тут предъявлял определенно не к людям, которые хотят упростить жизнь инженерам. А, например, к университетам, которые не дают достаточного уровня знаний и понимания, что вообще такое - работа инженером. Либо к застройщикам/заказчикам, которые зачастую от своих подрядчиков требуют невыполнимых сроков и максимально экономные варианты проектирования, что максимально увеличивает шанс ошибки банально из-за человеческого фактора.

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Vovenzza 21 янв в 11:10

Спасибо за совет! Да, действительно у китайских моделей есть проблемы. Возможно, из-за обилия в них китайского языка и при запросе на английском они могут "паниковать" и галлюцинировать (что и наблюдалось в моих тестах). Но выбрал я их все-таки из-за того, что касательно кода лучшие результаты мне выдавали как раз дипсик и квен. И я понятия не имею почему)

Информация

Специализация