Обновить

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K
Всего голосов 11: ↑10 и ↓1+10
Комментарии12

Комментарии 12

Подготовка заданий для ОГЭ

Адаптация материалов под разный уровень учеников

Консультация по формулировкам характеристик

Буквально это издать массовым тиражом две-три методических книги по каждому предмету. Назывались эти серии книг "Библиотека учителя ..."

1980
1980

это задача компьютерного зрения, до неё далеко

Qwen3.5 - мультимодальные модели, причем при распознавании рукописного текста понимают и очень корявый почерк, как минимум английский, проверьте свою обученную модель, может все будет хорошо.

Кстати, только что вышла 3.6 27b :)

Cпасибо, соглашусь про возможности модели, но я немного о другом. Текущая EduLLM-RU фокусируется на прикладных задачах как подготовка к урокам, проверочные материалы, квизы, проверка тетрадей в моем понимании все же процесс творческий, хоть и кажется рутиной, которую легко оптимизировать. Сложный вопрос, часто обсуждаем и пока результатами я не доволен.

3.6 27b - видел и уже занимаюсь, очень интересная модель, мультимодальные варианты уже планирую рассмотреть в v2 — для сценариев "учитель фотографирует материал → модель извлекает структуру".

А можно больше деталей? Речь идет о генерации задач, материалов? По каким дисциплинам? Почему fine tuning а не rag? Были ли у вас r&d , неужели системный Промт + rag не вывез бы этот кейс?

Речь про генерацию учебных задач / материалов / характеристик по основным предметам школьной программы РФ (с фокусом на русский, математику, физику, английский в v1).

Выбрали fine-tune, а не чистый RAG, по трём причинам:
1. latency на учительских рабочих потоках — RAG добавляет 1-2 сек + нужен качественный корпус в быстром доступе;
2. cost-per-call — fine-tuned модель на одной on-prem GPU против модели с оверхедом + RAG-индекс;
3. on-prem deploy под 152-ФЗ (школы не могут отправлять данные учеников в облако, соответственно все равно размещать модели у себя или в ДЦ, а значит что RAG по cost/value уже не в фаворе).

R&D были со своими нюансами — системный промт + RAG покрывает ~60-70% кейсов, fine-tune добавляет ещё 25-30% за счёт глубины / стиля / терминологии.

В v2 планируем гибрид (fine-tune + RAG на топе) для длинных методических материалов.

p.s. но за идею для публичного бенча - спасибо, постараюсь сделать

А можно ли использовать анонимизацию данных для соблюдения закона? К примеру, openai выпустил для этого опенсорс модель. Не решит ли это сразу массу вопросов? Или есть какие-то подводные камни?

GPT-5.4 — вообще нельзя дообучить

На сколько я помню, у них есть фишка для до обучения. По крайней мере была как и у gemini

Именно файтюн

Вы бы могли сэкономить на генерации данных, использовав бесплатные прокси этих моделей. Ведь технически эти модели недоступны в России)

и 30к примеров это не так много, даже если выстраивать более сложный пайплайн

30к за датасет из 30к пар дороговато. Чатгпт делает датасеты по 150к за 10 мин + сделать скрипт доочистки мусора, дублей и шума.

И строить датасеты только на парах запрос - ответ так себе. Базовая модель не будет поддерживать reasoning, потом начнёт уходить в дрифт.

Справедливое замечание.

30К — это end-to-end стоимость: генерация + анализ + дедупликация + качественная проверка (оценка 3 судьями-LLM через EduBench-RU методологию).

Прямая генерация через ChatGPT API действительно кажется дешевле, но на production-grade доменной задаче модель на чистых "вопрос-ответ" парах уходит в дрифт как раз.

Во второй версии датасета буду публиковать полный breakdown, про reasoning — в следующем релизе планирую full DoRA + PiSSA + DPO пайплайн, там reasoning будет держаться лучше по моим расчетам.

Спасибо за комментарий — это ровно те детали, которые стоит публиковать открыто, принял к сведению.

Советую отказаться от LoRa, смотреть в сторону MoE и новый метод дообучения предложенный Allen Institute for AI BAR (Branch-Adapt-Route) . https://www.reddit.com/r/LocalLLaMA/comments/1srrgkw/xpost_allen_ai_bar_train_domain_experts_merge/

GigaChat-2 Max набрал 2.39 из 4, YandexGPT 5.1 Pro — 2.51. Ответ простой: в обучающей выборке этих моделей мало российских школьных задач, они оптимизированы под чат, не под образовательную деятельность.

Дело не в этом, а в том, что они зацензурены в угоду качеству. Причем имеет место самоцензура компаний. А с нейро...штуками там не угадаешь. Вот в 50 годы лоботомирование настоящим живым людям делали и считали это благом. По сути отрезание части мозга. Работало так себе, но в целом - меньше агрессия, меньше творчества, меньше психозов (это так считалось). Вот и с моделями то же самое, отрезают некую часть мозга в угоду цензуре а потом удивляются, чего оно тупее в математике стало или в программировании которое вообще не относится к зацензуренной теме. Потому что все взаимосвязано, и даже китайцы в своем дипсике с вопросами "тяньаньмень" зацензурили это большим системным промптом, который вполне себе обходится, если вырезать просто часть мозгов - умнее оно от этого не станет, и они это поняли. А у нас как принято у сапогов - а, эт не надо, это тоже не надо, и это не надо. Получился инвалид, который работает на уровне локальной 4b модели. Идеология - сделать всех тупыми, даже ИИ, даже небо, даже ...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации