Comments / Profile of daniel

Даниил Иванов@daniel_ivanov

User

Rating

Subscribers

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

Cпасибо, соглашусь про возможности модели, но я немного о другом. Текущая EduLLM-RU фокусируется на прикладных задачах как подготовка к урокам, проверочные материалы, квизы, проверка тетрадей в моем понимании все же процесс творческий, хоть и кажется рутиной, которую легко оптимизировать. Сложный вопрос, часто обсуждаем и пока результатами я не доволен.

3.6 27b - видел и уже занимаюсь, очень интересная модель, мультимодальные варианты уже планирую рассмотреть в v2 — для сценариев "учитель фотографирует материал → модель извлекает структуру".

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

daniel_ivanov Apr 23 at 17:12

Справедливое замечание.

30К — это end-to-end стоимость: генерация + анализ + дедупликация + качественная проверка (оценка 3 судьями-LLM через EduBench-RU методологию).

Прямая генерация через ChatGPT API действительно кажется дешевле, но на production-grade доменной задаче модель на чистых "вопрос-ответ" парах уходит в дрифт как раз.

Во второй версии датасета буду публиковать полный breakdown, про reasoning — в следующем релизе планирую full DoRA + PiSSA + DPO пайплайн, там reasoning будет держаться лучше по моим расчетам.

Спасибо за комментарий — это ровно те детали, которые стоит публиковать открыто, принял к сведению.

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

daniel_ivanov Apr 23 at 17:09

Речь про генерацию учебных задач / материалов / характеристик по основным предметам школьной программы РФ (с фокусом на русский, математику, физику, английский в v1).

Выбрали fine-tune, а не чистый RAG, по трём причинам:
1. latency на учительских рабочих потоках — RAG добавляет 1-2 сек + нужен качественный корпус в быстром доступе;
2. cost-per-call — fine-tuned модель на одной on-prem GPU против модели с оверхедом + RAG-индекс;
3. on-prem deploy под 152-ФЗ (школы не могут отправлять данные учеников в облако, соответственно все равно размещать модели у себя или в ДЦ, а значит что RAG по cost/value уже не в фаворе).

R&D были со своими нюансами — системный промт + RAG покрывает ~60-70% кейсов, fine-tune добавляет ещё 25-30% за счёт глубины / стиля / терминологии.

В v2 планируем гибрид (fine-tune + RAG на топе) для длинных методических материалов.

p.s. но за идею для публичного бенча - спасибо, постараюсь сделать

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

daniel_ivanov Mar 25 at 18:10

Спасибо! Честно скажу - меня очень удивили модели Gemini в связке с заданиями на чувашском (локальный для нас, которым пользуются довольно многие) языке. GPT / Claude на данный момент все же по рейтингам в моей голове выше Gemini были.

Qwen3.5-9b — хорошая идея, добавлю в следующий раунд, но пока что взял 27b с планом на дистилл, сейчас первая итерация закончена, готовлю материал. Интересно посмотреть, как маленькие модели справляются с задачами, где нужна специфическая предметная база.

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

daniel_ivanov Mar 25 at 18:08

Согласен — проверка тетрадей это ежедневная боль, и ни одна нейросеть пока не умеет смотреть на рукописный текст ученика (OCR есть и в принципе может работать с любым текстом, но есть нюансы) и проверять его содержательно.

Бенчмарк сознательно сфокусирован на другом слое: подготовка к урокам, формирование характеристик, генерация заданий, адаптация материалов под разные группы учеников. Это не проверка тетрадей — но это часы работы каждую неделю.

Ваш комментарий важный — если бенчмарк не покрывает главную боль, его практическая ценность ограничена. Буду думать, как добавить задачи ближе к ежедневным, для чего планирую живой пилот в школе. Скептицизма уже услышал много :)

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

daniel_ivanov Mar 25 at 18:05

Вопрос отличный и я тоже им задался после первого отчета :)

Тестировал: GigaChat-2 (Lite, Pro, Max) и YandexGPT (5 Lite, 5.1 Pro) — все пять входят в расширенный тест, готовлю к релизу. Результат: места с 21 по 28. GigaChat-2 Max набрал 2.39/4.0, YandexGPT 5.1 Pro — 2.51/4.0.

Для сравнения: дообученная открытая модель на 27B параметров набрала 3.21/4.0. Разница — не в размере модели, а в том, есть ли в обучающей выборке российские прикладные знания. У GigaChat и YandexGPT, видимо, этого слоя недостаточно.

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

daniel_ivanov Mar 25 at 18:04

Бенчмарк содержит 5 категорий задач — технологические карты уроков по ФГОС, подготовка к ОГЭ/ЕГЭ, характеристики учеников, работа с родителями, адаптация под региональный контекст.

Каждый ответ оценивается по 5 параметрам (педагогическое качество, язык, фактология, применимость, региональный контекст) тремя независимыми судьями (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro добавлена сегодня).

Планируется пилот для использования в реальных условиях.

Сам бенчмарк открытый: github.com/csylabs-org/edubench-ru — можно посмотреть и задания, и текущую методологию оценки.

Information

Specialization