Cпасибо, соглашусь про возможности модели, но я немного о другом. Текущая EduLLM-RU фокусируется на прикладных задачах как подготовка к урокам, проверочные материалы, квизы, проверка тетрадей в моем понимании все же процесс творческий, хоть и кажется рутиной, которую легко оптимизировать. Сложный вопрос, часто обсуждаем и пока результатами я не доволен.
3.6 27b - видел и уже занимаюсь, очень интересная модель, мультимодальные варианты уже планирую рассмотреть в v2 — для сценариев "учитель фотографирует материал → модель извлекает структуру".
30К — это end-to-end стоимость: генерация + анализ + дедупликация + качественная проверка (оценка 3 судьями-LLM через EduBench-RU методологию).
Прямая генерация через ChatGPT API действительно кажется дешевле, но на production-grade доменной задаче модель на чистых "вопрос-ответ" парах уходит в дрифт как раз.
Во второй версии датасета буду публиковать полный breakdown, про reasoning — в следующем релизе планирую full DoRA + PiSSA + DPO пайплайн, там reasoning будет держаться лучше по моим расчетам.
Спасибо за комментарий — это ровно те детали, которые стоит публиковать открыто, принял к сведению.
Речь про генерацию учебных задач / материалов / характеристик по основным предметам школьной программы РФ (с фокусом на русский, математику, физику, английский в v1).
Выбрали fine-tune, а не чистый RAG, по трём причинам: 1. latency на учительских рабочих потоках — RAG добавляет 1-2 сек + нужен качественный корпус в быстром доступе; 2. cost-per-call — fine-tuned модель на одной on-prem GPU против модели с оверхедом + RAG-индекс; 3. on-prem deploy под 152-ФЗ (школы не могут отправлять данные учеников в облако, соответственно все равно размещать модели у себя или в ДЦ, а значит что RAG по cost/value уже не в фаворе).
R&D были со своими нюансами — системный промт + RAG покрывает ~60-70% кейсов, fine-tune добавляет ещё 25-30% за счёт глубины / стиля / терминологии.
В v2 планируем гибрид (fine-tune + RAG на топе) для длинных методических материалов.
p.s. но за идею для публичного бенча - спасибо, постараюсь сделать
Спасибо! Честно скажу - меня очень удивили модели Gemini в связке с заданиями на чувашском (локальный для нас, которым пользуются довольно многие) языке. GPT / Claude на данный момент все же по рейтингам в моей голове выше Gemini были.
Qwen3.5-9b — хорошая идея, добавлю в следующий раунд, но пока что взял 27b с планом на дистилл, сейчас первая итерация закончена, готовлю материал. Интересно посмотреть, как маленькие модели справляются с задачами, где нужна специфическая предметная база.
Согласен — проверка тетрадей это ежедневная боль, и ни одна нейросеть пока не умеет смотреть на рукописный текст ученика (OCR есть и в принципе может работать с любым текстом, но есть нюансы) и проверять его содержательно.
Бенчмарк сознательно сфокусирован на другом слое: подготовка к урокам, формирование характеристик, генерация заданий, адаптация материалов под разные группы учеников. Это не проверка тетрадей — но это часы работы каждую неделю.
Ваш комментарий важный — если бенчмарк не покрывает главную боль, его практическая ценность ограничена. Буду думать, как добавить задачи ближе к ежедневным, для чего планирую живой пилот в школе. Скептицизма уже услышал много :)
Вопрос отличный и я тоже им задался после первого отчета :)
Тестировал: GigaChat-2 (Lite, Pro, Max) и YandexGPT (5 Lite, 5.1 Pro) — все пять входят в расширенный тест, готовлю к релизу. Результат: места с 21 по 28. GigaChat-2 Max набрал 2.39/4.0, YandexGPT 5.1 Pro — 2.51/4.0.
Для сравнения: дообученная открытая модель на 27B параметров набрала 3.21/4.0. Разница — не в размере модели, а в том, есть ли в обучающей выборке российские прикладные знания. У GigaChat и YandexGPT, видимо, этого слоя недостаточно.
Бенчмарк содержит 5 категорий задач — технологические карты уроков по ФГОС, подготовка к ОГЭ/ЕГЭ, характеристики учеников, работа с родителями, адаптация под региональный контекст.
Каждый ответ оценивается по 5 параметрам (педагогическое качество, язык, фактология, применимость, региональный контекст) тремя независимыми судьями (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro добавлена сегодня).
Планируется пилот для использования в реальных условиях.
Сам бенчмарк открытый: github.com/csylabs-org/edubench-ru — можно посмотреть и задания, и текущую методологию оценки.
Cпасибо, соглашусь про возможности модели, но я немного о другом. Текущая EduLLM-RU фокусируется на прикладных задачах как подготовка к урокам, проверочные материалы, квизы, проверка тетрадей в моем понимании все же процесс творческий, хоть и кажется рутиной, которую легко оптимизировать. Сложный вопрос, часто обсуждаем и пока результатами я не доволен.
3.6 27b - видел и уже занимаюсь, очень интересная модель, мультимодальные варианты уже планирую рассмотреть в v2 — для сценариев "учитель фотографирует материал → модель извлекает структуру".
Справедливое замечание.
30К — это end-to-end стоимость: генерация + анализ + дедупликация + качественная проверка (оценка 3 судьями-LLM через EduBench-RU методологию).
Прямая генерация через ChatGPT API действительно кажется дешевле, но на production-grade доменной задаче модель на чистых "вопрос-ответ" парах уходит в дрифт как раз.
Во второй версии датасета буду публиковать полный breakdown, про reasoning — в следующем релизе планирую full DoRA + PiSSA + DPO пайплайн, там reasoning будет держаться лучше по моим расчетам.
Спасибо за комментарий — это ровно те детали, которые стоит публиковать открыто, принял к сведению.
Речь про генерацию учебных задач / материалов / характеристик по основным предметам школьной программы РФ (с фокусом на русский, математику, физику, английский в v1).
Выбрали fine-tune, а не чистый RAG, по трём причинам:
1. latency на учительских рабочих потоках — RAG добавляет 1-2 сек + нужен качественный корпус в быстром доступе;
2. cost-per-call — fine-tuned модель на одной on-prem GPU против модели с оверхедом + RAG-индекс;
3. on-prem deploy под 152-ФЗ (школы не могут отправлять данные учеников в облако, соответственно все равно размещать модели у себя или в ДЦ, а значит что RAG по cost/value уже не в фаворе).
R&D были со своими нюансами — системный промт + RAG покрывает ~60-70% кейсов, fine-tune добавляет ещё 25-30% за счёт глубины / стиля / терминологии.
В v2 планируем гибрид (fine-tune + RAG на топе) для длинных методических материалов.
p.s. но за идею для публичного бенча - спасибо, постараюсь сделать
Спасибо! Честно скажу - меня очень удивили модели Gemini в связке с заданиями на чувашском (локальный для нас, которым пользуются довольно многие) языке. GPT / Claude на данный момент все же по рейтингам в моей голове выше Gemini были.
Qwen3.5-9b — хорошая идея, добавлю в следующий раунд, но пока что взял 27b с планом на дистилл, сейчас первая итерация закончена, готовлю материал. Интересно посмотреть, как маленькие модели справляются с задачами, где нужна специфическая предметная база.
Согласен — проверка тетрадей это ежедневная боль, и ни одна нейросеть пока не умеет смотреть на рукописный текст ученика (OCR есть и в принципе может работать с любым текстом, но есть нюансы) и проверять его содержательно.
Бенчмарк сознательно сфокусирован на другом слое: подготовка к урокам, формирование характеристик, генерация заданий, адаптация материалов под разные группы учеников. Это не проверка тетрадей — но это часы работы каждую неделю.
Ваш комментарий важный — если бенчмарк не покрывает главную боль, его практическая ценность ограничена. Буду думать, как добавить задачи ближе к ежедневным, для чего планирую живой пилот в школе. Скептицизма уже услышал много :)
Вопрос отличный и я тоже им задался после первого отчета :)
Тестировал: GigaChat-2 (Lite, Pro, Max) и YandexGPT (5 Lite, 5.1 Pro) — все пять входят в расширенный тест, готовлю к релизу. Результат: места с 21 по 28. GigaChat-2 Max набрал 2.39/4.0, YandexGPT 5.1 Pro — 2.51/4.0.
Для сравнения: дообученная открытая модель на 27B параметров набрала 3.21/4.0. Разница — не в размере модели, а в том, есть ли в обучающей выборке российские прикладные знания. У GigaChat и YandexGPT, видимо, этого слоя недостаточно.
Бенчмарк содержит 5 категорий задач — технологические карты уроков по ФГОС, подготовка к ОГЭ/ЕГЭ, характеристики учеников, работа с родителями, адаптация под региональный контекст.
Каждый ответ оценивается по 5 параметрам (педагогическое качество, язык, фактология, применимость, региональный контекст) тремя независимыми судьями (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro добавлена сегодня).
Планируется пилот для использования в реальных условиях.
Сам бенчмарк открытый: github.com/csylabs-org/edubench-ru — можно посмотреть и задания, и текущую методологию оценки.