Комментарии / Профиль aski / Хабр

Askold Romanov@aski

AI Product, a bit of an engineer

Рейтинг

Подписчики

От линейного текста к семантическому графу: строим knowledge‑extraction‑пайплайн для учёбы

Embeddings (text-embedding-3-small) в нашем случае используются для двух задач: дедупликация и поиск кандидатов для дальних связей в Refiner. В обоих случаях мы сравниваем тексты внутри одного и того же учебного материала — то есть модель эмбеддингов работает в рамках одного домена и одного языка. На практике пяти доменов (CS, экономика, менеджмент, маркетинг, коммуникации) адаптация эмбеддингов не потребовалась — общие модели справляются, когда сравнение идёт «внутри» материала, а не «между» разными областями.

От линейного текста к семантическому графу: строим knowledge‑extraction‑пайплайн для учёбы

aski 7 часов назад

Спасибо за развёрнутый комментарий и опыт 01Математика — интересно сравнить подходы.

По сущностям — согласен, что PREREQUISITE и его значимость это ядро. Но остальные типы рёбер у нас не дублируют то, что можно вычислить алгоритмически на графе — они несут информацию, которую LLM извлекает из текста на этапе построения. Убрать их — потерять часть семантики, которую потом не восстановить алгоритмически.

По масштабу графа — мы сознательно фокусируемся на графах до 400–500 вершин: семестровый-двухсеместровый курс, крупная тема. Для связи между курсами и дисциплинами проектируем мета-словари (concept bridges между отдельными графами), а не один гигантский граф. Граф на 7 000 вершин, на мой взгляд, уже сложно использовать как единую рабочую единицу в образовательных сценариях — но тут, конечно, зависит от задачи.

По школьной математике — честно: целенаправленно не тестировали. Наш фокус сейчас — курсы уровня старшей школы, вуза и онлайн-образования. Школьная математика — интересный кейс, но пока за пределами текущих экспериментов.

От линейного текста к семантическому графу: строим knowledge‑extraction‑пайплайн для учёбы

aski 7 часов назад

Никакого хардкода — это конфигурируемый параметр. Подбираем его из педагогического смысла: практика показывает, что кластеры больше ~25-30 вершин уже сложно использовать в образовательных сценариях (учебные пути, диагностика пробелов), а слишком мелкие теряют тематическую целостность.

Поведение параметра при этом нелинейное: при увеличении resolution крупные кластеры дробятся, а небольшие долго остаются стабильными — до определённой точки, после которой структура начинает сыпаться. В обратную сторону — аналогично. Так что на практике есть довольно чёткий диапазон, в котором разбиение осмысленно, и он подбирается эмпирически под конкретный учебный материал.