Comments 5
Слабое исследование. Вместо того, чтобы использовать мат. статистику, пытаются искусственно вводить правила. Данный подход не будет учитывать динамику языка, его заимствования и прочие вещи. Правила конечно лучше чем BPE, но фактически и там и там используется просто частотный подход.
Хотите реально качественный скачек в токенизации, а не эти извращения, то надо рассматривать текст как условные вероятности, которые формируют цепи Маркова и собирать статистику по цепям Маркова, а не по частотным слияниям букв.

В данном случае, даже уже всего на 1000 примерах обучения разница будет огромная. И чем дальше обучение, тем сильнее эта разница заметнее. BPE и подход выше, так и будет оставаться в рамках частотных (случайных токенов), где модель пытается это исправить через обучение. И мы долго будем видеть шум и высокочастотные токены. В то время как при правильном подходе, даже на первых 100-400 примерах сразу будет видна разница и первые формирования устойчивых правил. Так как все эти правила и так собраны в статистику наиболее вероятных Марковских цепей.
(целые слова) — словарь раздувается до миллионов,
«Большой академический словарь русского языка» — около 150 тысяч слов. Это так называемый «золотой фонд» — литературная, стандартная лексика, которую используют в письме и официальной речи.
Но нет, надо же отсканировать миллион книг, чтобы модель обучить.
Интересная статья. Спасибо. Радует, что хоть кто-то работает в правильном направлении.
Интересно, как BPE кодирует тексты программ. Очевидно, ключевые слова должны быть одним отдельным токеном.
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей