А как была получена цифра 85% — проверяли 1000 слов вручную? Или как-то автоматизировали этот процесс? Поделитесь тестовыми данными?
Хранить все слова в словаре в явном виде (и тем более генерировать незнакомые словоформы для хранения) — идея, конечно, странная. Но было бы интересно сравнить (по качеству) такой предсказатель «на статистике слогов» с предсказателем на префиксах и суффиксах, который используется в том же lemmatizer или pymorphy.
Проверить вручную 1000 записей оказалось не так сложно. Заняло это порядка 2-3 часов (почти нечего по сравнению с 3 днями основной работы).
В явном виде хранятся для решения проблем чередования букв в корне при склонениях и подобных проблем.
Но не хочу вводить в заблуждение — ЭТА база используется лишь для хранения оригиналов, простоты редактирования и для облегчения сбора статистики. Для работы морф. модуля строится специальное дерево.
Использование статистических методов для генерации парадигмы по каноническим формам новых слов