Вся проблема именно в словаре. Например, мне попадался машиночитаемый Зализняк. Большой, подробный, со словоформами, но совершенно не было понятно, как его парсить: что конкретно означало первое поле, что второе и т.д.
Парсил сам, вообще в викисловаре есть не только разбивка на слоги, но и классификация по Зализняку, часть речи, семантика и многое другое. Результат, конечно, остался. По-хорошему это нужно куда-нибудь на github и поддерживать в виде текстовой БД для дальнейшего применения, у меня просто сейчас нет мотивации всё это привести к человеческому виду.
КлассикAI жанра: ML ищет себя в поэзии