Определение, конечно не 100%, но можно легко дорабатывать.
Тяжело дорабатывать. Вплоть до того, что у вас будет протегированый весь словарь. Это ж сколько правил.
И даже это не даст хороших результатов.
Часть речи обычно очень сильно зависит от контекста, который у вас, как я понимаю, никак не учитывается. Как по мне, лучше сочетать rule-based подход со статистическим.
Кстати, у меня в школе была исследовательская работа по астрономии связана с прохождением Венеры по диску солнца. По видеозаписи считали период обращения Венеры и угол наклона эклиптики. Ностальгия, блин.
Да, идея. Тут будет задействован Integer Generator, но проблема в том что методы либы не гарантировано возвращают результат, так как во время генерации может произойти ошибка 503. Тут уже надо кетчить ошибку, чтоб использовать интерфейс java.util.Random,
Зависит от задачи. Например, там есть возможность за раз выкачать pregenerated числа и при запросе рендома, использовать эти результаты уже без обращения к серверу.
Тяжело дорабатывать. Вплоть до того, что у вас будет протегированый весь словарь. Это ж сколько правил.
И даже это не даст хороших результатов.
Часть речи обычно очень сильно зависит от контекста, который у вас, как я понимаю, никак не учитывается. Как по мне, лучше сочетать rule-based подход со статистическим.
Если уж быть более формальным то в N-k