Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Text text = new Text("book.txt"); // тестовый файл из комплекта
List<Word> words = text.getWords();
// Получаем количество вхождений слова в текст
long count = word.getCount();
// Смотрим вес слова
double weight = text.getWordWeight(word);
// Смотрим вес слова
double weight = word.getWeight();
GATE plugin for morphological analysis of russian languageУ меня одна из проблем эта метод определения равенства при поиске терма.
solr.EdgeNGramFilterFactory для каждого входящего терма генерит все префиксы как новые термы («тест» => «т», «те», «тес», «тест»), что позоволяет искать по префиксу. Да, это работает быстро. Да, это не стоит использовать для строк, но, к примеру хорошо идет для поиска в деревьях.
Text Mining Framework (Java)