Обновить
64
Денис Кулагин@kdenisk

Компьютерная лингвистика

66
Подписчики
Отправить сообщение
Совершенно верное и правильно замечание. К сожалению для подсчёта двусочетаний такой подход не применим, т.к. у юниграмм частотность высокая почти у всех. Для триграмм и выше — очень помогает.
Обязательно посмотрю в этом направлении. Скажу, однако, что реализация всей идеи заняла у меня несколько часов и все вычисления, а также действия по агрегации, производятся в рамках одной JVM.
Вы отчасти правы. Но порог вхождения в Hadoop довольно высокий и в данной задаче вполне достаточно использования стандартных инструментов Java.
12 ...
9

Информация

В рейтинге
Не участвует
Откуда
Железнодорожный (Московск.), Москва и Московская обл., Россия
Зарегистрирован
Активность