С современной литературой сложно из-за авторских прав. Возможно, я как-нибудь попробую обучить классификатор на газетных статьях, тем более что есть готовые датасеты.
Топонимы и имена достаточно важны для классификатора, у самых популярных типа London, Washington, America большие веса. Я без проверки не могу быть уверена, что это будет полезно. Если проверю, от добавлю в статью, спасибо. В полезности выбора именно первого и последнего слова в предложении у меня сомнения.
Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.
Мне интересно было узнать, справится ли алгоритм самостоятельно в выделении таких слов. Слова типа color и colour, а также слова, типичные для Америки и Великобритании, действительно получились с большими весами.
Имена и топонимы можно удалять, в ситуации с прессой вреда от них больше, чем пользы.
С современной литературой сложно из-за авторских прав. Возможно, я как-нибудь попробую обучить классификатор на газетных статьях, тем более что есть готовые датасеты.
Просто живу.
Выложила на github код, который использовала для сопоставления ссылок на Википедию.
Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.
Вы описали объем работ на хорошую PhD.