Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Но такие правила (с небольшими изменениями) действуют не во всех информационных доменах – при изменении правил оформления документов или наборного персонала требуется вносить изменения для повышения качества выделения предложений.
The Punkt sentence tokenizer. The algorithm for this tokenizer is described in Kiss & Strunk (2006):
Kiss, Tibor and Strunk, Jan (2006): Unsupervised Multilingual Sentence
Boundary Detection. Computational Linguistics 32: 485-525.)
Графематический модуль. Выделение предложений