Как стать автором
Обновить

Комментарии 4

А можно пожалуйста во все примеры ещё добавить результаты на выходе?

В примерах для русскоязычного текста используется токенизатор английского (Tokenizer("english")). Это ошибка или так и задумано? Неужели нет разницы?

И стоит добавить в примеры:

import nltk
nltk.download('punkt')


без этого не завелось

_pickle.UnpicklingError: global 'nltk.tokenize.punkt.PunktSentenceTokenizer' is forbidden

вот такая проблема возникает

Зарегистрируйтесь на Хабре, чтобы оставить комментарий