Комментарии 9
1. Токенизация по предложениям
Если кому-то надо проделать это с HTML, то можете попробовать мою github.com/KMiNT21/html2sent, которая предварительно «причесывает» HTML так, чтобы токенайзер NLTK более корректно распознавал предложения (точнее, их границы).
0
НЛО прилетело и опубликовало эту надпись здесь
Всё бы хорошо, только одно НО: всё вышеперечисленное ориентировано на английский язык, с которым и работать проще и по которому уже тонны наработок. А вот по русскому языку информации очень и очень мало.
0
\w – одно слово;
Тут ошибка. В соответствии с документацией, \w — это один символ: буква, число или знак подчёркивания.
\w — Matches Unicode word characters; this includes most characters that can be part of a word in any language, as well as numbers and the underscore. If the ASCII flag is used, only [a-zA-Z0-9_] is matched.
+1
Спасибо за статью! Кажется разделы кода куда-то пропали (не отображаются).
+1
А вам спасибо за бдительность :) Попробовал сейчас внести правки, но, увы, не вышло - это статья из корпоративного блога, а я уже не работаю в Voximplant, так что мои права доступа ограничены. Но я думаю, что если призвать на помощь авторов свежих статей, они смогут помочь ?
@leramnk @followmyutopia Экс-коллеги, привет ? Пожалуйста, как будет время, посмотрите в сорцы этой статьи - блоки кода почему-то пропали ? Спасибо большое!
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Основы Natural Language Processing для текста