Как стать автором
Обновить

Комментарии 9

1. Токенизация по предложениям

Если кому-то надо проделать это с HTML, то можете попробовать мою github.com/KMiNT21/html2sent, которая предварительно «причесывает» HTML так, чтобы токенайзер NLTK более корректно распознавал предложения (точнее, их границы).
НЛО прилетело и опубликовало эту надпись здесь
Этот загнивающий Запад со своими примитивными языками...)
Всё бы хорошо, только одно НО: всё вышеперечисленное ориентировано на английский язык, с которым и работать проще и по которому уже тонны наработок. А вот по русскому языку информации очень и очень мало.
\w – одно слово;

Тут ошибка. В соответствии с документацией, \w — это один символ: буква, число или знак подчёркивания.
\w — Matches Unicode word characters; this includes most characters that can be part of a word in any language, as well as numbers and the underscore. If the ASCII flag is used, only [a-zA-Z0-9_] is matched.
Большое спасибо за бдительность, эта ошибка есть в оригинальной статье, однако при переводе я ее не заметил. Исправил \w и \W, шлю лучи добра и благодарности!

Спасибо за статью! Кажется разделы кода куда-то пропали (не отображаются).

А вам спасибо за бдительность :) Попробовал сейчас внести правки, но, увы, не вышло - это статья из корпоративного блога, а я уже не работаю в Voximplant, так что мои права доступа ограничены. Но я думаю, что если призвать на помощь авторов свежих статей, они смогут помочь ?

@leramnk @followmyutopia Экс-коллеги, привет ? Пожалуйста, как будет время, посмотрите в сорцы этой статьи - блоки кода почему-то пропали ? Спасибо большое!

В оригинале, если что, можно подсмотреть :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий