Pull to refresh

Comments 9

1. Токенизация по предложениям

Если кому-то надо проделать это с HTML, то можете попробовать мою github.com/KMiNT21/html2sent, которая предварительно «причесывает» HTML так, чтобы токенайзер NLTK более корректно распознавал предложения (точнее, их границы).
UFO just landed and posted this here
Этот загнивающий Запад со своими примитивными языками...)
Всё бы хорошо, только одно НО: всё вышеперечисленное ориентировано на английский язык, с которым и работать проще и по которому уже тонны наработок. А вот по русскому языку информации очень и очень мало.
\w – одно слово;

Тут ошибка. В соответствии с документацией, \w — это один символ: буква, число или знак подчёркивания.
\w — Matches Unicode word characters; this includes most characters that can be part of a word in any language, as well as numbers and the underscore. If the ASCII flag is used, only [a-zA-Z0-9_] is matched.
Большое спасибо за бдительность, эта ошибка есть в оригинальной статье, однако при переводе я ее не заметил. Исправил \w и \W, шлю лучи добра и благодарности!

Спасибо за статью! Кажется разделы кода куда-то пропали (не отображаются).

А вам спасибо за бдительность :) Попробовал сейчас внести правки, но, увы, не вышло - это статья из корпоративного блога, а я уже не работаю в Voximplant, так что мои права доступа ограничены. Но я думаю, что если призвать на помощь авторов свежих статей, они смогут помочь 🙏

@leramnk @followmyutopia Экс-коллеги, привет 👋 Пожалуйста, как будет время, посмотрите в сорцы этой статьи - блоки кода почему-то пропали 🙄 Спасибо большое!

В оригинале, если что, можно подсмотреть :)

Sign up to leave a comment.