Comments 9
1. Токенизация по предложениям
Если кому-то надо проделать это с HTML, то можете попробовать мою github.com/KMiNT21/html2sent, которая предварительно «причесывает» HTML так, чтобы токенайзер NLTK более корректно распознавал предложения (точнее, их границы).
0
UFO just landed and posted this here
Всё бы хорошо, только одно НО: всё вышеперечисленное ориентировано на английский язык, с которым и работать проще и по которому уже тонны наработок. А вот по русскому языку информации очень и очень мало.
0
\w – одно слово;
Тут ошибка. В соответствии с документацией, \w — это один символ: буква, число или знак подчёркивания.
\w — Matches Unicode word characters; this includes most characters that can be part of a word in any language, as well as numbers and the underscore. If the ASCII flag is used, only [a-zA-Z0-9_] is matched.
+1
Спасибо за статью! Кажется разделы кода куда-то пропали (не отображаются).
+1
А вам спасибо за бдительность :) Попробовал сейчас внести правки, но, увы, не вышло - это статья из корпоративного блога, а я уже не работаю в Voximplant, так что мои права доступа ограничены. Но я думаю, что если призвать на помощь авторов свежих статей, они смогут помочь 🙏
@leramnk @followmyutopia Экс-коллеги, привет 👋 Пожалуйста, как будет время, посмотрите в сорцы этой статьи - блоки кода почему-то пропали 🙄 Спасибо большое!
+1
Sign up to leave a comment.
Основы Natural Language Processing для текста