nvpushkarskiy2 Apr 15 2019 at 08:54

Основы Natural Language Processing для текста

12 min

191K

Voximplant corporate blogPython*Programming*Machine learning*

Translation

+29

Comments 9

KMiNT21 Apr 15 2019 at 13:00

1. Токенизация по предложениям

Если кому-то надо проделать это с HTML, то можете попробовать мою github.com/KMiNT21/html2sent, которая предварительно «причесывает» HTML так, чтобы токенайзер NLTK более корректно распознавал предложения (точнее, их границы).

UFO just landed and posted this here

Nikulio Apr 15 2019 at 23:54

Этот загнивающий Запад со своими примитивными языками...)

-1

vaservaser Apr 22 2019 at 14:16

Всё бы хорошо, только одно НО: всё вышеперечисленное ориентировано на английский язык, с которым и работать проще и по которому уже тонны наработок. А вот по русскому языку информации очень и очень мало.

Cuckoops May 31 2020 at 14:29

\w – одно слово;

Тут ошибка. В соответствии с документацией, \w — это один символ: буква, число или знак подчёркивания.

\w — Matches Unicode word characters; this includes most characters that can be part of a word in any language, as well as numbers and the underscore. If the ASCII flag is used, only [a-zA-Z0-9_] is matched.

nvpushkarskiy2 Jun 16 2020 at 12:11

Большое спасибо за бдительность, эта ошибка есть в оригинальной статье, однако при переводе я ее не заметил. Исправил \w и \W, шлю лучи добра и благодарности!

iasonov Aug 26 2022 at 21:41

Спасибо за статью! Кажется разделы кода куда-то пропали (не отображаются).

nvpushkarskiy2 Aug 28 2022 at 23:39

А вам спасибо за бдительность :) Попробовал сейчас внести правки, но, увы, не вышло - это статья из корпоративного блога, а я уже не работаю в Voximplant, так что мои права доступа ограничены. Но я думаю, что если призвать на помощь авторов свежих статей, они смогут помочь 🙏

@leramnk @followmyutopia Экс-коллеги, привет 👋 Пожалуйста, как будет время, посмотрите в сорцы этой статьи - блоки кода почему-то пропали 🙄 Спасибо большое!

iasonov Aug 29 2022 at 07:49

В оригинале, если что, можно подсмотреть :)