nvpushkarskiy2 15 апр 2019 в 08:54

Основы Natural Language Processing для текста

12 мин

197K

Блог компании VoximplantPython*Программирование*Машинное обучение*

Перевод

+29

Комментарии 9

KMiNT21 15 апр 2019 в 13:00

1. Токенизация по предложениям

Если кому-то надо проделать это с HTML, то можете попробовать мою github.com/KMiNT21/html2sent, которая предварительно «причесывает» HTML так, чтобы токенайзер NLTK более корректно распознавал предложения (точнее, их границы).

НЛО прилетело и опубликовало эту надпись здесь

Nikulio 15 апр 2019 в 23:54

Этот загнивающий Запад со своими примитивными языками...)

-1

vaservaser 22 апр 2019 в 14:16

Всё бы хорошо, только одно НО: всё вышеперечисленное ориентировано на английский язык, с которым и работать проще и по которому уже тонны наработок. А вот по русскому языку информации очень и очень мало.

Cuckoops 31 мая 2020 в 14:29

\w – одно слово;

Тут ошибка. В соответствии с документацией, \w — это один символ: буква, число или знак подчёркивания.

\w — Matches Unicode word characters; this includes most characters that can be part of a word in any language, as well as numbers and the underscore. If the ASCII flag is used, only [a-zA-Z0-9_] is matched.

nvpushkarskiy2 16 июн 2020 в 12:11

Большое спасибо за бдительность, эта ошибка есть в оригинальной статье, однако при переводе я ее не заметил. Исправил \w и \W, шлю лучи добра и благодарности!

iasonov 26 авг 2022 в 21:41

Спасибо за статью! Кажется разделы кода куда-то пропали (не отображаются).

nvpushkarskiy2 28 авг 2022 в 23:39

А вам спасибо за бдительность :) Попробовал сейчас внести правки, но, увы, не вышло - это статья из корпоративного блога, а я уже не работаю в Voximplant, так что мои права доступа ограничены. Но я думаю, что если призвать на помощь авторов свежих статей, они смогут помочь ?

@leramnk @followmyutopia Экс-коллеги, привет ? Пожалуйста, как будет время, посмотрите в сорцы этой статьи - блоки кода почему-то пропали ? Спасибо большое!

iasonov 29 авг 2022 в 07:49

В оригинале, если что, можно подсмотреть :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий