Pull to refresh

Comments 8

всё больше сервисов используют NLP: чат-боты, в которых больше не нужно выбирать готовые ответы,
Предлагаю вниманию интересующихся рекламу нового бесплатного(*) мессенджера, в котором для реги даже почту не спрашивают(**), а монетизируется он (уже вчера!) как раз чат-ботами из своего магазина snatchapp.me

Цель коммента: найти мне компанию собеседников для тестирования на русском.

(*) Threema ст0ит офигительных денег, для реги не спрашивает ничего, но свои уникальные(sic!) контакты безальтернативно пихает в общую андроид-книгу… но зачем?
Еще несколько пристойных в разной степени IM «без реги» тоже имеют свои заморочки…

(**) супер-пупер-секретный(***) и бесплатный Сигнал купил даже Сноудена, но до сих пор не может (имхо — не хочет и не будет) отказ(ыв)аться от реги на сотовый(***), и даже ники все никак не осилит, гы…
Какие из них (spacy и NLTK) поддерживают русский?

Я думаю что у NLTK с этим дела получше, хотя бы даже учитывая его большую известность. Официальные модели пока в процессе разработки.

Теоретически, и тот, и другой поддерживают русский. Но в NLPK поддержка русского языка совсем мизерная. Насколько я знаю, в NLTK есть только корпус русских стоп-слов (предлоги, союзы и т.д.). Все остальное про русский язык ему неведомо.

В spaСy есть поддержка разметки частей речи (POS-tagging) для русского, НО она сделано через сторонний анализатор pymorphy2. Всех остальных приятных вещей вроде синтаксического анализа, предобученных векторов слов и прочего (что там доступно, например для английского) там нет. Единственный луч надежды — это гибкая архитектура spaCy, позволяющая под его API прикручивать любые расширения и добавлять другие языки.

В общем NLTK почти не поддерживает русский, spaCy поддерживает его немного.

Ну в целом, оно может и распарсить: colab

SpaCy — в каком-то смысле противоположность NLTK. Она значительно быстрее, так как она написана на Cython и работает с объектами, об этом дальше.

Я пытался использовать SpaCy для построения деревьев зависимостей (depparse), но он жутко тормозной по сравнению с тем же Stanza.

Спасибо за ценный комментарий. Не работал ещё со Stanford CoreNLP, но теперь появился повод)

Sign up to leave a comment.

Articles