Comments 8
всё больше сервисов используют NLP: чат-боты, в которых больше не нужно выбирать готовые ответы,Предлагаю вниманию интересующихся рекламу нового бесплатного(*) мессенджера, в котором для реги даже почту не спрашивают(**), а монетизируется он (уже вчера!) как раз чат-ботами из своего магазина snatchapp.me
Цель коммента: найти мне компанию собеседников для тестирования на русском.
(*) Threema ст0ит офигительных денег, для реги не спрашивает ничего, но свои уникальные(sic!) контакты безальтернативно пихает в общую андроид-книгу… но зачем?
Еще несколько пристойных в разной степени IM «без реги» тоже имеют свои заморочки…
(**) супер-пупер-секретный(***) и бесплатный Сигнал купил даже Сноудена, но до сих пор не может (имхо — не хочет и не будет) отказ(ыв)аться от реги на сотовый(***), и даже ники все никак не осилит, гы…
-2
Какие из них (spacy и NLTK) поддерживают русский?
+1
Я думаю что у NLTK с этим дела получше, хотя бы даже учитывая его большую известность. Официальные модели пока в процессе разработки.
0
Теоретически, и тот, и другой поддерживают русский. Но в NLPK поддержка русского языка совсем мизерная. Насколько я знаю, в NLTK есть только корпус русских стоп-слов (предлоги, союзы и т.д.). Все остальное про русский язык ему неведомо.
В spaСy есть поддержка разметки частей речи (POS-tagging) для русского, НО она сделано через сторонний анализатор pymorphy2. Всех остальных приятных вещей вроде синтаксического анализа, предобученных векторов слов и прочего (что там доступно, например для английского) там нет. Единственный луч надежды — это гибкая архитектура spaCy, позволяющая под его API прикручивать любые расширения и добавлять другие языки.
В общем NLTK почти не поддерживает русский, spaCy поддерживает его немного.
В spaСy есть поддержка разметки частей речи (POS-tagging) для русского, НО она сделано через сторонний анализатор pymorphy2. Всех остальных приятных вещей вроде синтаксического анализа, предобученных векторов слов и прочего (что там доступно, например для английского) там нет. Единственный луч надежды — это гибкая архитектура spaCy, позволяющая под его API прикручивать любые расширения и добавлять другие языки.
В общем NLTK почти не поддерживает русский, spaCy поддерживает его немного.
0
Sign up to leave a comment.
Краткий обзор NLP библиотеки SpaСy