Как стать автором
Обновить
3
0

Пользователь

Отправить сообщение
В самом начале работы я посмотрел на существующие (наиболее известные) пакеты под python, которые позволят или помогут решить задачу. Вообще их очень много, но по большей части они разбились на группы:
1. не поддерживают или не очень хорошо поддерживают русский язык
2. поддерживают русский язык, но ключевая задача — качественный морфологический анализ
3. поддерживают русский язык, но ключевая задача — выявление ключей заданной, узкой направленности, в ряде случаев, через словари.

По мере поиска и выбора я естественно вышел и на Наташу. К счастью они уже сделали анализ инструментов по работе с русским языком, с которым я на тот момент также познакомился.

В итоге мой выбор остановился на, как мне кажется, наиболее сильных пакетах в этой области — NLTK и pymorhy2.

NLTK отпал после токенизации предложений первых же трех текстов на русском языке.
pymorhy2 мне понравился. НО, он решает задачи морфологии, а моя задача была выявление ключевых слов до анализа, а позже уже и не слов, а ключевых выражений. Многие слова, из признанных мной ключами получат в Pymorhy2 дополнительную гарммему UNKN — токен неидентифицирован, и это, для решаемой pymorhy задачи, абсолютно верный вывод.
Но для моей задачи — МиГ-29 не UNKN, это однозначно ключевое слово, которое должно иметь значимую для дальнейшего анализа граммему.

Кроме того, в этом же тексте присутствует название программы nrlpk и ещё расшифровка — Natural Russian Language Processing by the Keys. Тот, кто писал текст умышленно сделал так, чтобы читателю было очевидно, что это — значимые сущности текста, и что это одно и тоже понятие.

Мне хотелось, чтобы и машина это «увидела», чтобы где-то (сейчас это в поле lemm) это и стало одним и тем-же.
Но для этого нельзя было допустить пословной токенизации до завершения анализа текста и выбора значимых выражений. И вот здесь мы разошлись в идеологии с pymorhy2.

Т.е. по сути, я просто решаю немного иную задачу.
Нет.
Открытие кода будет препятствовать досиижению сразу двух целей:
  1. поиску стратегического инвестора или нового владельца
  2. выбранным направлениям развития продукта.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность