• Задача: извлечь ключевые выражения из текста на русском языке. NLP на Python

    Что было нужно в самом начале:

    • программа, «выуживающая» из сырого текста на русском языке уникальные названия продукции по определенной отрасли. Сырой текст — текст, который писал человек, просто излагая свои мысли и не заботясь о формировании или выделении какого-либо списка слов;
    • автоматически получаемый список слов;
    • минимальная ручная или автоматизированная обработка для преобразования списка в набор хештегов или ключевых слов к тексту.

    Полагаю, что неявно с проблемой многие сталкиваются ежедневно, после написания или анализа статьи, поста, комментария, заметки, отчета и т.д. Вот и мне по роду деятельности приходилось сталкиваться с данной проблемой по многу раз в день. Поэтому, можно сказать, к идее автоматизации меня привела «лень», в хорошем смысле этого слова.

    Сейчас, когда я пишу эту статью, сохранилась идея, но набор данных конечного результата сильно изменился:

    • выбираются не слова, а ключевые выражения и в том числе слова;
    • список ключевых выражений размечен 16-ю различными маркерами;
    • все слова текста (в том числе и не ключевые) лемматизированы – приведены в начальную форму или унифицированы под выведенный формат;
    • каждое слово в тексте имеет дополнительную аналитику, относящуюся к положению по тексту и числу повторений.

    Результаты работы ПО nrlpk (Natural Russian Language Processing by the Keys) подготавливают данные для:

    • анализа текстов неограниченного круга тематик и отраслей (разработка и тестирование проводилось по материалам тематики промышленности и ВПК — Военно-Промышленного Комплекса);
    • автоматической рубрикации, классификации, каталогизации, предметизации материалов (online площадки);
    • контроля и фильтрации по содержимому с настройками реакции системы (службам и системам безопасности в замкнутых контурах или online);
    • многослойной разметки текстов (ИИ).

    Качество

    Открыть полный текст