Как стать автором
Обновить
83.6
Криптонит
Разрабатываем. Исследуем. Просвещаем

Тематическое моделирование и стоп-слова для ИИ

Искусственный интеллект склонен к мазохизму: он будет выполнять лишнюю работу, если его не остановить. Чтобы ИИ не страдал напрасно (а пользователь не ждал слишком долго), разработчики придумали механизмы ограничений.

К одним из них относится использование стоп-слов — перечня терминов общей лексики, не несущих смысловой нагрузки и встречающихся в документах на любые темы. Например, это предлоги, междометия, вводные слова и словосочетания. Они просто игнорируются при анализе текста.

Стоп-слова используются для оптимизации тематического моделирования (topic modeling) — метода, который выявляет скрытые темы в коллекции текстов или относит их к заранее определенному списку тем.

Построение тематической модели основано на вычислении семантических векторов, характеризующих степень принадлежности документа к каждой из тем. Векторы вычисляются для всех терминов уже после отбрасывания стоп-слов. Это позволяет быстрее определять, каким темам соответствует анализируемый набор текстов, и какие наборы слов характерны для каждой из них.

Эффективность тематического моделирования зависит от качества семантических векторов. Чем больше модель «видела» текстов при обучении, тем лучше она будет охватывать семантическую составляющую каждого слова.

Тематическое моделирование применяется в поисковых системах, социальных сетях, новостных интеграторах, научных библиотеках и даже в биоинформатике — для поиска генетических последовательностей.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Публикации

Информация

Сайт
kryptonite.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия