Articles / Profile of dmitsf / Habr

dmitsf Jun 23 2014 at 12:33

Современные аспекты представления текстов при анализе естественного языка: классические и альтернативные подходы

9 min

10K

Введение

В computer science из года в год все более популярной становится тема обработки естественного языка. Из-за огромного количества задач, где требуется подобный анализ, сложно переоценить необходимость автоматической обработки текстовых документов.

В этой статье мы максимально просто постараемся описать наиболее популярные современные подходы к представлению текстовых документов для компьютерной обработки. А на одном из них, который в настоящее время еще не получил широкого распространения, однако имеет на это все шансы, остановимся более подробно, поскольку этот метод мы используем в SlickJump при разработке алгоритмов, например, контекстного таргетинга рекламы.

Отметим, что приводимые подходы применимы не только к текстам, а вообще к любым объектам, которые можно представить в виде символьных последовательностей, например, какие-нибудь макромолекулы (ДНК, РНК, протеины) из генетики. Всего мы рассмотрим 4 метода:

Признаковое описание.
Попарное наложение (выравнивание) текстов.
Формирование профиля и скрытой марковской модели.
Представление фрагментами.

Итак, приступим.

Читать дальше →

+19