Согласен, метод не быстрый, но, наряду с DLA, позволяет решать задачи, которые не могут решить другие алгоритмы.
В следующих частях хотелось бы подробнее остановиться на технических деталях, объяснить принцип работы алгоритма и рассказать, как его реализовать.
Согласен, тематику нужно определять автоматически. Не сказал бы, это простая задача: легко кластеризовать тематику кулинария, и, скажем, автомобили, но кластеризовать поток новостей, например, на 30-50 тематик с точностью хотя бы 85-90% — задача не из легких.
Если мы говорим про контекстную зависимость, например, подключаем н-граммы, то это уже не только синтаксис, а и примитивная семантика. Да, так будет работать, даже с неплохой точностью, но не очень хорошим покрытием. Использование синтаксиса в чистом виде для языков грамматического типа, как нами употребляемый, мало что даст.
И главное, это зависит от решаемой задачи: искать синонимы, пополнять тезаурусы — это да, есть методы и попроще. ЛСА — это не метод классификации или кластеризации (ибо тяжеловат он для этого). Его используют, когда нужно получить меру ассоциативной близости двух разнородных лексически, но однородных семантичеки документов, например. Или построить ассоциативно-семантичесукую сеть.
Сообщения, содержащие подобные друг-другу слова на аналогичных синтаксических позициях — говорят об одном и том-же. То есть, имеют близкий смысл.
— это, разумеется, неверно.
Для того, чтобы различать «батарейку» и «аккумулятор» в разных тематиках можно:
1) строить тематические модели, т.е. на каждую тему своя модель;
2) построить одну модель, но в качестве документа при преобразовании использовать тематически однородный материал.
www.u-kraina.com не найден из-за ошибки поиска DNS
В следующих частях хотелось бы подробнее остановиться на технических деталях, объяснить принцип работы алгоритма и рассказать, как его реализовать.
Если мы говорим про контекстную зависимость, например, подключаем н-граммы, то это уже не только синтаксис, а и примитивная семантика. Да, так будет работать, даже с неплохой точностью, но не очень хорошим покрытием. Использование синтаксиса в чистом виде для языков грамматического типа, как нами употребляемый, мало что даст.
И главное, это зависит от решаемой задачи: искать синонимы, пополнять тезаурусы — это да, есть методы и попроще. ЛСА — это не метод классификации или кластеризации (ибо тяжеловат он для этого). Его используют, когда нужно получить меру ассоциативной близости двух разнородных лексически, но однородных семантичеки документов, например. Или построить ассоциативно-семантичесукую сеть.
— это, разумеется, неверно.
Для того, чтобы различать «батарейку» и «аккумулятор» в разных тематиках можно:
1) строить тематические модели, т.е. на каждую тему своя модель;
2) построить одну модель, но в качестве документа при преобразовании использовать тематически однородный материал.