@Edunov Dec 20 2010 at 07:33

Латентно-семантический анализ

4 min

103K

Algorithms *

From sandbox

+98

Comments 27

@aavezel Dec 20 2010 at 08:12

Осталось только повесить этот алгоритм на какой нибудь агрегатор новостей, и сделать индивидуальное ранжирование групп… Web 3.0 в действии…

@pixx Dec 20 2010 at 21:13

news.yandex.ru/

@aavezel Dec 21 2010 at 06:33

Нифига. Там нет кнопки Like/UnLike, да и групп там явно ограниченное количество…

UFO landed and left these words here

@kzn Dec 20 2010 at 08:32

Не совсем так. При использовании AOT потребуется еще один шаг — разрешение возможной омонимии.
В этом смысле Портер лучше :)

UFO landed and left these words here

@kzn Dec 20 2010 at 08:34

Еще плюс — Портер от словаря не зависит

UFO landed and left these words here

@JeanLouis Dec 20 2010 at 08:24

Поясните, пожалуйста, это:
«Дальше были исключены слова встречающиеся в единственном экземпляре.»
Где встречаются? В отдельных статьях/текстах? Или во всех статьях вместе/тестах?

@Edunov Dec 20 2010 at 08:30

В данной конкретной выборке. Например слово «Британская», возможно, в другой выборке оно было бы очень важно. Здесь же оно встречается только один раз и поэтому включать его в частотную матрицу нет смысла. Это просто оптимизация в целях экономии вычислительных ресурсов.

@SeriousDron Dec 20 2010 at 08:35

А если добавили новую статью все надо пересчитывать сначала?
Размерность и содержимое частотной матрицы изменится, некоторые слова могут появится поскольку станут встречаться не в одном экземпляре и т.п.
Или это как обучение, теперь мы знаем какие слова в какой сектор и новые просто смотрим уже по этому.

@Edunov Dec 20 2010 at 11:50

Если добавляется новая статья то можно не пересчитывать, но тогда вы не сможете выявить новые измерения (кластеры, группы).
Поэтому, на практике, имеет смысл регулярно пересчитывать, но не обязательно с каждой новой статьей.

@lightcaster Dec 20 2010 at 08:42

> В нашем случае тексты были примерно одной и той же длины, в реальных ситуациях частотную матрицу > следует нормализовать. Стандартный способ нормализации матрицы TF-IDF

TF-IDF не столько способ нормализации, сколько способ выделить наиболее значимые в рамках документа слова. Он максимален, если термин часто встречается в документе, и редко — во всем наборе документов.

В остальном хорошая статья на правильную тему.

ps кстати, не в курсе как работать с большим набором терминов? Обычно это проблема для LSA.

@lightcaster Dec 20 2010 at 08:46

… с большим набором терминов… — имел ввиду измерения.

@Edunov Dec 20 2010 at 11:55

Например, существуют алгоритмы случайной проекции. Описание на английском: www.rni.org/kanerva/cogsci2k-poster.txt

UFO landed and left these words here

@trurl123 Jun 8 2011 at 07:52

ссылка не работает

@edeldm Dec 20 2010 at 09:09

сравнивал автор алгоритм с другими? например с методом главных компонент?

@Edunov Dec 20 2010 at 11:57

PCA (метод главных компонент) и LSA чисто технически очень похожи, здесь не ставилась задача обзора всех возможных техник, но за идею спасибо, сравню и напишу результаты.

UFO landed and left these words here

@Edunov Dec 20 2010 at 12:17

Там ясно написано «В каждой ячейке матрицы указано какое количество раз слово встречается в соответствующем документе» Двоечку из заголовков новостей не выудишь, их авторы избегают повторения слов в названии.