Comments 27
Осталось только повесить этот алгоритм на какой нибудь агрегатор новостей, и сделать индивидуальное ранжирование групп… Web 3.0 в действии…
UFO just landed and posted this here
Поясните, пожалуйста, это:
«Дальше были исключены слова встречающиеся в единственном экземпляре.»
Где встречаются? В отдельных статьях/текстах? Или во всех статьях вместе/тестах?
«Дальше были исключены слова встречающиеся в единственном экземпляре.»
Где встречаются? В отдельных статьях/текстах? Или во всех статьях вместе/тестах?
А если добавили новую статью все надо пересчитывать сначала?
Размерность и содержимое частотной матрицы изменится, некоторые слова могут появится поскольку станут встречаться не в одном экземпляре и т.п.
Или это как обучение, теперь мы знаем какие слова в какой сектор и новые просто смотрим уже по этому.
Размерность и содержимое частотной матрицы изменится, некоторые слова могут появится поскольку станут встречаться не в одном экземпляре и т.п.
Или это как обучение, теперь мы знаем какие слова в какой сектор и новые просто смотрим уже по этому.
> В нашем случае тексты были примерно одной и той же длины, в реальных ситуациях частотную матрицу > следует нормализовать. Стандартный способ нормализации матрицы TF-IDF
TF-IDF не столько способ нормализации, сколько способ выделить наиболее значимые в рамках документа слова. Он максимален, если термин часто встречается в документе, и редко — во всем наборе документов.
В остальном хорошая статья на правильную тему.
ps кстати, не в курсе как работать с большим набором терминов? Обычно это проблема для LSA.
TF-IDF не столько способ нормализации, сколько способ выделить наиболее значимые в рамках документа слова. Он максимален, если термин часто встречается в документе, и редко — во всем наборе документов.
В остальном хорошая статья на правильную тему.
ps кстати, не в курсе как работать с большим набором терминов? Обычно это проблема для LSA.
… с большим набором терминов… — имел ввиду измерения.
Например, существуют алгоритмы случайной проекции. Описание на английском: www.rni.org/kanerva/cogsci2k-poster.txt
UFO just landed and posted this here
сравнивал автор алгоритм с другими? например с методом главных компонент?
PCA (метод главных компонент) и LSA чисто технически очень похожи, здесь не ставилась задача обзора всех возможных техник, но за идею спасибо, сравню и напишу результаты.
UFO just landed and posted this here
Стоит наверное еще использовать стемпер со словарем. с тем же hunspell, что бы не собирать статистику по не существующим словам
Солнышко красивое :)
Спасибо, очень интересный материал.
автору срочно нужно попасть на Хабр
А в чем преимущество сингулярного разложения над наивным байесовским классификатором?
Sign up to leave a comment.
Латентно-семантический анализ