Pull to refresh

Comments 27

Осталось только повесить этот алгоритм на какой нибудь агрегатор новостей, и сделать индивидуальное ранжирование групп… Web 3.0 в действии…
Нифига. Там нет кнопки Like/UnLike, да и групп там явно ограниченное количество…
UFO just landed and posted this here
Не совсем так. При использовании AOT потребуется еще один шаг — разрешение возможной омонимии.
В этом смысле Портер лучше :)
UFO just landed and posted this here
Еще плюс — Портер от словаря не зависит
UFO just landed and posted this here
Поясните, пожалуйста, это:
«Дальше были исключены слова встречающиеся в единственном экземпляре.»
Где встречаются? В отдельных статьях/текстах? Или во всех статьях вместе/тестах?

В данной конкретной выборке. Например слово «Британская», возможно, в другой выборке оно было бы очень важно. Здесь же оно встречается только один раз и поэтому включать его в частотную матрицу нет смысла. Это просто оптимизация в целях экономии вычислительных ресурсов.
А если добавили новую статью все надо пересчитывать сначала?
Размерность и содержимое частотной матрицы изменится, некоторые слова могут появится поскольку станут встречаться не в одном экземпляре и т.п.
Или это как обучение, теперь мы знаем какие слова в какой сектор и новые просто смотрим уже по этому.
Если добавляется новая статья то можно не пересчитывать, но тогда вы не сможете выявить новые измерения (кластеры, группы).
Поэтому, на практике, имеет смысл регулярно пересчитывать, но не обязательно с каждой новой статьей.
> В нашем случае тексты были примерно одной и той же длины, в реальных ситуациях частотную матрицу > следует нормализовать. Стандартный способ нормализации матрицы TF-IDF

TF-IDF не столько способ нормализации, сколько способ выделить наиболее значимые в рамках документа слова. Он максимален, если термин часто встречается в документе, и редко — во всем наборе документов.

В остальном хорошая статья на правильную тему.

ps кстати, не в курсе как работать с большим набором терминов? Обычно это проблема для LSA.
… с большим набором терминов… — имел ввиду измерения.
UFO just landed and posted this here
PCA (метод главных компонент) и LSA чисто технически очень похожи, здесь не ставилась задача обзора всех возможных техник, но за идею спасибо, сравню и напишу результаты.
UFO just landed and posted this here
UFO just landed and posted this here
Там ясно написано «В каждой ячейке матрицы указано какое количество раз слово встречается в соответствующем документе» Двоечку из заголовков новостей не выудишь, их авторы избегают повторения слов в названии.
Стоит наверное еще использовать стемпер со словарем. с тем же hunspell, что бы не собирать статистику по не существующим словам
А в чем преимущество сингулярного разложения над наивным байесовским классификатором?
Sign up to leave a comment.

Articles