Обновить

Комментарии 4

общее количество документов (3) деленное на количество документов, в которых встречается это слово (2)

А разве это слово встречается не во всех трех документах? Машинное, машинного, машинным...

Сложно назвать word2vec более современным методом. Создан в 2013 году.

Сейчас работаю над полученным "в наследство" проектом с использованием tf-idf в поиске. своим умом начал доходить до мысли, что веса токенов зависят от длины документа в корпусе. Благодаря этой статье получил подтверждение гипотезе - спасибо!

В итоге не ушли от идеи использования tf-idf в поиске? Передо мной в ближайшее время стоит подобная задача, не могу определиться с выбором алгоритма)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
otus.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия
Представитель
OTUS