Комментарии 3
общее количество документов (3) деленное на количество документов, в которых встречается это слово (2)
А разве это слово встречается не во всех трех документах? Машинное, машинного, машинным...
0
Сложно назвать word2vec более современным методом. Создан в 2013 году.
0
Сейчас работаю над полученным "в наследство" проектом с использованием tf-idf в поиске. своим умом начал доходить до мысли, что веса токенов зависят от длины документа в корпусе. Благодаря этой статье получил подтверждение гипотезе - спасибо!
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Извлечение признаков из текстовых данных с использованием TF-IDF