Pull to refresh
9
0
Дмитрий Коптелов @meacca

Data Science

Send message

Имеется ввиду эмбеддинг для тектового описания?
Тут смотря в чем редкость подобного описания будет. word2vec эмбеддинг учим для каждого токена, так что для любого описания, даже если оно очень редко встречается, будет релевантный эмбеддинг если он состоит из популярных токенов. В статье не упоминал, но "порог популярности" для токена был 5000 на корпусе в 100 млн описаний, так что условная "картотека" должна была попасть

Если же описание совсем состоит из очень редко встречающихся токенов, тогда при предобработке оно будет состоять из полностью токенов вида unpop_tok, усреднение которых можно считать что-то вроде "заполнение пропуска" в фичах описания.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity