Имеется ввиду эмбеддинг для тектового описания? Тут смотря в чем редкость подобного описания будет. word2vec эмбеддинг учим для каждого токена, так что для любого описания, даже если оно очень редко встречается, будет релевантный эмбеддинг если он состоит из популярных токенов. В статье не упоминал, но "порог популярности" для токена был 5000 на корпусе в 100 млн описаний, так что условная "картотека" должна была попасть
Если же описание совсем состоит из очень редко встречающихся токенов, тогда при предобработке оно будет состоять из полностью токенов вида unpop_tok, усреднение которых можно считать что-то вроде "заполнение пропуска" в фичах описания.
Имеется ввиду эмбеддинг для тектового описания?
Тут смотря в чем редкость подобного описания будет. word2vec эмбеддинг учим для каждого токена, так что для любого описания, даже если оно очень редко встречается, будет релевантный эмбеддинг если он состоит из популярных токенов. В статье не упоминал, но "порог популярности" для токена был 5000 на корпусе в 100 млн описаний, так что условная "картотека" должна была попасть
Если же описание совсем состоит из очень редко встречающихся токенов, тогда при предобработке оно будет состоять из полностью токенов вида unpop_tok, усреднение которых можно считать что-то вроде "заполнение пропуска" в фичах описания.