Pull to refresh
11
0
София Годовых @omruruch

Пользователь

Send message

Имена и топонимы можно удалять, в ситуации с прессой вреда от них больше, чем пользы.

С современной литературой сложно из-за авторских прав. Возможно, я как-нибудь попробую обучить классификатор на газетных статьях, тем более что есть готовые датасеты.

Выложила на github код, который использовала для сопоставления ссылок на Википедию.

Топонимы и имена достаточно важны для классификатора, у самых популярных типа London, Washington, America большие веса. Я без проверки не могу быть уверена, что это будет полезно. Если проверю, от добавлю в статью, спасибо. В полезности выбора именно первого и последнего слова в предложении у меня сомнения.

Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.

Вы описали объем работ на хорошую PhD.
Мне интересно было узнать, справится ли алгоритм самостоятельно в выделении таких слов. Слова типа color и colour, а также слова, типичные для Америки и Великобритании, действительно получились с большими весами.

Information

Rating
Does not participate
Location
San Francisco, California, США
Registered
Activity