Comments / Profile of omruruch / Habr

София Годовых @omruruch

Пользователь

ProfileArticles1PostsNewsComments6

Как различать британскую и американскую литературу с помощью машинного обучения

omruruch Jan 19 2017 at 06:53

Имена и топонимы можно удалять, в ситуации с прессой вреда от них больше, чем пользы.

Как различать британскую и американскую литературу с помощью машинного обучения

omruruch Jan 19 2017 at 06:44

С современной литературой сложно из-за авторских прав. Возможно, я как-нибудь попробую обучить классификатор на газетных статьях, тем более что есть готовые датасеты.

Как различать британскую и американскую литературу с помощью машинного обучения

omruruch Jan 18 2017 at 17:18

Просто живу.

Как различать британскую и американскую литературу с помощью машинного обучения

omruruch Jan 18 2017 at 16:20

Выложила на github код, который использовала для сопоставления ссылок на Википедию.

Как различать британскую и американскую литературу с помощью машинного обучения

omruruch Jan 18 2017 at 14:18

Топонимы и имена достаточно важны для классификатора, у самых популярных типа London, Washington, America большие веса. Я без проверки не могу быть уверена, что это будет полезно. Если проверю, от добавлю в статью, спасибо. В полезности выбора именно первого и последнего слова в предложении у меня сомнения.

Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.

Вы описали объем работ на хорошую PhD.

Как различать британскую и американскую литературу с помощью машинного обучения

omruruch Jan 18 2017 at 13:56

Мне интересно было узнать, справится ли алгоритм самостоятельно в выделении таких слов. Слова типа color и colour, а также слова, типичные для Америки и Великобритании, действительно получились с большими весами.