omruruch Jan 18 2017 at 08:25

Как различать британскую и американскую литературу с помощью машинного обучения

5 min

8.5K

Python * Algorithms * Machine learning *

From sandbox

+40

Comments 21

sdi74 Jan 18 2017 at 09:37

«dollars, new, york, girl» — забавно )

bak Jan 18 2017 at 10:01

А вы не могли бы выложить разметку (тексты+авторы) или скрипт, который её извлекает?

omruruch Jan 18 2017 at 16:20

Выложила на github код, который использовала для сопоставления ссылок на Википедию.

Gurklum Jan 18 2017 at 10:15

Были ли попытки исключить топонимы? Как следует из списка ошибок классификатора, они, возможно, все же негативно влияют.
По крайней мере, к ним нет того доверия, что к gray/grey и color/colour.

Deosis Jan 19 2017 at 03:51

Меня больше заинтересовала пара girl/lady.

pro100olga Jan 19 2017 at 06:16

Возможно, американские тексты позже написаны? По топ-5 приведенных авторов тяжело оценить.

agee Jan 18 2017 at 11:37

Это интересно.

А была ли мысль просто скормить пары синонимов или просто слов, которые пишутся по-разному из американского и британского английского? Например классические tube и subway, ну или всякие color и colour. Или в процессе выделения признаков эти слова и так всплыли вверх?

omruruch Jan 18 2017 at 13:56

Мне интересно было узнать, справится ли алгоритм самостоятельно в выделении таких слов. Слова типа color и colour, а также слова, типичные для Америки и Великобритании, действительно получились с большими весами.

Wayfarer15 Jan 18 2017 at 22:31

А если добавить канадский и австралийский английский? Сможет ли алгоритм выявлять принадлежность текста без подобных слов?

ServPonomarev Jan 18 2017 at 12:06

По отдельным словам — неплохо, но можно пойти намного дальше:

1. Вернуться к токенам. Не переводить слова в нижний регистр, не отлеплять от них пунктуацию. На выходе получим увеличение словаря, разделение имён собственных (как Нью Йорк) и главное — сможем увидеть, с каких слов обычно англичане и американцы фарзу начинают, а какими — заканчивают. Приятно, что это не потребует изменения самой модели.
2. Учитывать n-граммы. Тоже интересно — идиоматические выражения, обороты речи
3. Учитывать контекст. Взять модели спкипграмм, обученные по английским и американским текстам и посмотреть, какие слова встречаются в сильно отличных контекстах (то есть — имеют разный смысл). Это наиболее интересно, как мне думается

omruruch Jan 18 2017 at 14:18

Топонимы и имена достаточно важны для классификатора, у самых популярных типа London, Washington, America большие веса. Я без проверки не могу быть уверена, что это будет полезно. Если проверю, от добавлю в статью, спасибо. В полезности выбора именно первого и последнего слова в предложении у меня сомнения.

Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.

Вы описали объем работ на хорошую PhD.

ServPonomarev Jan 18 2017 at 17:16

на самом деле тут неделя-две счёта, и пара часов на подготовку. Взять Word2Vec, Glove или аналогичную систему, обучить две модели — одну для американского, другую для британского, и сравнить ассоциированные и взаимозаменяемые слова в обоих вариантах. Можно будет много чего интересного увидеть.

Самая сложная часть работы — подготовка обучающих текстов — уже выполнена.

arandomic Jan 18 2017 at 14:21

Такими темпами можно углубиться и до семантики/грамматики языка.

<алаверды>
Видел проект по краудсорсинг-разметке грамматических конструкций английского языка. GameWithWords:Which English
Уже неплохо определяется диалект английского языка, которым вы пользуетесь и родной язык, если вы не носитель.
</алаверды>

mephistopheies Jan 18 2017 at 13:50

I would love to be British. Drinking my leaf water and staring at a huge clock from my red phone booth, adding extra letters to wourds.

а мне вот этот анекдот напомнило

xenohunter Jan 18 2017 at 14:03

Небольшое отступление: вы учитесь или стажируетесь в Калифорнии или просто живёте в Штатах?

omruruch Jan 18 2017 at 17:18

Просто живу.

pro100olga Jan 19 2017 at 06:18

Очень интересно, спасибо! Судя по списку авторов, тексты в основном конца 19го-начала 20го века. Интересно, сохранилось ли это различие в современной литературе :)

omruruch Jan 19 2017 at 06:44

С современной литературой сложно из-за авторских прав. Возможно, я как-нибудь попробую обучить классификатор на газетных статьях, тем более что есть готовые датасеты.

pro100olga Jan 19 2017 at 06:47

Мне кажется, с прессой должно быть проще, ведь в каждой стране пресса больше пишет про внутренние дела, чем про внешние. Хотя про Трампа пишут все :)

omruruch Jan 19 2017 at 06:53

Имена и топонимы можно удалять, в ситуации с прессой вреда от них больше, чем пользы.

izakharkin Feb 26 2017 at 21:36

Очень интересное исследование!
Спасибо за статью