Comments 21
«dollars, new, york, girl» — забавно )
А вы не могли бы выложить разметку (тексты+авторы) или скрипт, который её извлекает?
Были ли попытки исключить топонимы? Как следует из списка ошибок классификатора, они, возможно, все же негативно влияют.
По крайней мере, к ним нет того доверия, что к gray/grey и color/colour.
По крайней мере, к ним нет того доверия, что к gray/grey и color/colour.
Это интересно.
А была ли мысль просто скормить пары синонимов или просто слов, которые пишутся по-разному из американского и британского английского? Например классические tube и subway, ну или всякие color и colour. Или в процессе выделения признаков эти слова и так всплыли вверх?
Мне интересно было узнать, справится ли алгоритм самостоятельно в выделении таких слов. Слова типа color и colour, а также слова, типичные для Америки и Великобритании, действительно получились с большими весами.
По отдельным словам — неплохо, но можно пойти намного дальше:
1. Вернуться к токенам. Не переводить слова в нижний регистр, не отлеплять от них пунктуацию. На выходе получим увеличение словаря, разделение имён собственных (как Нью Йорк) и главное — сможем увидеть, с каких слов обычно англичане и американцы фарзу начинают, а какими — заканчивают. Приятно, что это не потребует изменения самой модели.
2. Учитывать n-граммы. Тоже интересно — идиоматические выражения, обороты речи
3. Учитывать контекст. Взять модели спкипграмм, обученные по английским и американским текстам и посмотреть, какие слова встречаются в сильно отличных контекстах (то есть — имеют разный смысл). Это наиболее интересно, как мне думается
1. Вернуться к токенам. Не переводить слова в нижний регистр, не отлеплять от них пунктуацию. На выходе получим увеличение словаря, разделение имён собственных (как Нью Йорк) и главное — сможем увидеть, с каких слов обычно англичане и американцы фарзу начинают, а какими — заканчивают. Приятно, что это не потребует изменения самой модели.
2. Учитывать n-граммы. Тоже интересно — идиоматические выражения, обороты речи
3. Учитывать контекст. Взять модели спкипграмм, обученные по английским и американским текстам и посмотреть, какие слова встречаются в сильно отличных контекстах (то есть — имеют разный смысл). Это наиболее интересно, как мне думается
Топонимы и имена достаточно важны для классификатора, у самых популярных типа London, Washington, America большие веса. Я без проверки не могу быть уверена, что это будет полезно. Если проверю, от добавлю в статью, спасибо. В полезности выбора именно первого и последнего слова в предложении у меня сомнения.
Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.
Вы описали объем работ на хорошую PhD.
Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.
Вы описали объем работ на хорошую PhD.
на самом деле тут неделя-две счёта, и пара часов на подготовку. Взять Word2Vec, Glove или аналогичную систему, обучить две модели — одну для американского, другую для британского, и сравнить ассоциированные и взаимозаменяемые слова в обоих вариантах. Можно будет много чего интересного увидеть.
Самая сложная часть работы — подготовка обучающих текстов — уже выполнена.
Самая сложная часть работы — подготовка обучающих текстов — уже выполнена.
Такими темпами можно углубиться и до семантики/грамматики языка.
<алаверды>
Видел проект по краудсорсинг-разметке грамматических конструкций английского языка. GameWithWords:Which English
Уже неплохо определяется диалект английского языка, которым вы пользуетесь и родной язык, если вы не носитель.
</алаверды>
<алаверды>
Видел проект по краудсорсинг-разметке грамматических конструкций английского языка. GameWithWords:Which English
Уже неплохо определяется диалект английского языка, которым вы пользуетесь и родной язык, если вы не носитель.
</алаверды>
I would love to be British. Drinking my leaf water and staring at a huge clock from my red phone booth, adding extra letters to wourds.
а мне вот этот анекдот напомнило
Небольшое отступление: вы учитесь или стажируетесь в Калифорнии или просто живёте в Штатах?
Очень интересно, спасибо! Судя по списку авторов, тексты в основном конца 19го-начала 20го века. Интересно, сохранилось ли это различие в современной литературе :)
С современной литературой сложно из-за авторских прав. Возможно, я как-нибудь попробую обучить классификатор на газетных статьях, тем более что есть готовые датасеты.
Очень интересное исследование!
Спасибо за статью
Спасибо за статью
Sign up to leave a comment.
Как различать британскую и американскую литературу с помощью машинного обучения