Pull to refresh
13
0
Юлия Чорногор @jayatsea

Лингвист с навыками в DL

Send message

Да, я отбирала тексты вручную, чтобы они максимально совпадали по стилю и, по возможности, не выделялись какими-то явными особенностями. Следила за общей тематикой. То есть, если я вижу, что у меня много эссе про путешествия, - я открываю соответствующую рубрику британского журнала и беру оттуда статьи (которые и есть, по сути, эссе). Мне кажется, это более оправдано методически, чем просто брать все подряд без разбора. Тогда бы у нас сравнивались эссе, которые традиционно пишутся на ограниченный ряд тем (путешествия, книги, обзор фильма, "за и против" чего-то, технологии и т.п.), и тексты из британских изданий, куда, помимо вышеперечисленного, также входят специфические спортивные комментарии, экономические разборы и прочее, что обычно в экзамен не включается. Тогда бы сеть "научилась" отличать тематику и все.

"Модель вполне могла отличать тексты по пунктуации (которую обладатели C2 могут знать хуже редакторов)." - тут палка о двух концах. С одной стороны, если неносители не знают пунктуационных тонкостей, значит, пусть учат матчасть)) Это входит в понятие высокого уровня владения языком, так что все справедливо. Но, с другой стороны, изредка бывает, что образованные носители забывают про запятые, даже в журнальных статьях (особенно если они из рубрики "читатели пишут", а не из колонки редактора). Были случаи, когда эксперт из-за этого относил текст к неносителям (и пытался этим аргументировать свой выбор). Классификатор тоже ошибся с одним текстом в опроснике, и в том тексте я увидела пунктуационную ошибку (конечно же, мы не можем знать, из-за нее ли классификатор отнес текст носителя в ранг ненативных текстов или нет).

Попросить носителей написать эссе - это из области фантастики, конечно:) Мне бы их замотивировать просто опрос пройти (чтобы не ограничиваться контрольной группой неносителей-экспертов).

У меня была мысль, отчасти связанная с вашим предложением попросить носителей написать эссе на ту же тему. Я хотела взять эссе и нормализовать их через ChatGPT. И брать их как "отполированный вариант". Все бы идеально совпадало (тема, стиль), за отсутствием ошибок (включая пунктуационные) и неверных оборотов. Уж очень приятные получаются тексты таким образом. Но сначала я решила провести эксперимент традиционным способом. И не пожалела. Потому что теперь мой классификатор определяет нативность текстов, нормализованных ChatGPT. И это я еще планирую изучить. Но, забегая вперед, скажу, что если я нормализую эссе неносителя, он определяет его как Non-Native. А когда я взяла аудио скрипт американского спикера, перевела его в текст автоматически, нормализовала его в ChatGPT, - и что же? - классификатор выдал "Native". Это удивительно и наталкивает на кучу размышлений :)

Спасибо, что сочли тему интересной и написали комментарий!

Не совсем поняла здесь: "То есть отличия есть, но возможности одинаковы". Что значит "возможности одинаковы"? Говоря "параллельные ветки развития", вы имеете в виду, что их нельзя сравнивать? Почему нет? В разной среде, разными способами, в разном возрасте и т.п., но люди учили один и тот же язык, стремясь постичь его во всем его многообразии.

Если классификатор ловит отличия, связанные с местом жительства автора текста, то это тоже отличия, связанные с уровнем владения. Высокий уровень владения подразумевает "чрезвычайно развитую межкультурную компетенцию" (здесь можно сослаться на официальную документацию по уровням CEFR, которую мне порекомендовали в одном из комментариев). И если бы удалось это проследить, сравнив, допустим, как реагирует классификатор на тексты, написанные эмигрантами с неким опытом проживания в Великобритании, - это был бы очень интересный вывод и важный результат. Это бы означало, что разницу между уровнем С2 и уровнем носителя можно преодолеть, прожив какое-то время в среде.

Благодарю за ваши мысли )

Оба эти пункта как раз учитываются в эксперименте. Берутся публицистические тексты (возможно, здесь даже стоит сузить выборку до одного жанра - эссе или статьи, исключив остальные) и тексты образованных носителей (и неносителей, соответственно).

Спасибо за рекомендацию. Действительно, надо попробовать! Мне кажется очень вероятным, что у наших авторов есть "любимые" конструкции и фразы, которые каким-то образом стали популярны (может быть, рекомендуются для написания эссе), но, на самом деле, довольно редко встречаются в текстах носителей.

Мне кажется, исследование проиграло бы в точности или вообще бы не состоялось, если бы я попыталась сделать его всеобъемлющим - включить и англичан, и американцев, и австралийцев, а потом мне бы сказали, что я забыла шотландцев, валлийцев и ирландцев, да и мало ли еще разновидностей английского. Нет, эксперимент ограничивается британским английским - образованными носителями-британцами и теми, кто изучает именно этот вариант. Откуда я знаю? Потому что они готовятся сдавать CPE, а это кембриджский экзамен. Если бы я исследовала американский вариант, взяла бы эссе у тех, кто готовится к TOEFL. Так что, тут все просто.

Про преподавателей это вы хорошо заметили, что в статье не прозвучало, какой вариант английского они преподают. Исправлю это в будущем. А сейчас отвечу, что преподаватели тоже ориентированы на британский вариант, поскольку, так уж сложилось, большинство факультетов английского языка в нашей стране "заточены" именно под британский английский. Об этом можно судить, хотя бы, по практической фонетике - предмету, который я достаточно долго преподавала в вузе. На специализированных факультетах ставят именно британское произношение. В общем, эксперты в данном эксперименте были также ориентированы на британский английский.

А вот носители, которые используют слова, которыми вы закончили свой пост, не включались в исследование - не проходили по стилю!

Вы верно заметили, я брала преимущественно тексты журналистов, но не только их. В перечисленных изданиях есть рубрики типа "читатели пишут" и "письма в редакцию" - оттуда я тоже брала много текстов. Там пишут не публицисты (но и не самые "простые" носители). Также было несколько текстов из рассылок и постов британских блоггеров, соответствующих по жанру. В любом случае, исследование ограничивается образованными носителями языка и их текстами, на которые и ориентируются те, кто готовится к экзамену на уровень С2.

Спасибо за вторую ссылку, это ценное дополнение. Далее по тексту там видим: "Such concepts were not taken as a point of reference during the development of the levels or the descriptors"... "What is intended is to characterise the degree of precision, appropriateness and ease with the language which typifies the speech of those who have been highly successful learners". То есть, при разработке уровней они отталкивались не от компетенций носителей, а от навыков, демонстрируемых успешными неносителями, изучающими язык. Они просто не сравнивали неносителей с носителями, намеренно или за отсутствием данных/критериев. Но ведь это не запрещает сравнить компетенции носителя и неносителя высокого уровня. Тем более, что в реальной жизни это сравнение вольно или невольно происходит очень часто. Или носитель и неноситель - параллельные прямые и им не суждено пересечься? Разве неноситель может добраться только до ступеньки С2 и его текст с высокой вероятностью "раскусит" если не эксперт, то AI? А если он, как здесь кто-то предложил выше, поживет сколько-то лет в среде и "дообучит свою нейросеть" на большем количестве данных? Каких данных там не хватает? А, может быть, дообучить можно и вне среды? Или тут уже без "молока матери" никак не обойтись?

Интересно же! Вот поэтому и "городим огород"))

Поняла. Да, носитель носителю рознь. Именно поэтому я ввожу определенные ограничения: британский английский (британские издания), носители, связанные по роду деятельности с написанием качественных текстов. Это соответствует русскоязычным авторам сочинений: они также ориентированы на британский английский и преимущественно являются учителями английского, выпускниками лингвистических факультетов, то есть также связаны с написанием текстов.

Поняла вас) Тем не менее, считаю, что это не вкусовщина, а оправданный отбор текстов, соответствующих определенным критериям. Действительно, тексты в обоих частях датасета (носитель/не носитель) должны максимально совпадать по тем характеристикам, по которым мы не хотим, чтобы сеть научилась их различать. То есть, по тематике, по стилю. Поэтому мы не просто пылесосим интернет, а вдумчиво собираем датасет. Я убеждена, что только такой подход приводит к результату.

Какой полезный комментарий! Теперь понятно, что изучить. Спасибо вам большое!

Спасибо за отклик! Почему вы отдаете предпочтение поиску выбросов, а не бинарной классификации? Вы думаете при постановке задачи на поиск выбросов будет лучше эффективность модели?

Перевод - это все-таки другое. Там влияет исходный текст - тематика, логическое построение текста. Ведь мы не знаем, на что реагирует AI. А вдруг он проник в уровень ментальности, национальной идентичности в ее лингвистическом аспекте (ключевое слово - "вдруг")? Можно предположить, что русский и британец думают по-разному, отсюда по-разному строят тексты. В общем, переводные тексты собираются в отдельные датасеты. Мне, кажется, попадался один такой.

Газетный стиль и стиль художественной литературы это разные вещи. Для сравнения с сочинениями студентов (на экзамене пишут эссе и письмо) лучше подходит именно газетный стиль, так как к нему относятся такие жанры, как эссе, очерк, статья, письмо, интервью и т.п. Поэтому для сбора датасета я обращалась к британской прессе.

Здравствуйте. Да, тон вашего ответа мне показался не только недружелюбным, а откровенно токсичным. Однако, в самом ответе присутствует конструктив, за что вам и спасибо.

Я пишу С1-С2, потому что для датасета тексты отбирала я сама, на основании своей компетенции (у меня IELTS 8.5 из 9, что соответствует С2, по аспекту чтения 9, письмо 8.5). Старалась, чтобы тексты были С1+ минимум. Но ведь неизвестно, получили бы они на экзамене (также субъективном!) метку С1 или С2. Отсюда обобщение "С1-С2".

Какие цифры вы сочли бы стат. значимыми? Учитывая то, что сеть я обучаю не с нуля, а на основе большой языковой модели, которая уже повидала много текстов.

"вы сравниваете скромные эссе русскоязычных обладателей С1 с профессиональными статьями на Queen's English" Поясню, почему я взяла тексты британских изданий. Как преподаватель, я знаю "кухню" подготовки к международным экзаменам. Те, кто правильно готовятся сдавать на высокие уровни, не вылезают из британских изданий и ориентируются на них, чтобы писать похожие тексты. Стиль, жанр, лексика и т.п. в них абсолютно соответствуют требованиям экзамена. А насчет того, что эссе "скромные" - так вы же их не видели. И не знаю, вправе ли оценить.

Опуская тональность вашего высказывания про "экспертов, выведенных в аудиториях постсоветских лингвистических факультетов"... Согласна, теперь, когда результат оказался неожиданно низким, можно задаться целью и создать контрольную группу экспертов исключительно с сертификатами С2. Это непросто, если верить вашему утверждению, что "по статистике" это 2% сдающих (может, и 2, не знаю). Но опять же, наберешь 15-20 человек по всей стране, а подтянется комментатор, который скажет "маловато будет!"

Предложения ваши, в целом, небезынтересны. Насчет скачков между уровнями, - уже определено, сколько часов обучения требуется для прохождения по этой лестнице CEFR, есть рекомендации Кембриджа. Насчет диалектов мне показалось чуть интереснее. В письменных текстах, однако, дифференциация диалектов не так выражена, как в устных. Мне как фонетисту любопытно было бы с использованием AI изучить влияние русскоязычных говоров на произносительный акцент в английском языке. Правда, это непростая тема, требует коллективной работы.

Спасибо, интересное мнение. Про двойственную природу - надо изучить вопрос, есть ли работы по теме именно письменной речи. Могу поделиться личным опытом. Однажды я участвовала в конференции по лингвистике в Германии, выступала на фонетической сессии. Там собрались известные фонетисты - специалисты по звучащей речи. Мероприятие проходило на английском языке. И вот тогда для меня было открытием, что фонетисты могут иметь акцент. Что можно изучать фонетику английского языка и при этом говорить по-английски со своим локальным акцентом. Удивительно, но с акцентом, иногда очень сильным, говорило большинство специалистов секции. Из этого я сделала вывод, что слышать разницу, разбираться в звучащей речи и ее воспроизводить - это разные компетенции. Хоть и связанные в какой-то мере, наверняка.

"Если мы опрашиваем 'native' экспертов то неважно какая из двух гипотез верна." Не поняла, почему? Ведь может быть ситуация, когда носитель пишет аутентичные тексты, но определить аутентичность текстов не в состоянии. Я еще не занималась нейтивами (набрать контрольную группу требует времени - все контакты через переписку), но меня удивил такой факт, опять же из личного опыта. Одна клиентка, которой я помогала с произношением, замужем за британцем. Кстати, заметьте, британец слышит у нее акцент, но поставить, то есть объяснить, как он это сам делает, не может (поэтому она обратилась ко мне). Так вот, я попросила ее предложить мужу опрос (тот, о котором у нас сейчас речь). Она сказала, что он согласился и сказал, что всегда чувствует разницу! А потом мне приходит результат 13/20. Другой, учитель английского с огромным опытом чтения и исправления сочинений - результат 15/20. По его словам, он был слишком строг к носителям (набраковал лишнего). В любом случае, по носителям выводы буду делать, когда наберу и опрошу контрольную группу. Но не всегда, когда человек утверждает, что "чувствует разницу", он ее действительно может разглядеть. И тем более, объяснить.

Спасибо за ваш комментарий. Увы, почти любое исследование может быть использовано как во благо, так и наоборот...

Тем более, когда на данном этапе результат показывает меньший уровень компетентности экспертов-неносителей по сравнению с AI... Поэтому надо еще сравнить эффективность экспертов-носителей. А то даже по комментариям здесь видна предвзятость к русскоговорящим экспертам.

Мне больше всего хотелось бы изучить основания, по которым AI классифицирует тексты. Это имело бы практическую ценность, как мне кажется.

"интересно было бы, я думаю просто провести классификацию статей на английском "

Здесь кажется лишним слово "просто", ибо то, что вы предлагаете, совсем не просто. Я считаю, что родной язык автора является определяющим в тех системных характеристиках, которые будут отличать его текст от носителя. Как и диалекты носителей, разумеется, не позволяют все сваливать в одну кучу, а потом как-то пытаться классифицировать.

Кстати, я изучила датасеты по теме, и мне кажется, исследователи допускают именно эту ошибку - смешивают изучающих английский с разными родными языками, а также смешивают уровни их владения английским. Отсюда - мой подход в данной работе, где я беру исключительно неносителей с одним общим родным языком одного уровня. И только британский английский. Считаю, что именно благодаря этим ограничениям обучение модели состоялось.

Очень разумный довод, спасибо! Я думала об этом. Конечно, не всегда в журналах пишут автора статьи, но в большинстве случаев, когда я подбирала тексты носителей для датасета, то обращала внимание на имя автора с тем, чтобы оно выглядело по-английски. Понимаю все недостатки этого подхода (этот критерий не прошел бы нынешний премьер-министр Великобритании... facepalm), но это единственное, что мне пришло в голову, чтобы максимально исключить возможных не-носителей среди британских авторов текстов.

Плюс, думаю, даже если русскоязычный автор пишет текст для The Independent, etc., его обязательно проверяет британский редактор.

Также, если русскоязычный автор пишет текст для The Independent, etc., то он точно не вчера ступил на Туманный остров. Как минимум, получил там высшее образование в области журналистики, а то и родился.

Да, я согласна, что разница между уровнем носителя и С2 - это очень чувствительная тема для многих педагогов. Это почва для дискриминации и разного рода предубеждений. Поэтому мне и захотелось выяснить научно, есть ли эта разница, а не опираться на чьи-то субъективные ощущения.

Хочу заметить, что классификация носитель/нет в данном исследовании подразумевает уровень образованного человека. Тексты рассматриваются полуофициального стиля, без сленга, сниженной лексики и других примет. Необразованные носители (или, как вы пишете, "из глубинки" - видимо, несколько опрометчиво приравнивая место жительства к уровню образования) предметом изучения не являлись.

Благодарю вас за комментарий.

Да, он видит какие-то различия. Мне бы очень хотелось посмотреть, какие именно. Заглянуть в этот "черный" (или "серый"?) ящик. Ведь в этом и есть ключ к разгадке.

"Вполне возможно, что это именно различия уровня "новости vs сочинения"." Думаю, что нет, так как я собирала датасет "с пристрастием". Жанрово-стилистические особенности и тематика текстов очень похожи.  

Здравствуйте. Спасибо за интерес к теме и полезный комментарий.

  1. Мне казалось, при работе с трансформерами датасет в 320 текстов считается достаточным (160 - это только часть носителей, столько же текстов не-носителей). Возможно, это не совсем достоверная информация, но модель обучилась и работает. Опрос в 20 текстов мне кажется тоже достаточным для языкового исследования. Может быть, вы считаете его не достаточным для проверки работы модели? Но ее эффективность изначально проверялась на тестовом наборе. Опрос делался, в первую очередь, для определения эффективности решения задачи человеком. И для чистоты эксперимента необходимо, чтобы один и тот же опрос прошел AI и контрольная группа. Довольно сложно замотивировать людей пройти опрос длиннее, чем в 20 текстов. Возможно, этим объясняется эта цифра. Тексты в опросе подбирались так же, как и для датасета (возможно, следовало это подробнее отметить в статье). Насчет 17 экспертов в контрольной группе - почему вы считаете, что этого мало? В любом случае, это улучшаемо. На данный момент я собрала данные от 30 человек.

  2. Принимаю вашу рекомендацию относительно тестирования стат.значимости и ROC-кривой. Изучу этот вопрос, спасибо за рекомендацию.

  3. Методика сбора текстов для датасета предполагала их стилистическое и жанровое единообразие. То, что источник сбора текстов носителей - журналы, а источник сбора текстов не-носителей - сочинения, не говорит о том, что они не могли быть написаны в одном стиле. Более того, я старалась подбирать темы журнальных статей в соответствии с темами сочинений, которые у меня были. То есть, не только стиль, но и тематика текстов подбиралась похожая. Мне самой очень интересно, чтобы AI "вник в суть" построения письменных текстов, а не схватил лишь какие-то поверхностные различия, поэтому этот методический момент я старалась отслеживать при сборе базы.

Вы правы в том, что для полноты исследования вопроса требуется включить группу носителей. Я планирую это сделать. Как считаете, достаточно ли включать в эту группу любых образованных носителей или же только носителей-преподавателей английского? Уровень образования предполагает определенную начитанность, или иначе "насмотренность". Возможно, этого было бы достаточно для задачи классификации.

"То что learned-уровень ее не видит - не означает в данном случае вообще ничего." Мне кажется, это слишком сильное негативное утверждение. На самом деле, это многое означает с точки зрения перспектив тестирования языковых навыков. И вообще преподавания иностранного языка.

1

Information

Rating
Does not participate
Location
Смоленск, Смоленская обл., Россия
Date of birth
Registered
Activity