Как стать автором
Обновить
337
0
Сергей Парамонов @varagian

Data Scientist, PhD in AI

Отправить сообщение

Гм, мне про сочетаемость слов рассказывали со школы (причем начиная с русского языка). И устойчивые выражения там же заставляли учить.

Никто не называл это коллокацией, но инструмент-то именно этот.

Хорошо, и как нам получить эти знания сочетаемости при изучении иностранного языка? В школе обычно учатся 10 лет почти каждый день (или сколько там сейчас?) на языке на всех предметах (кроме иностранного).

Здесь же есть некоторый инструмент, который учебная литература называет коллокацией, посчитанный на текстах, они собраны вместе и добавлены в словари. Я предлагаю использовать этот инструмент для изучения сочетаемости (и всего остального). Заметим, знания слова "сочетаемость" никак меня не приблизит к этой учебной литературе, которая может помочь.

Это абсолютно правомерный вопрос -- на Хабре есть принятая система взаимодействия:

1. Если вам не нравится, что пишет автор на Хабр -- вы понижаете карму
2. Если вам не нравится статья, то вы голосуете против статьи
3. Если вам не нравится комментарий, то вы голосуете против комментария

Как насчет сообщество решит, что делать с моими постами и комментариями, а не вы?

Я на всякий случай залез ещё раз в википедию -- посмотреть, что там с определением и как оно соотносится с тем, что в лекциях
https://en.wikipedia.org/wiki/Collocation

Там в целом присутствует похожее определение:

In corpus linguistics, a collocation is a series of words or terms that co-occur more often than would be expected by chance.

Давайте, я попробую конструктивно пояснить, как я его понимаю и зачем оно нужно, пусть у нас есть два слова a и b (упростим картину для примера) -- и есть некоторая мера над ними: f(a,b) -- которая, например использует сочетаемость и популярность (в реальности, оно скорее будет измеряет какие-то нужным нам статистики и отклонения) -- и есть некоторые параметр q (взят из усреднения или как-то осмысленно выбран -- так как я не лингвист и не занимаюсь этой темой, это исключительно мое понимание), который мы считаем отсечкой.

Если f(a,b) < q, то мы слово не считаем за коллокацию (потому что вместо они встречаются не больше чем случайно), если больше считаем. Эта мера дает нам возможность отранжировать отфильтрованные слова от слабых к сильным: мера маленькая vs большая или взять топ по определенным метрикам, или вместе с информацией о слове топ по темам и тд.

Она есть у любой пары слов, поэтому использовать этот термин чтобы говорить "учите коллокации"... некорректно.

Всё же статья не это утверждает -- если вы из неё только это подчерпнули, то мне жаль, что вы потратили на неё 15 минут, или сколько заняло чтение.

Если бы я попытался описать смысл статьи одним предложением, то я бы сказал, что коллокации -- это явно недооценённый инструмент изучения языка и современная литература по ним, как приведенная в статье, и в подсказки в словарях, которые их выделяют, может быть эффективно использована для обучения языку.

Спасибо, а разрешите у вас уточнить -- почему вы считаете в праве мне рассказывать, чем я должен заниматься?

Здесь кого-то насильно заставляют читать мои статьи про изучение английского языка?

Где я это утверждаю? Я говорю, что это популярное сочетание просто в силу популярности слов в него входящих

Не всякое просто популярное словосочетание -- это коллокация. И здесь не чистая популярность важна, а взаимосвязь между словами.

Приведу пример, слово "red" популярно, слово "box" популярно -- их комбинация просто в силу чисел популярна -- влияет ли как-то red или box здесь на выбор второго слова? Пожалуй нет, даже если эта связь и есть -- она настолько слабая, что её за коллокацию не посчитают.

* Поможет ли мне "red box" лучше понять речь на слух? Пожалуй нет
* Поможет ли "red box", чтобы лучше понимали меня? Пожалуй нет
* Поможет ли мне это знание на экзамене -- ну например в части, где надо слова вставлять? Пожалуй нет

Зачем мне тратить свою собственную память, чтобы как-то запомнить "red box"? Мне кажется это бесцельным.

Давайте это сравним с коллокацией "extenuating circumstances".

* Если кто-то по телефону начал говорить extenuating ... я уже ожидаю circumstances --> и мне легче понять о чем речь
* Если я в нужном контексте начал говорить "extenuating circumstances", то даже с неидеальным произношением в шумном телефоне колцентра в Индии они поймут о чём речь
* Если я увижу на экзамене My non-refundable booking was refunded due to ___ circumstances --> я почти уверен, что от меня тут ждут "extenuating".

Далее это разницу хорошо понимают те, кто учит языку и они составили учебные материалы такие как словарь коллокаций "Oxford Collocations Dictionary for Students of English" или подборку этих коллокаций "English Collocations in Use".

Зачем мне использовать термин отличный от того, что использует учебная литература? Если вы буквально после этой статьи решите попробовать добавить в свой учебный арсенал коллокации -- вам это слово и потребуется, что найти нужные себе книги. Именно это слово будет использовать словарь, когда выделит определенное слово.

Так что меня это именно смущает, потому что по этой логике любое нормативное сочетание можно было бы назвать коллокацией, и какой тогда смысл в термине?

Поэтому лингвисты измеряя разницу между ожидаемой сочетаемостью (а там набор метрик, условно, что информация об одном дает о дргом) и реально проверяют её на статистическую значимость. Посмотрите видео из раздела "Как их считают".

Весьма очевидно, что не такая же, потому что язык - не набор случайных событий.

Именно, поэтому для тех, кто считает коллокации важно померять, что эта разница была больше определенного порогового значения (как его считают тоже вопрос к ним), если это разница не существенная, то они не считают это за коллокацию.

А это точно коллокация по определению, 

Посмотрите она приведена на графике про коллокации в статье, как слабая коллокация -- это значит, что авторы составители, посчитав и померяв метрики, выяснили, что для неё это отклонение является существенным. Какой точно был использован порог чувствительности и метрики -- тут вопрос составителям.

В какой литературе? В учебной по изучению языка -- я привел в статье две учебные книжки со словом "коллокация" в названиях и комментариях уже запостили в словарь коллокаций для изучающих язык.

Учебная литература -- это общая лексика?

Тогда зачем мне не использовать в точности правильный термин и к тому же тот же самый, что и создатели учебной литературы, по которой я рекомендую заниматься?

https://ru.wikipedia.org/wiki/Фразеологизм . Что мы там видим?

Фразеологи́зм, или фразеологический оборот, — свойственное определённому языку устойчивое словосочетание, смысл которого не определяется значением отдельно взятых слов, входящих в его состав.

Да, прочитайте внимательно вслух это описание -- это НЕ коллокация. Потому что коллокакция -- это НЕ то же самое фразеологизм, мы уже выше это обсудили.

Возьмите примеры из книги по коллокациям: mitigating factors, inclement weather, broad avenue -- где вы здесь видите, что не понятен смысл из отдельных составляющих?

Теперь возьмите примеры из самой статьи, что вы привели:

Часто грамматическое значение фразеологизмов не отвечает нормам современного языка, а является грамматическими архаизмами. Примерами таких выражений в русском языке будут: «остаться с носом», «бить баклуши», «дать сдачи», «валять дурака», «точка зрения», «без царя в голове», «душа в душу», «шито белыми нитками» и тому подобное.

Эм, какие из приведенных примеров не отвечают нормам современной грамматики?

Потому что определение коллокации -- это не определение фразеологизма.

То есть, что broad avenue — это коллокация, пусть и слабая не смущает? У broad + Х довольно много возможностей.

Поэтому у коллокаций есть спектр от слабых к сильным (фактически фиксированным). У Red box фактически такая же вероятность попасться, как и у произведения независимых событий встретить red и box — поэтому их и не посчитают существенной коллокацией. (я не считал, но думаю, что это так, для примера)

Вопрос в том можете ли вы их использовать для каких-то своих нужд: как по мне подобранные по темам в блоках помогают, смотреть популярные в словарях, когда видишь новое слово тоже неплохо.

Потому что если у меня есть часть этого словосочетания, то у меня существенно ограничивается возможности для последующей его части:

Если у меня есть "to be subject to" + Х, то в языке это X достаточно ограничено.

Чего например нет в условном "red box", если я дал вам "red" + X, то этот Х практически не ограничен.

Хорошо, вы мне лучше скажите по вашему же вопросу — почему вы считаете, что там в приведённых примерах __разные предложения __ должны точно совпадать — где именно это нужно для рассмотренной мной ситуации?

__Фразы__ заметим, говорил про коллокации в них.

Looking into, digging out info about и to be subject to investigation.

Возможно стоит прочитать текст у этой картинки в статье?

Фильмы смотрел, не знал, что у них еще и сериал!

Хорошо, давайте я уточню, что я имею ввиду: "приведенные мной коллокации выражают одни и те же мысли" (заметим что в общем-то практически во всех примерах в статье идет речь именно об их употреблении).

Это, заметим, ошибочное утверждение. Где здесь коллокация?

The IRS is investigating the NFT deal.

Это справедливое замечание. Это не коллокация -- здесь это просто нейтральная альтернатива, которая демонстрирует опции.

Хорошо, давайте так -- где я написал в тексте, что все эти предложения в точности эквиваленты между собой?

Я в тексте дословно написал следующее, если у вас есть ситуация Х, то скорее всего вы будете употреблять следующие коллокации в следующих контекстах

1. Нейтральный контекст -- пример с looking into
2. Неформальный контекст -- пример с dig out info about
3. Юридический контекст -- пример с be the subject to investigation

Все эти предложения могут возникнуть при описании указанной ситуации, так? В зависимости контекста и ваших мыслей и т.д., вы напишите другие предложения об этой ситуации

С этим я согласен, заметьте поэтому и в самом описании я крайне аккуратно написал для каждого из них: "то скорее всего вы используете коллокацию" и дальше примеры -- в зависимости от контекста и ситуации предложение будет разным и в каждом из них будет какая-то разница в смысле.

Т. е. "копы разнюхивают про НФТ сделку" ничего не говорит, о том, что было открыто официальное расследование, что например нам может подсказать "investigating". Тем не менее, если речь идет о крайней неформальной ситуации, в зависимости от контекста, скорее всего напишите подобное предложение с "dig out info".

И причем по самим коллокациям у вас вопросов нет: т.е. look into <--> dig out info <--> be subject to?

А по вашему примеру, в подвале протекла вода, вы сказали соседу "в подвале протекла вода", он позвонил в водоканал и те записали у себя "в подвале могла протечь вода, поступил звонок от Х, отправьте пятую бригаду выяснить" --> и если вы как, например, автор книги описываете эту ситуацию с разных сторон, то вам потребуются все эти предложения даже возможно в одном и том же контексте.

Я могу представить себе контекст для каждого из этих предложений, в котором они используются для описания одной и той же ситуации.

"May be subject to police investigation" -- это крайне формальный юридический язык, который может использоваться, чтобы подчеркнуть какие-то нюансы, которые в разговорной речи не важны.

Первое: это коллеги обсуждают, что с них налоговая затребовала документы по сделке и по сути налоговая их уже проверяет, а последнее в юридическом письме от налоговой, где они требуют документы и говорят что все это may be subject to IRS investigation.

Тут если докапываться до того, что каждое слово должно иметь абсолютно точно такое же значение, то и федералы и федеральная налоговая служба -- это не одно и то же.

Речь шла о том, что это популярный и принятый в литературе термин. А термин "фразеологические сочетания" вы слышали раньше? Именно в таком виде?

Информация

В рейтинге
Не участвует
Откуда
Antwerpen, Бельгия
Дата рождения
Зарегистрирован
Активность