В лингвистике сосуществуют две традиции описания языка: одна из них, до сих пор продолжающая традицию шумеров и древних греков, описывает язык фрагментарно — отдельно фонетику и фонологию, отдельно морфологию, отдельно синтаксис и т. д. Другая, идущая с четвертого — пятого веков до н. э. от индийского монаха Панини, описывает язык как интегральное целое — описание фонетики, морфологии, синтаксиса, семантики строится в виде взаимно ориентированных правил, с помощью которых из элементарных языковых единиц строятся тексты.
Именно последний способ описания языка используется в сложнейших инженерно-лингвистических моделях, позволяющих автоматически переводить тексты одного языка на другой. О них и об их развитии и пойдёт речь на лекции.
Лектор Александр Николаевич Барулин — сотрудник Института языкознания РАН. Закончил отделение структурной и прикладной лингвистики филологического факультета МГУ им. М. В. Ломоносова. Учился в аспирантуре Института востоковедения АН СССР, защитил диссертацию на тему «Теоретические проблемы описания турецкой именной словоформы» (1984). Проработал в Институте востоковедения 12 лет. В 1991 году совместно с В. К. Финном и Д. Г. Лахути организовал факультет информатики РГГУ и возглавил созданное на этом факультете отделение теоретической и прикладной лингвистики. В 1992 по проекту Барулина был организован факультет теоретической и прикладной лингвистики — он стал деканом этого факультета, а также заведующим кафедрой теоретической и прикладной лингвистики.
Под катом — подробная расшифровка лекции.
Меня зовут Александр Николаевич Барулин. Я старший научный сотрудник института языкознания Академии Наук, в прошлом я был деканом факультета теоретической прикладной лингвистики. Я его, собственно, и организовывал в РГГУ и был заведующим кафедрой с таким же точно названием.
Сегодня мы с вами поговорим о современной лингвистике, о том, что она уже умеет, и что ей ещё предстоит научиться делать. Язык изучают, в принципе, двумя способами. Первый способ — это изучение языка для того, чтобы потом на нём говорить. Это всем известный метод, и очень часто лингвистику отождествляют с наукой, которая занимается как раз тем, что разрабатывает методы хорошего преподавания различных языков. Второй способ изучения языка нужен для того, чтобы понять, как он устроен. Вторая цель для лингвистики является гораздо более важной и в основном лингвисты занимаются этой проблематикой. Изучают, как устроен язык, как устроена речь и как, собственно говоря, язык появился, как он развивался и так далее. Вот такие самые главные вопросы, которые волнуют лингвистику.
Современная лингвистика устроена очень сложно. Для чего язык человеку? Речь – это звук и смысл. Если мы возьмём просто какую-нибудь речь, то можно будет пользоваться вот такой схемой: существенно некто, у которого имеется некоторая цель коммуникации, есть канал коммуникации – звук, через звук передаётся некоторая информация, и есть адресат, который это всё воспринимает и определённым образом на это всё реагирует. Есть ещё условия коммуникации, есть код – соотношения, как раз обозначает означающего и означаемого. Если разбить речь на какие-то единицы, то получится, что конечной единицей будет один знак. Морфема – самая маленькая значащая часть слова. Она и будет самым маленьким знаком, на которого в разбиении речи можно дойти до самого маленького, и это будет та самая маленькая морфема. Но, с другой стороны, если я говорю с кем-то ещё, то в речь вплетается ещё тоже очень много различного рода сигналов, из которых можно извлечь некоторую информацию.
Сигналы устроены совсем не так, как устроены языковые знаки. Давайте выявим первое свойство языка, которое отличает его от всех видов коммуникации животных. Первое свойство состоит в том, что есть три базовых компонента языкового знака: звучание, некоторая информация о классе объектов, которые обозначаются, и сам конкретный объект, который обозначается. Древние греки, которые установили вот это впервые, они говорили так: знаки – есть три составляющих. Первое составляющее – это то, что мы слышим и варвары слышат, вторая составляющая – это то, что мы видим и варвары видят, а третья оставляющая – это, что мы понимаем, а варвары не понимают. Это три компонента, которые обычно входят в языковой знак, и, при этом, означающие языкового знака строятся комбинаторным способом, то есть отдельные звуки комбинируются, вытягиваются в цепочку какую-то и только эта цепочка звуков может обозначать целостный смысл. Такой линейной комбинаторике нет ни в одном языке животных.
Чем ещё язык отличается от коммуникативных систем животных? Почему это, собственно говоря, уникальное явление? У человека на языке можно говорить абсолютно о любых ситуациях, видах человеческой деятельности. Он обслуживает все виды человеческого поведения. Более того, процесс говорения опирается на специальный вид поведения, которого у животных нет. Этот тип поведения называется речевым поведением. Речь опирается на речевое поведение. Что ещё входит в речевое поведение? Во-первых, позы. По позе очень много можно понять, как человек относится к собеседнику, какие между ними отношения и так далее. Во-вторых, этого нет у животных, во всяком случае когда они используют звуковую коммуникацию, то этого у них тоже нет. Человек, для того, чтобы говорить с другим человеком, к нему подходит, останавливается на определённом расстоянии от него, и они начинают говорить. Оказывается, в разных странах вот это самое расстояние немножко разное, то есть в Соединённых Штатах это где-то 90 см приблизительно, а в Японии – 45. В одной из книжек, где описываются эти компоненты речевого поведения, в частности, описывается как. Этого у животных точно нет.
В принципе, вы знаете, что речь сопровождается обычно жестами и мимикой. Причём, что интересно, это независимые коммуникативные системы у человека, и они могут нести ровно противоположную информацию, потому что человек говорит, если он, допустим, врёт. За глазами и жестами, мимикой человеку уследить труднее. Теперь давайте ещё на одну вещь обратим внимание: если мы возьмём шимпанзе и вообще крупных человекообразных обезьян, у них тоже есть жестикуляция. Жестикуляция – достаточно молодая коммуникативная система. То есть у более мелких обезьян, нечеловекообразных, у них жестикуляция отсутствует, а вот у крупных обезьян она как раз присутствует и, более того, является ведущей системой коммуникации, не звуковая, а жестовая. Все коммуникативные системы, которые есть у животных и у обезьян в том числе, распределены каким-то образом по видам поведения, которым у них бывают, то есть, допустим, если имеются в виду агрессивные сигналы, то, значит, — это одна система, которая никак не связана с другими системами коммуникации. Если это, допустим\. Какие-то пищевые сигналы, три пищевых сигнала, они друг другу противопоставлены, но именно в этой узкой системе знаков. Если имеется в виду, скажем, сигнал опасности, то это тоже какие-нибудь три сигнала, которые никаким образом не связаны с другими видами коммуникации и, соответственно, они тоже друг другу противопоставлены, но с остальными никак не связаны. Получается, что у животных коммуникация сильно зависит от поведения, более того, она является частью той поведенческой программы, которую обслуживают эти самые сигналы. Это кардинальное отличие от языка.
Заметьте, язык универсален, а коммуникативной системы животных не универсальны, распределены по видам поведения и, соответственно, никакой общей коммуникативной системы, которая могла бы позволить обезьянам передавать друг другу информацию на любые совершенно темы, вот такой вот коммуникативной системы ни у обезьяны, ни у более низко расположенных на эволюционной лестнице, ничего такого нет.
Кроме всего прочего, язык отличается вот какого интересно деталью. Мы выяснили, что в языке есть две части: одна звучащая, означающая это, другая, семантика, которая охватывает смысловую часть какую-то и преференциальную часть, то есть те объекты, которые обозначаются с помощью языковых знаков. Это две абсолютно разные стихии. Они должны каким-то образом сопряжены.
В 1959 году вышла книжка моего учителя, Николая Ивановича Жилкина, который как раз определил впервые, что вообще-то речь управляется из двух разных центров. На самом деле, любому, кто знаком каким-то образом с тем, как работает мозг и с тем, как работает мозг во время речи, должно быть понятно, что речь опирается на дыхание. То есть, первый компонент речевого аппарата – это дыхание. Кстати, дыхание управляется из ствола мозга, а вся артикуляция, наоборот, управляется из коры. Значит, вот уже два разных центра, которые в принципе, должны быть согласованы для того, чтобы у вас получилась целостная речь. Для того, чтобы всё было там, действительно, сопряжено, дыхание опирается на свои какие-то ритмы, есть ритмы дыхания, есть ритмы мышления. Ритмы дыхания и мышления друг от друга не зависят, но в речи каким-то образом согласовались, нужна специальная система. Эта специальная система как раз получается благодаря тому, что из коры в подкорку так называемый ганглий идут так называемые проекции, есть определённые связи из коры в подкорку и вот, благодаря этим связям происходит координация дыхания и мышления, ещё к этому нужно артикуляцию добавить. Когда всё это согласуется, тогда возникает речь.
Дело в том, что у человека, когда он говорит, используется особый режим дыхания. Есть режим дыхания, когда мы стоим, находимся в покое, есть режим дыхания автоматический, когда мы спим, есть режим дыхания, когда мы бежим и согласуем количество кислорода, которое нам нужно для того, чтобы успевать бежать, есть ещё речевой режим дыхания. В чём его особенность? Когда человек говорит, он говорит на выдохе в отличие, кстати, от обезьяны. Обезьяны могут говорить на вдохе и на вдохе, им абсолютно всё равно, а человек говорит только на выдохе. Если только выдыхать, то наступает гипоксия – это недостаток кислорода, который должен поступать в мозг, и тогда мозг начинает как-то отключаться. Для того, чтобы избежать этого эффекта, человек, оказывается, на выдохе делает подвдох. В этом состоит особенность речевого дыхания.
Получается, есть некоторая стихия в человеке дыхательная, есть механизм дыхания, который работает по каким-то своим принципам, есть механизм мышления, который работает по своим принципам. Есть механизм управления мышцами, артикуляции, который работает по своим принципам. Всё это нужно соединить. Это различие между дыхательными и мыслительными ритмами, оно хорошо отображается в языке. Есть две линии усложнения единиц в языке, которые вам достаточно хорошо известны, то есть с одной стороны вот из самых маленьких единиц, из которых строится означающие языковых знаков, строятся слоги. Слоги не имеют никакого значения. Это единицы, ориентированные на ритмы дыхания. За слогами из слогов строятся так называемые акцентные слова. Например, «в доме» — это одно акцентное слово, а грамматических слов два «в» и «доме». Между ними можно поставить некоторое слово, которое не разрушит синтаксических связей между «в» и «доме». «В большом доме» между «в» и «доме» сохраняется та же синтаксическая связь и тогда, когда было просто «в доме».
Из акцентных слов строятся так называемые такты – цепочка акцентных слов, расположенные между двумя паузами. Из тактов строятся уже периоды. Эта одна линия усложнения языковых единиц, а другая линия усложнения языковых единиц из фонем строятся означающий морфов, самых маленьких единиц, из которых строятся единичные значения, из мораль строятся грамматические слова. Тут два грамматических слова «в» и «доме». Они уже как раз обязаны иметь смысл и сочетание грамматических слов, словосочетание, тоже должно иметь смысл в отличие от фонетических слов. Например, «я бы» объединяется в одно фонетическое слово, у него один акцент, до него и после него можно поставить паузу, а внутри нельзя. Это акцентное слово, в принципе, состоит из двух компонентов, которые по смыслу связаны словами. Или, допустим, немецкое «in dem» объединяется в артикль, плюс предлог «in». Здесь соединяются друг с другом два компонента, которые относятся к двум совершенно разным единицам, и они совершенно не связаны между собой по смыслу.
Таким образом, получается, одна линия, которая ориентирована на ритмы дыхания, я её буду называть линий метрических единиц, а вторая линия — знаковых единиц, то есть единиц, которых образуют некоторое смысловой единство, обозначают некоторый смысл и некоторый предмет.
То, что я вам сейчас рассказал, это предмет занятий специальной области лингвистики, которая называется философией языка. В принципе, лингвистика, как вы понимаете, занимается безумно сложным объектом. Её цель состоит в том, чтобы описать, как язык устроен, как он работает, какова его история. Задача эта безумно сложная, и она разбивается на отдельные мелкие задачи, которым посвящены отдельные лингвистике дисциплины, которые занимаются своей частью какой-то проблемы. Философия языка занимается тем, что она определяет, какую роль играет язык в человеческой жизни, она занимается тем, что определяет, как я уже сказал, чем отличается язык от других коммуникативных систем.
Великий русско-польский Куртенер лингвист предложил разбить все дисциплины, которые занимаются языком, на две части: синтетическую и аналитическую лингвистику. Синтетическая лингвистика занимается правилом построения искусственных языков. Они бывают двух видов. Бывают языки апостериорные, которые изобретены на базе кого-то уже существующего языка, либо по аналогии с естественным языком, когда изобретаются все детали, которые необходимы для создания такого языка, но по той схеме, которая уже существует в природе. Кроме того, есть ещё априорные языки, то есть, когда человек изобретает язык от начала до конца. Есть ещё философские языки, представляют собой некоторый логический код. Например, одна число соответствует одному компоненту смысла, потом они складываются. Слово «мама» разбивается на два компонента — родитель женского пола. «Папа» разбивается так же на два компонента — родитель мужского пола. Эти два компонента обозначаются специальными числами, которые можно соединить и получить целостностей слово «мама» и «папа». Так приблизительно устроен философский язык.
В принципе, это такое не очень удачное изобретение человечества, потому что там, в этих философских языках, не учитывается огромное количество совершенно необходимых языковых характеристик. Получается, учитывается только смысл, выражения искусственно построены, как обозначаются границы языковых единиц непонятно. То есть, может быть встроено понятие достаточно сложное, то оно будет состоять из необозримо большого числа чисел, которые соответствуют различным идеям. Воспринимать такие многокомпонентные образования человек все равно не может.
В 17 веке было целое понятие, изобретение искусственных языков, тогда все говорили о восприятии искусственных языков. Тема была необыкновенно модной. Ею занимались самые великие умы человечества. Лемниц, Ньютон, Уилкинс изобретали искусственные языки. Химик Бойль сам языков не изобретал, но учил все искусственные языки, которые есть и изобретали другие. Он жаловался, что на них практически разговаривать невозможно. В них нельзя было писать философских трактатов, но уж, тем более, писать стихов.
Потом, впоследствии, философские языки сыграли важную роль в изобретении первого языка — чистого смысла. Его изобрёл Готов Фрэген (один из основателей математической логики) и назвал его «Бигрюстшрифт» — алфавит понятий. Идея состояла в том, что имелся некоторый набор исходных понятий, с помощью которых можно было построить любое выражения логического языка в некотором роде, с выводом и так далее.
От данного искусственного языка пошли все языки программирования. Это замечательный образец для создания полезных языков, которые предназначены для узко специальной цели. На философских языках говорить было нельзя, но, тем не мненее, они получили некоторое применение.
Вторым направлением лингвистических исследований синтетической лингвистики является реанимация, или же воскрешение, древних языков, на которых можно было говорить. Надо отметить, что один эксперимент оказался удачным — это возрождение иврита, начавшееся в 1879 году, привело к тому, что у Израиля появился государственный язык, на котором раньше говорить было нельзя. Он отображал древние понятия, был языком культа, то есть, многих слов, которые нужны были для отображения современных понятий, там не было. Давайте перейдём к самом важной части лингвистики, аналитической лингвистики. Прежде всего, аналитическую лингвистику надо разделить на два сложных компонента. Первый компонент, диахроническая лингвистика — методика реконструкции праязыков, которые не дошли до нас в письменном виде, не имели письменности совсем. Лингвисты умеют по данным языков реконструировать праязыки. Например, у нас имеются русский, украинский, белорусский, произошедшие из древнерусского. Древнерусский, к счастью, был письменным, и мы можем проверить наши методы реконструкции праязыков. На латинском можно проверить методы реконструкции по праязыкам, по романским языкам: испанскому, итальянскому, французскому, ретороманскому, румынскому и т.д. На этих языках методика была отработана и проверена, выяснилось, что она работает достаточно хорошо. Тогда преступили к реконструкции языка, который не дошёл до нас ни в каком виде, а именно, прадеда европейского языка, то есть языка общего для: романских, германских, славянских, иранских индийских языков ( не всех, а некоторых). Была разработана специальная методика, которая состоит в том, что в языках обнаруживаются регулярные соответствия, то есть, берётся два родственных слова и мы наблюдаем, за тем, чем они отличаются. Например, в русском говорят слово «лес», а в украинском «лис». «Э» регулярно соответствует «и», звал некоторыми исключениями, которые связаны с тем, что в древнерусском языке был звук, который исчез и в русском и в украинском, а именно «ять». Такая методика позволяет реконструировать языки достаточно глубоко.
Самым древним из тех языков, который более-менее реконструирован, является ностратической реконструированный праязык. Дело в том, что лингвисты научились определять время распада праязыка. Они умеют определять, например, когда распался праиндоевропейский и праурало-алтайский языки и так далее. Время распада ностратического праязыка – 14-15 тыс. лет назад, то есть, это уже ледниковый период. Компаративисты, которые этим занимаются, охватывают всё постепенно. Например, коренные языки Африки сейчас пока что не охвачены реконструкцией, хотя предварительные данные показывают, что время распада, скажем, пракойсанского языка где-то уже 20 тыс. лет с лишним, но это неточные данные. Важно знать, на какие сроки, на какое время ориентироваться тем, кто исследует прохождение языка, когда он приблизительно возник. Результаты работ компаративистов говорят о том, что время возникновения языка приблизительно относится к 50-40 тысячам лет назад. При том, мы знаем, человек – разумный появился где-то 200 тыс. лет назад. Сейчас по Y-хромосоме определили, что даже ещё и раньше – 300 тыс лет назад. Языком он овладел гораздо позже. К этому времени, 40-50 тыс. лет назад, групп homo sapiens было уже довольно много. Они расселились по всему земному шару. Не было такого, что все языки Земли произошли из одного языка, то есть они уже были сильно разрозненны и, скорее всего, что независимо, возникли несколько из разных языков.
Я вам рассказал о компаративистике и глоттохронологии – наука, которая определяет возраст распада праязыка. В диахроническую лингвистику входит этимология – наука о происхождении слов, морфем, идиом. Существует историческая грамматика, которая занимается письменным периодом развития языка. Например, историческая грамматика русского языка начинает своё исследованием с древнерусского языка и прослеживает, как менялась грамматика на протяжении того времени, когда из древнерусского языка получался уже современный русский язык.
Кроме этих дисциплин, у которых достаточно строгая методика, в диахронической лингвистике относится глоттегоника – занимается происхождением языка, глоттогенезом. Здесь можно назвать два периода, когда занимались глоттогенезом. Это период до 70- годов буквально прошлого века и период после этого. До 70- х годов 20 века этой темой занимались, грубо говоря, приложив палец ко лбу, то есть никаких доказательств не требовалось от человека. Он просто предполагал, что «а вот язык возник вот таким-то образом». Особенно популярны были высказывания относительно появления первого слова.
На самом деле, происхождение языка представляет собой непрерывную цепь смены коммуникативных систем, начиная от наших предков, которые ничем не отличались от обезьян, до homo sapiens и промежуточных видов коммуникативных систем, которых всё-таки не одна тысяча. То есть надо проследить цепочку, для того, чтобы понять, как из звуковой системы обезьян возник человеческий язык, надо проследить цепочку коммуникативных систем, которая постепенно приближается по своим характеристикам к человеческому языку. Процесс этот был долгим. По моим исследованиям, получается, что первый сдвиг в сторону языка начался после homo habilis. Это, приблизительно, два и три десятых миллионов лет назад. Некоторые данные говорят, что ещё и раньше, — два и пять десятых миллионов лет назад. Как я уже сказал, человеческий язык появился где-то 50-40 тыс. лет назад. По огромному промежутку времени шла постепенная трансформация коммуникативных систем животных в человеческий язык, то есть это очень длительный процесс, который сопровождался физиологическими и нейрофизиологическими изменениями, в дыхании, в артикуляционном аппарате.
Достаточно сказать, что обезьяны не владеют языком, то есть язык у них в коммуникации не участвует. Должен был пройти некоторый период, чтобы человек овладел языком и начал воспроизводить звуки не так, как обезьяны. Обезьяны производят звуки так называемыми висцеральными мышцами — внутренними мышцами, которые, в частности, характеризуются тем, что ими нельзя управлять, нельзя их корректировать. Они происходят на полном автомате, то есть началась программа, пока она не закончится, никак вмешаться и откорректировать этот процесс нельзя. Артикуляционный аппарат человека должен был перейти от висцеральных мышц к скелетным, управления которыми уже можно корректировать. Только тогда, когда человек начал управлять языком с помощью скелетных мышц, началось движение уже к современному языку.
Сейчас это безумно сложная область, которая необыкновенно бурно развивается на Западе и почти не как у нас. То есть, в России всего три человек, которые занимаются этим всерьёз, а на Западе уже издают учебники.
Теперь перейдём к синхронной лингвистике. Это самый важный и сложный компонент в лингвистике. Я расскажу про теоретическую лингвистику. Теоретическая лингвистика как раз разбивается на под-дисциплины. Дисциплины, которые занимаются метрическими единицами, то есть слогом, акцентным словом, тактом и периодом. Надо сказать, что это безумно важный аспект лингвистики, которым, в принципе, она ещё не очень-то начала заниматься.
Само различение этих двух направлений усложнения единиц, как я уже сказал, предложил Бодуэн де Куртенэ в 1915 году, но после этого ещё было несколько таких же точно предложений без ссылок на него, в частности, Реформатский предлагал то же самое. Был такой замечательный лингвист, Пешковский, который предлагал то же самое, и ещё был американский лингвист Хоккет, который тоже сделал такое же предложение. Но никаких последователей ровно в этом направлении у них не было.
При этом, замечательным образом, оказывается, что в разных языках эти метрические и сигнификативные единицы языка совпадают на совершенно разных уровнях. Скажем, в древнекитайском языке сразу совпадает слог и морф. Поскольку морф совпадает со словом, там есть всего один вид морфемы — это корни. Никаких аффиксов, никаких клитик в древнекитайском языке нет. Вся структура древнекитайского языка зависит ровно от двух этих вещей: от того, что там совпадает слог и морф, и от того, что никаких других типов морфем, кроме как корневых нет. Соответственно, в это языке нет никакой парадигмы склонения, спряжения. Функция единиц определяется порядком слов. Есть язык, например, брувантъеву, в это языке совпадает фонетическое и грамматическое слово, а слог и морф уже не совпадают, то есть могут быть односложные морфы, двусложные морфы, но более, чем двусложных грамматических, фонетических слов там нет. Вот они там совпадают.
Во многих языках Полинезии уже два типа морфем имеется, а именно: клитики, это типы наших предлогов или частиц типа «ж», «к», «бы», корни, но нет аффиксов никаких. У них тоже нет склонений, спряжений, но зато все функции обозначений синтаксических связей между единицами обозначаются клитиками. У них другое совсем понятие о слове должно быть совершенно, должна быть совершенно по-другому устроена грамматика, чем, скажем, в древнекитайском или в русском языке. Существуют языки, в которых есть всё, то есть аффиксы, клитики и корни. При этом, там есть языки, в которых есть только префиксы, как например, языки банту. Все грамматические показатели там выражаются префиксальном способом, а не суффиксальном, как у нас, например. Это правоветвящиеся языки. Есть языки тюркские, в которых нет ни одного префикса, но зато только есть суффиксы, то есть, то, что стоит после корня. Это уже левоветвящиеся языки. Есть языки, в которых есть и префиксы и суффиксы — это языки, ветвящиеся в обе стороны, когда строится слово.
Таким образом, получается, что эта информация о том, как соотносится единица метрического типа с единицами знакового типа, безумна важна. Для построения грамматики, для построения типологии языков, собственно говоря, для того, чтобы понять на какие классы языки делятся, как они могут быть устроены, и как в них устроены причинно-следственные связи. Здесь лингвистика находится в самом начале пути, ей ещё нужно научиться описывать метрические единицы, но зато знаковая единица описывается очень давно. Этой части лингвистики больше четырёх тысяч лет.
Дело в том, что первые грамматические описания были обнаружены в пособии для писцов в Шумере. Самым древним из них — 2,5 тыс. лет до нашей эры. Шумерская лингвистика по своему типу была унаследована греками, и особенность её состояла в том, что там сведения о языке задавались списками. В Шумере была такая философия: мир представляет собой номенклатуру предметов (греки наследовали эту философию, у них тоже мир состоял так же), а язык — это номенклатура предметов или имён действий. Это первая линия развития лингвистики.Она занималась, в основном, тем, что изучала то, как единица соотносится у нас в памяти. В языке есть алгоритмы, которые организуют весь языковой материал в памяти и есть некоторые механизмы, которые позволяют строить из единиц более сложные единицы, вплоть до больших-больших текстов.
Первый тип языкового материала называется парадигматикой, а второй синтагматикой. Всё то, как у нас организовано в памяти, — это парадигматика. Греки, в основном, занимались парадигматикой. Любой язык, где есть склонение и спряжение, грамматика такого рода языков представляет списки. Первая линия, идущая от древних греков и римлян — построение грамматического описания языка. Вторая линия идёт от индийского монаха, который жив в пятом веке до нашей эры (предположительно).
У индийцев большие проблемы с хронологией, потому что время до некоторого момента они никак не измеряли. Предполагают, что Палани жив в 4- 5 веке до нашей эры. Палани подошёл к изучению языка совершенно другим способом, он считал, что зык — это не номенклатура предметов, а некоторый творческий механизм, который позволяет строить тексты. Механизм этот состоит из правил и единиц, который, во-первых, из простых единиц строит сложные, а, во-вторых, соотносит элементы смысла к элементам означающего. Это совершенно другой принцип устройства описания языка. Панини опередил европейскую лингвистику на 2 с лишним тысячи лет. К методике, описания языка, которой пользовался Панини, европейцы пришли в 50-е года 20 века. Пришли они к этой методике совершенно случайно. С помощью машины ЭВМ. Произошёл Джорджтаунский эксперимент по переводу с английского языка на русский. Это обозначало новую эру в развитии лингвистики тоже.
После этого эксперимента, инженеры поняли, что без лингвистов им не обойтись, и привлекли к задачам создания машинного перевода лингвистов, но сразу же обнаружилось, что тот способ описания языка, который лингвисты владели для машинного перевода совершенно не годится. Стали разрабатывать общую схему машинного перевода: есть язык, с которого переводится что-то, сначала это “что-то” переводится на язык-посредник, который является общим для языка-источника и для целевого языка, и потом с языка посредника производится перевод уже на целевой язык.Для того, чтобы перевод был осуществлён, нужна была новая процедура, старые парадигмы не годились никак. Точнее они не годились.
Самый великий лингвист современности, который, кстати, до некоторой степени повторил тот же научный подвиг, как и Панини, это Андрей Анатольевич Зализняк. Он сделал описание русского языка по старым методам (парадигматический метод), который охватывал весь материал русского языка. Он сделал русское именное словоизменение. Эта книга и потом грамматический словарь русского языка лёг в основании всех систем машинного перевода. Таким образом, была обеспечена первая часть задачи, то есть есть единица, (известным образом друг с другом соотносится) и теперь, с помощью которых, эти единицы можно было составлять в предложения, в словосочетание и переводить с одного языка на другой. Для этого требовалось создать современный синтаксис, потому что словоизменение — учение о грамматических категориях, о изменении слова по падежам, числам, по родам определяет согласование данного слова с другими словами. Синтаксиса так такого Зализняк не описал.
Для того, чтобы продвинулась эта идея, было использована теория американского ученого-лингвиста Хомский, или как американцы произносят Чёмпски, как раз показал, как математически строго построить синтаксическую структуру предложения, любую, и изобрёл математический аппарат, который позволял бы структуру порождать, синтезировать. На базе этого учения Хомского был создан второй компонент машинного перевода, а именно синтаксический. Ещё требуется ко всему семантический компонент. Семантический компонент в системах машинного перевода сейчас практически не разработан. Самый продвинутый вариант сделала компания ABBYY, в которой я работал, как раз семантика там отображается в виде иерархического дерева приблизительно по примеру того, как тот же самый Уилкинс построил свой философский язык. У Уилкинса было 48 классов, они построены иерархическим методов.
Таким образом, есть две традиции описания знаковой части, знакового компонента, языковой системы и здесь всё разбивается уже на те компоненты, из которых устроен знак, то есть означающие, там три дисциплины: фонетика, фонология и морфология. При описании знаковых единиц языка, есть ровно три проблемы, которых надо решить в теоретической лингвистике. Первая проблема состоит в том, что конкретных звуков, с помощью которых отображается та, или иная мысль, бесконечное число. Сразу становится понятно, человек ориентируется не на бесконечное разнообразие звуков, а на какие-то классы, которых он должен запомнить, и их должно быть ограниченное число, но это уже будут абстрактные единицы.
На примере, мы видим, что слово «простыни» записано в транскрипции. В первом случае, здесь есть ударный звук «о» — прОстыни. На этом же слове «простынЯ» возникает другой звук. Этот звук называется редуцированным или, используя французский термин, — «шва». В слове «простынка» вместо «шва» и «о» идёт «а» закрытая. То есть, в конкретных позициях, в которых, в частности, зависит от ударения или от твёрдости или мягкости согласных, звук при произнесении меняются, но мы знаем, как он меняется, вариантов его изменения не так много. Благодаря этому, нам известны все варианты изменения этого самого звука. Это железный алгебраический закон.
Дисциплина, которая занимается означающим, называется морфонология, занимается историческими чередованиями. Каждое данное состояние языка — это результат его развития в истории. При этом, каждый раз, в любом совершенно языке действует основное правило произнесения в данном языке. Потом появляется новое правило, которое начинает постепенно расширять свою сферу действия, но никогда эти два кончика не соединяются, то есть вытеснения старых правил не происходит. Поэтому, в русском языке огромное количество чередований осталось от прежних времён. Они не предсказываются никаким фонетическим контекстом. Морофонология занимается историческими чередованиями, которые пришли в современный язык из другого времени.
Следующая группа дисциплин — это уже науки о целостных знаках: это морфология и синтаксис. Морфология занимается тем, как устроены самые маленькие значащие части слов — морфемы, и как из морфем строятся целостные слова. Первый источник морфологического словаря — заимствование. Второй источник — звукоподражание, или идиофоны, которые рождаются на ходу. Третий — сокращение. От сокращения ВУЗ можно образовать «вузы», «вузовский», «вузовка» и так далее. Некоторые сокращения превратились в корень, и мы начинаем этот корень использовать так же, как и другие нормальные корни в структуре “согласный, гласный, согласный”.
То же самое происходит и со словом, словарь бесконечен. Во-первых, существуют какие-то конструкции циклические. Возьмём смешное слово «ёрничать» от него можно образовать «ёрничество», от «ёрничества» преобразовать «ёрничествовать» и так далее. Это бесконечный ряд. Конструкцию «серо-зелёно-буро-малиновый» можно растягивать без конца. В принципе, число слов в языке бесконечно. Есть такие языки, в которых основы слов образуются так же легко, как и словосочетание. Я вам приведу пример из алюторского языка, где используется выражение «я кормлю ребёнка мясом». То же самое можно сказать и аналитическим способом, то есть все слова произнести отдельно. Это будет означать, что я занимаюсь конкретным действием, кормлением конкретного ребёнка, конкретным мясом. Если вы хотите сказать «я занимаюсь мясо, ребёнка, кормлением», тот тут уже используется второй способ передачи слов.
В этом языке, как вы понимаете, слова также образуются, как и словосочетания. Исчислить все слова этого языка невозможно. Можно только составить грамматику, по которым строятся слова. Это всегда было большой проблемой. Что лучше: составлять списки или изобретать правила, по которым строятся те, или иные выражения. Выясняется, что морфемы в слове соединены такими же синтаксическими выражениями, как и лексемы, то есть слова в предложении. Только отношения между морфемами в слове на порядок меньше, чем отношений, если их вычислять. Далее уже идут изучения семантической части языка. Семантика занимается с одной стороны смыслами, с другой исследует как преференциальный компонент. Есть ещё теория текста, которая пытается описать, по каким законам устроен большой целостный текст.
Именно последний способ описания языка используется в сложнейших инженерно-лингвистических моделях, позволяющих автоматически переводить тексты одного языка на другой. О них и об их развитии и пойдёт речь на лекции.
Лектор Александр Николаевич Барулин — сотрудник Института языкознания РАН. Закончил отделение структурной и прикладной лингвистики филологического факультета МГУ им. М. В. Ломоносова. Учился в аспирантуре Института востоковедения АН СССР, защитил диссертацию на тему «Теоретические проблемы описания турецкой именной словоформы» (1984). Проработал в Институте востоковедения 12 лет. В 1991 году совместно с В. К. Финном и Д. Г. Лахути организовал факультет информатики РГГУ и возглавил созданное на этом факультете отделение теоретической и прикладной лингвистики. В 1992 по проекту Барулина был организован факультет теоретической и прикладной лингвистики — он стал деканом этого факультета, а также заведующим кафедрой теоретической и прикладной лингвистики.
Под катом — подробная расшифровка лекции.
Меня зовут Александр Николаевич Барулин. Я старший научный сотрудник института языкознания Академии Наук, в прошлом я был деканом факультета теоретической прикладной лингвистики. Я его, собственно, и организовывал в РГГУ и был заведующим кафедрой с таким же точно названием.
Сегодня мы с вами поговорим о современной лингвистике, о том, что она уже умеет, и что ей ещё предстоит научиться делать. Язык изучают, в принципе, двумя способами. Первый способ — это изучение языка для того, чтобы потом на нём говорить. Это всем известный метод, и очень часто лингвистику отождествляют с наукой, которая занимается как раз тем, что разрабатывает методы хорошего преподавания различных языков. Второй способ изучения языка нужен для того, чтобы понять, как он устроен. Вторая цель для лингвистики является гораздо более важной и в основном лингвисты занимаются этой проблематикой. Изучают, как устроен язык, как устроена речь и как, собственно говоря, язык появился, как он развивался и так далее. Вот такие самые главные вопросы, которые волнуют лингвистику.
Современная лингвистика устроена очень сложно. Для чего язык человеку? Речь – это звук и смысл. Если мы возьмём просто какую-нибудь речь, то можно будет пользоваться вот такой схемой: существенно некто, у которого имеется некоторая цель коммуникации, есть канал коммуникации – звук, через звук передаётся некоторая информация, и есть адресат, который это всё воспринимает и определённым образом на это всё реагирует. Есть ещё условия коммуникации, есть код – соотношения, как раз обозначает означающего и означаемого. Если разбить речь на какие-то единицы, то получится, что конечной единицей будет один знак. Морфема – самая маленькая значащая часть слова. Она и будет самым маленьким знаком, на которого в разбиении речи можно дойти до самого маленького, и это будет та самая маленькая морфема. Но, с другой стороны, если я говорю с кем-то ещё, то в речь вплетается ещё тоже очень много различного рода сигналов, из которых можно извлечь некоторую информацию.
Сигналы устроены совсем не так, как устроены языковые знаки. Давайте выявим первое свойство языка, которое отличает его от всех видов коммуникации животных. Первое свойство состоит в том, что есть три базовых компонента языкового знака: звучание, некоторая информация о классе объектов, которые обозначаются, и сам конкретный объект, который обозначается. Древние греки, которые установили вот это впервые, они говорили так: знаки – есть три составляющих. Первое составляющее – это то, что мы слышим и варвары слышат, вторая составляющая – это то, что мы видим и варвары видят, а третья оставляющая – это, что мы понимаем, а варвары не понимают. Это три компонента, которые обычно входят в языковой знак, и, при этом, означающие языкового знака строятся комбинаторным способом, то есть отдельные звуки комбинируются, вытягиваются в цепочку какую-то и только эта цепочка звуков может обозначать целостный смысл. Такой линейной комбинаторике нет ни в одном языке животных.
Чем ещё язык отличается от коммуникативных систем животных? Почему это, собственно говоря, уникальное явление? У человека на языке можно говорить абсолютно о любых ситуациях, видах человеческой деятельности. Он обслуживает все виды человеческого поведения. Более того, процесс говорения опирается на специальный вид поведения, которого у животных нет. Этот тип поведения называется речевым поведением. Речь опирается на речевое поведение. Что ещё входит в речевое поведение? Во-первых, позы. По позе очень много можно понять, как человек относится к собеседнику, какие между ними отношения и так далее. Во-вторых, этого нет у животных, во всяком случае когда они используют звуковую коммуникацию, то этого у них тоже нет. Человек, для того, чтобы говорить с другим человеком, к нему подходит, останавливается на определённом расстоянии от него, и они начинают говорить. Оказывается, в разных странах вот это самое расстояние немножко разное, то есть в Соединённых Штатах это где-то 90 см приблизительно, а в Японии – 45. В одной из книжек, где описываются эти компоненты речевого поведения, в частности, описывается как. Этого у животных точно нет.
В принципе, вы знаете, что речь сопровождается обычно жестами и мимикой. Причём, что интересно, это независимые коммуникативные системы у человека, и они могут нести ровно противоположную информацию, потому что человек говорит, если он, допустим, врёт. За глазами и жестами, мимикой человеку уследить труднее. Теперь давайте ещё на одну вещь обратим внимание: если мы возьмём шимпанзе и вообще крупных человекообразных обезьян, у них тоже есть жестикуляция. Жестикуляция – достаточно молодая коммуникативная система. То есть у более мелких обезьян, нечеловекообразных, у них жестикуляция отсутствует, а вот у крупных обезьян она как раз присутствует и, более того, является ведущей системой коммуникации, не звуковая, а жестовая. Все коммуникативные системы, которые есть у животных и у обезьян в том числе, распределены каким-то образом по видам поведения, которым у них бывают, то есть, допустим, если имеются в виду агрессивные сигналы, то, значит, — это одна система, которая никак не связана с другими системами коммуникации. Если это, допустим\. Какие-то пищевые сигналы, три пищевых сигнала, они друг другу противопоставлены, но именно в этой узкой системе знаков. Если имеется в виду, скажем, сигнал опасности, то это тоже какие-нибудь три сигнала, которые никаким образом не связаны с другими видами коммуникации и, соответственно, они тоже друг другу противопоставлены, но с остальными никак не связаны. Получается, что у животных коммуникация сильно зависит от поведения, более того, она является частью той поведенческой программы, которую обслуживают эти самые сигналы. Это кардинальное отличие от языка.
Заметьте, язык универсален, а коммуникативной системы животных не универсальны, распределены по видам поведения и, соответственно, никакой общей коммуникативной системы, которая могла бы позволить обезьянам передавать друг другу информацию на любые совершенно темы, вот такой вот коммуникативной системы ни у обезьяны, ни у более низко расположенных на эволюционной лестнице, ничего такого нет.
Кроме всего прочего, язык отличается вот какого интересно деталью. Мы выяснили, что в языке есть две части: одна звучащая, означающая это, другая, семантика, которая охватывает смысловую часть какую-то и преференциальную часть, то есть те объекты, которые обозначаются с помощью языковых знаков. Это две абсолютно разные стихии. Они должны каким-то образом сопряжены.
В 1959 году вышла книжка моего учителя, Николая Ивановича Жилкина, который как раз определил впервые, что вообще-то речь управляется из двух разных центров. На самом деле, любому, кто знаком каким-то образом с тем, как работает мозг и с тем, как работает мозг во время речи, должно быть понятно, что речь опирается на дыхание. То есть, первый компонент речевого аппарата – это дыхание. Кстати, дыхание управляется из ствола мозга, а вся артикуляция, наоборот, управляется из коры. Значит, вот уже два разных центра, которые в принципе, должны быть согласованы для того, чтобы у вас получилась целостная речь. Для того, чтобы всё было там, действительно, сопряжено, дыхание опирается на свои какие-то ритмы, есть ритмы дыхания, есть ритмы мышления. Ритмы дыхания и мышления друг от друга не зависят, но в речи каким-то образом согласовались, нужна специальная система. Эта специальная система как раз получается благодаря тому, что из коры в подкорку так называемый ганглий идут так называемые проекции, есть определённые связи из коры в подкорку и вот, благодаря этим связям происходит координация дыхания и мышления, ещё к этому нужно артикуляцию добавить. Когда всё это согласуется, тогда возникает речь.
Дело в том, что у человека, когда он говорит, используется особый режим дыхания. Есть режим дыхания, когда мы стоим, находимся в покое, есть режим дыхания автоматический, когда мы спим, есть режим дыхания, когда мы бежим и согласуем количество кислорода, которое нам нужно для того, чтобы успевать бежать, есть ещё речевой режим дыхания. В чём его особенность? Когда человек говорит, он говорит на выдохе в отличие, кстати, от обезьяны. Обезьяны могут говорить на вдохе и на вдохе, им абсолютно всё равно, а человек говорит только на выдохе. Если только выдыхать, то наступает гипоксия – это недостаток кислорода, который должен поступать в мозг, и тогда мозг начинает как-то отключаться. Для того, чтобы избежать этого эффекта, человек, оказывается, на выдохе делает подвдох. В этом состоит особенность речевого дыхания.
Получается, есть некоторая стихия в человеке дыхательная, есть механизм дыхания, который работает по каким-то своим принципам, есть механизм мышления, который работает по своим принципам. Есть механизм управления мышцами, артикуляции, который работает по своим принципам. Всё это нужно соединить. Это различие между дыхательными и мыслительными ритмами, оно хорошо отображается в языке. Есть две линии усложнения единиц в языке, которые вам достаточно хорошо известны, то есть с одной стороны вот из самых маленьких единиц, из которых строится означающие языковых знаков, строятся слоги. Слоги не имеют никакого значения. Это единицы, ориентированные на ритмы дыхания. За слогами из слогов строятся так называемые акцентные слова. Например, «в доме» — это одно акцентное слово, а грамматических слов два «в» и «доме». Между ними можно поставить некоторое слово, которое не разрушит синтаксических связей между «в» и «доме». «В большом доме» между «в» и «доме» сохраняется та же синтаксическая связь и тогда, когда было просто «в доме».
Из акцентных слов строятся так называемые такты – цепочка акцентных слов, расположенные между двумя паузами. Из тактов строятся уже периоды. Эта одна линия усложнения языковых единиц, а другая линия усложнения языковых единиц из фонем строятся означающий морфов, самых маленьких единиц, из которых строятся единичные значения, из мораль строятся грамматические слова. Тут два грамматических слова «в» и «доме». Они уже как раз обязаны иметь смысл и сочетание грамматических слов, словосочетание, тоже должно иметь смысл в отличие от фонетических слов. Например, «я бы» объединяется в одно фонетическое слово, у него один акцент, до него и после него можно поставить паузу, а внутри нельзя. Это акцентное слово, в принципе, состоит из двух компонентов, которые по смыслу связаны словами. Или, допустим, немецкое «in dem» объединяется в артикль, плюс предлог «in». Здесь соединяются друг с другом два компонента, которые относятся к двум совершенно разным единицам, и они совершенно не связаны между собой по смыслу.
Таким образом, получается, одна линия, которая ориентирована на ритмы дыхания, я её буду называть линий метрических единиц, а вторая линия — знаковых единиц, то есть единиц, которых образуют некоторое смысловой единство, обозначают некоторый смысл и некоторый предмет.
То, что я вам сейчас рассказал, это предмет занятий специальной области лингвистики, которая называется философией языка. В принципе, лингвистика, как вы понимаете, занимается безумно сложным объектом. Её цель состоит в том, чтобы описать, как язык устроен, как он работает, какова его история. Задача эта безумно сложная, и она разбивается на отдельные мелкие задачи, которым посвящены отдельные лингвистике дисциплины, которые занимаются своей частью какой-то проблемы. Философия языка занимается тем, что она определяет, какую роль играет язык в человеческой жизни, она занимается тем, что определяет, как я уже сказал, чем отличается язык от других коммуникативных систем.
Великий русско-польский Куртенер лингвист предложил разбить все дисциплины, которые занимаются языком, на две части: синтетическую и аналитическую лингвистику. Синтетическая лингвистика занимается правилом построения искусственных языков. Они бывают двух видов. Бывают языки апостериорные, которые изобретены на базе кого-то уже существующего языка, либо по аналогии с естественным языком, когда изобретаются все детали, которые необходимы для создания такого языка, но по той схеме, которая уже существует в природе. Кроме того, есть ещё априорные языки, то есть, когда человек изобретает язык от начала до конца. Есть ещё философские языки, представляют собой некоторый логический код. Например, одна число соответствует одному компоненту смысла, потом они складываются. Слово «мама» разбивается на два компонента — родитель женского пола. «Папа» разбивается так же на два компонента — родитель мужского пола. Эти два компонента обозначаются специальными числами, которые можно соединить и получить целостностей слово «мама» и «папа». Так приблизительно устроен философский язык.
В принципе, это такое не очень удачное изобретение человечества, потому что там, в этих философских языках, не учитывается огромное количество совершенно необходимых языковых характеристик. Получается, учитывается только смысл, выражения искусственно построены, как обозначаются границы языковых единиц непонятно. То есть, может быть встроено понятие достаточно сложное, то оно будет состоять из необозримо большого числа чисел, которые соответствуют различным идеям. Воспринимать такие многокомпонентные образования человек все равно не может.
В 17 веке было целое понятие, изобретение искусственных языков, тогда все говорили о восприятии искусственных языков. Тема была необыкновенно модной. Ею занимались самые великие умы человечества. Лемниц, Ньютон, Уилкинс изобретали искусственные языки. Химик Бойль сам языков не изобретал, но учил все искусственные языки, которые есть и изобретали другие. Он жаловался, что на них практически разговаривать невозможно. В них нельзя было писать философских трактатов, но уж, тем более, писать стихов.
Потом, впоследствии, философские языки сыграли важную роль в изобретении первого языка — чистого смысла. Его изобрёл Готов Фрэген (один из основателей математической логики) и назвал его «Бигрюстшрифт» — алфавит понятий. Идея состояла в том, что имелся некоторый набор исходных понятий, с помощью которых можно было построить любое выражения логического языка в некотором роде, с выводом и так далее.
От данного искусственного языка пошли все языки программирования. Это замечательный образец для создания полезных языков, которые предназначены для узко специальной цели. На философских языках говорить было нельзя, но, тем не мненее, они получили некоторое применение.
Вторым направлением лингвистических исследований синтетической лингвистики является реанимация, или же воскрешение, древних языков, на которых можно было говорить. Надо отметить, что один эксперимент оказался удачным — это возрождение иврита, начавшееся в 1879 году, привело к тому, что у Израиля появился государственный язык, на котором раньше говорить было нельзя. Он отображал древние понятия, был языком культа, то есть, многих слов, которые нужны были для отображения современных понятий, там не было. Давайте перейдём к самом важной части лингвистики, аналитической лингвистики. Прежде всего, аналитическую лингвистику надо разделить на два сложных компонента. Первый компонент, диахроническая лингвистика — методика реконструкции праязыков, которые не дошли до нас в письменном виде, не имели письменности совсем. Лингвисты умеют по данным языков реконструировать праязыки. Например, у нас имеются русский, украинский, белорусский, произошедшие из древнерусского. Древнерусский, к счастью, был письменным, и мы можем проверить наши методы реконструкции праязыков. На латинском можно проверить методы реконструкции по праязыкам, по романским языкам: испанскому, итальянскому, французскому, ретороманскому, румынскому и т.д. На этих языках методика была отработана и проверена, выяснилось, что она работает достаточно хорошо. Тогда преступили к реконструкции языка, который не дошёл до нас ни в каком виде, а именно, прадеда европейского языка, то есть языка общего для: романских, германских, славянских, иранских индийских языков ( не всех, а некоторых). Была разработана специальная методика, которая состоит в том, что в языках обнаруживаются регулярные соответствия, то есть, берётся два родственных слова и мы наблюдаем, за тем, чем они отличаются. Например, в русском говорят слово «лес», а в украинском «лис». «Э» регулярно соответствует «и», звал некоторыми исключениями, которые связаны с тем, что в древнерусском языке был звук, который исчез и в русском и в украинском, а именно «ять». Такая методика позволяет реконструировать языки достаточно глубоко.
Самым древним из тех языков, который более-менее реконструирован, является ностратической реконструированный праязык. Дело в том, что лингвисты научились определять время распада праязыка. Они умеют определять, например, когда распался праиндоевропейский и праурало-алтайский языки и так далее. Время распада ностратического праязыка – 14-15 тыс. лет назад, то есть, это уже ледниковый период. Компаративисты, которые этим занимаются, охватывают всё постепенно. Например, коренные языки Африки сейчас пока что не охвачены реконструкцией, хотя предварительные данные показывают, что время распада, скажем, пракойсанского языка где-то уже 20 тыс. лет с лишним, но это неточные данные. Важно знать, на какие сроки, на какое время ориентироваться тем, кто исследует прохождение языка, когда он приблизительно возник. Результаты работ компаративистов говорят о том, что время возникновения языка приблизительно относится к 50-40 тысячам лет назад. При том, мы знаем, человек – разумный появился где-то 200 тыс. лет назад. Сейчас по Y-хромосоме определили, что даже ещё и раньше – 300 тыс лет назад. Языком он овладел гораздо позже. К этому времени, 40-50 тыс. лет назад, групп homo sapiens было уже довольно много. Они расселились по всему земному шару. Не было такого, что все языки Земли произошли из одного языка, то есть они уже были сильно разрозненны и, скорее всего, что независимо, возникли несколько из разных языков.
Я вам рассказал о компаративистике и глоттохронологии – наука, которая определяет возраст распада праязыка. В диахроническую лингвистику входит этимология – наука о происхождении слов, морфем, идиом. Существует историческая грамматика, которая занимается письменным периодом развития языка. Например, историческая грамматика русского языка начинает своё исследованием с древнерусского языка и прослеживает, как менялась грамматика на протяжении того времени, когда из древнерусского языка получался уже современный русский язык.
Кроме этих дисциплин, у которых достаточно строгая методика, в диахронической лингвистике относится глоттегоника – занимается происхождением языка, глоттогенезом. Здесь можно назвать два периода, когда занимались глоттогенезом. Это период до 70- годов буквально прошлого века и период после этого. До 70- х годов 20 века этой темой занимались, грубо говоря, приложив палец ко лбу, то есть никаких доказательств не требовалось от человека. Он просто предполагал, что «а вот язык возник вот таким-то образом». Особенно популярны были высказывания относительно появления первого слова.
На самом деле, происхождение языка представляет собой непрерывную цепь смены коммуникативных систем, начиная от наших предков, которые ничем не отличались от обезьян, до homo sapiens и промежуточных видов коммуникативных систем, которых всё-таки не одна тысяча. То есть надо проследить цепочку, для того, чтобы понять, как из звуковой системы обезьян возник человеческий язык, надо проследить цепочку коммуникативных систем, которая постепенно приближается по своим характеристикам к человеческому языку. Процесс этот был долгим. По моим исследованиям, получается, что первый сдвиг в сторону языка начался после homo habilis. Это, приблизительно, два и три десятых миллионов лет назад. Некоторые данные говорят, что ещё и раньше, — два и пять десятых миллионов лет назад. Как я уже сказал, человеческий язык появился где-то 50-40 тыс. лет назад. По огромному промежутку времени шла постепенная трансформация коммуникативных систем животных в человеческий язык, то есть это очень длительный процесс, который сопровождался физиологическими и нейрофизиологическими изменениями, в дыхании, в артикуляционном аппарате.
Достаточно сказать, что обезьяны не владеют языком, то есть язык у них в коммуникации не участвует. Должен был пройти некоторый период, чтобы человек овладел языком и начал воспроизводить звуки не так, как обезьяны. Обезьяны производят звуки так называемыми висцеральными мышцами — внутренними мышцами, которые, в частности, характеризуются тем, что ими нельзя управлять, нельзя их корректировать. Они происходят на полном автомате, то есть началась программа, пока она не закончится, никак вмешаться и откорректировать этот процесс нельзя. Артикуляционный аппарат человека должен был перейти от висцеральных мышц к скелетным, управления которыми уже можно корректировать. Только тогда, когда человек начал управлять языком с помощью скелетных мышц, началось движение уже к современному языку.
Сейчас это безумно сложная область, которая необыкновенно бурно развивается на Западе и почти не как у нас. То есть, в России всего три человек, которые занимаются этим всерьёз, а на Западе уже издают учебники.
Теперь перейдём к синхронной лингвистике. Это самый важный и сложный компонент в лингвистике. Я расскажу про теоретическую лингвистику. Теоретическая лингвистика как раз разбивается на под-дисциплины. Дисциплины, которые занимаются метрическими единицами, то есть слогом, акцентным словом, тактом и периодом. Надо сказать, что это безумно важный аспект лингвистики, которым, в принципе, она ещё не очень-то начала заниматься.
Само различение этих двух направлений усложнения единиц, как я уже сказал, предложил Бодуэн де Куртенэ в 1915 году, но после этого ещё было несколько таких же точно предложений без ссылок на него, в частности, Реформатский предлагал то же самое. Был такой замечательный лингвист, Пешковский, который предлагал то же самое, и ещё был американский лингвист Хоккет, который тоже сделал такое же предложение. Но никаких последователей ровно в этом направлении у них не было.
При этом, замечательным образом, оказывается, что в разных языках эти метрические и сигнификативные единицы языка совпадают на совершенно разных уровнях. Скажем, в древнекитайском языке сразу совпадает слог и морф. Поскольку морф совпадает со словом, там есть всего один вид морфемы — это корни. Никаких аффиксов, никаких клитик в древнекитайском языке нет. Вся структура древнекитайского языка зависит ровно от двух этих вещей: от того, что там совпадает слог и морф, и от того, что никаких других типов морфем, кроме как корневых нет. Соответственно, в это языке нет никакой парадигмы склонения, спряжения. Функция единиц определяется порядком слов. Есть язык, например, брувантъеву, в это языке совпадает фонетическое и грамматическое слово, а слог и морф уже не совпадают, то есть могут быть односложные морфы, двусложные морфы, но более, чем двусложных грамматических, фонетических слов там нет. Вот они там совпадают.
Во многих языках Полинезии уже два типа морфем имеется, а именно: клитики, это типы наших предлогов или частиц типа «ж», «к», «бы», корни, но нет аффиксов никаких. У них тоже нет склонений, спряжений, но зато все функции обозначений синтаксических связей между единицами обозначаются клитиками. У них другое совсем понятие о слове должно быть совершенно, должна быть совершенно по-другому устроена грамматика, чем, скажем, в древнекитайском или в русском языке. Существуют языки, в которых есть всё, то есть аффиксы, клитики и корни. При этом, там есть языки, в которых есть только префиксы, как например, языки банту. Все грамматические показатели там выражаются префиксальном способом, а не суффиксальном, как у нас, например. Это правоветвящиеся языки. Есть языки тюркские, в которых нет ни одного префикса, но зато только есть суффиксы, то есть, то, что стоит после корня. Это уже левоветвящиеся языки. Есть языки, в которых есть и префиксы и суффиксы — это языки, ветвящиеся в обе стороны, когда строится слово.
Таким образом, получается, что эта информация о том, как соотносится единица метрического типа с единицами знакового типа, безумна важна. Для построения грамматики, для построения типологии языков, собственно говоря, для того, чтобы понять на какие классы языки делятся, как они могут быть устроены, и как в них устроены причинно-следственные связи. Здесь лингвистика находится в самом начале пути, ей ещё нужно научиться описывать метрические единицы, но зато знаковая единица описывается очень давно. Этой части лингвистики больше четырёх тысяч лет.
Дело в том, что первые грамматические описания были обнаружены в пособии для писцов в Шумере. Самым древним из них — 2,5 тыс. лет до нашей эры. Шумерская лингвистика по своему типу была унаследована греками, и особенность её состояла в том, что там сведения о языке задавались списками. В Шумере была такая философия: мир представляет собой номенклатуру предметов (греки наследовали эту философию, у них тоже мир состоял так же), а язык — это номенклатура предметов или имён действий. Это первая линия развития лингвистики.Она занималась, в основном, тем, что изучала то, как единица соотносится у нас в памяти. В языке есть алгоритмы, которые организуют весь языковой материал в памяти и есть некоторые механизмы, которые позволяют строить из единиц более сложные единицы, вплоть до больших-больших текстов.
Первый тип языкового материала называется парадигматикой, а второй синтагматикой. Всё то, как у нас организовано в памяти, — это парадигматика. Греки, в основном, занимались парадигматикой. Любой язык, где есть склонение и спряжение, грамматика такого рода языков представляет списки. Первая линия, идущая от древних греков и римлян — построение грамматического описания языка. Вторая линия идёт от индийского монаха, который жив в пятом веке до нашей эры (предположительно).
У индийцев большие проблемы с хронологией, потому что время до некоторого момента они никак не измеряли. Предполагают, что Палани жив в 4- 5 веке до нашей эры. Палани подошёл к изучению языка совершенно другим способом, он считал, что зык — это не номенклатура предметов, а некоторый творческий механизм, который позволяет строить тексты. Механизм этот состоит из правил и единиц, который, во-первых, из простых единиц строит сложные, а, во-вторых, соотносит элементы смысла к элементам означающего. Это совершенно другой принцип устройства описания языка. Панини опередил европейскую лингвистику на 2 с лишним тысячи лет. К методике, описания языка, которой пользовался Панини, европейцы пришли в 50-е года 20 века. Пришли они к этой методике совершенно случайно. С помощью машины ЭВМ. Произошёл Джорджтаунский эксперимент по переводу с английского языка на русский. Это обозначало новую эру в развитии лингвистики тоже.
После этого эксперимента, инженеры поняли, что без лингвистов им не обойтись, и привлекли к задачам создания машинного перевода лингвистов, но сразу же обнаружилось, что тот способ описания языка, который лингвисты владели для машинного перевода совершенно не годится. Стали разрабатывать общую схему машинного перевода: есть язык, с которого переводится что-то, сначала это “что-то” переводится на язык-посредник, который является общим для языка-источника и для целевого языка, и потом с языка посредника производится перевод уже на целевой язык.Для того, чтобы перевод был осуществлён, нужна была новая процедура, старые парадигмы не годились никак. Точнее они не годились.
Самый великий лингвист современности, который, кстати, до некоторой степени повторил тот же научный подвиг, как и Панини, это Андрей Анатольевич Зализняк. Он сделал описание русского языка по старым методам (парадигматический метод), который охватывал весь материал русского языка. Он сделал русское именное словоизменение. Эта книга и потом грамматический словарь русского языка лёг в основании всех систем машинного перевода. Таким образом, была обеспечена первая часть задачи, то есть есть единица, (известным образом друг с другом соотносится) и теперь, с помощью которых, эти единицы можно было составлять в предложения, в словосочетание и переводить с одного языка на другой. Для этого требовалось создать современный синтаксис, потому что словоизменение — учение о грамматических категориях, о изменении слова по падежам, числам, по родам определяет согласование данного слова с другими словами. Синтаксиса так такого Зализняк не описал.
Для того, чтобы продвинулась эта идея, было использована теория американского ученого-лингвиста Хомский, или как американцы произносят Чёмпски, как раз показал, как математически строго построить синтаксическую структуру предложения, любую, и изобрёл математический аппарат, который позволял бы структуру порождать, синтезировать. На базе этого учения Хомского был создан второй компонент машинного перевода, а именно синтаксический. Ещё требуется ко всему семантический компонент. Семантический компонент в системах машинного перевода сейчас практически не разработан. Самый продвинутый вариант сделала компания ABBYY, в которой я работал, как раз семантика там отображается в виде иерархического дерева приблизительно по примеру того, как тот же самый Уилкинс построил свой философский язык. У Уилкинса было 48 классов, они построены иерархическим методов.
Таким образом, есть две традиции описания знаковой части, знакового компонента, языковой системы и здесь всё разбивается уже на те компоненты, из которых устроен знак, то есть означающие, там три дисциплины: фонетика, фонология и морфология. При описании знаковых единиц языка, есть ровно три проблемы, которых надо решить в теоретической лингвистике. Первая проблема состоит в том, что конкретных звуков, с помощью которых отображается та, или иная мысль, бесконечное число. Сразу становится понятно, человек ориентируется не на бесконечное разнообразие звуков, а на какие-то классы, которых он должен запомнить, и их должно быть ограниченное число, но это уже будут абстрактные единицы.
На примере, мы видим, что слово «простыни» записано в транскрипции. В первом случае, здесь есть ударный звук «о» — прОстыни. На этом же слове «простынЯ» возникает другой звук. Этот звук называется редуцированным или, используя французский термин, — «шва». В слове «простынка» вместо «шва» и «о» идёт «а» закрытая. То есть, в конкретных позициях, в которых, в частности, зависит от ударения или от твёрдости или мягкости согласных, звук при произнесении меняются, но мы знаем, как он меняется, вариантов его изменения не так много. Благодаря этому, нам известны все варианты изменения этого самого звука. Это железный алгебраический закон.
Дисциплина, которая занимается означающим, называется морфонология, занимается историческими чередованиями. Каждое данное состояние языка — это результат его развития в истории. При этом, каждый раз, в любом совершенно языке действует основное правило произнесения в данном языке. Потом появляется новое правило, которое начинает постепенно расширять свою сферу действия, но никогда эти два кончика не соединяются, то есть вытеснения старых правил не происходит. Поэтому, в русском языке огромное количество чередований осталось от прежних времён. Они не предсказываются никаким фонетическим контекстом. Морофонология занимается историческими чередованиями, которые пришли в современный язык из другого времени.
Следующая группа дисциплин — это уже науки о целостных знаках: это морфология и синтаксис. Морфология занимается тем, как устроены самые маленькие значащие части слов — морфемы, и как из морфем строятся целостные слова. Первый источник морфологического словаря — заимствование. Второй источник — звукоподражание, или идиофоны, которые рождаются на ходу. Третий — сокращение. От сокращения ВУЗ можно образовать «вузы», «вузовский», «вузовка» и так далее. Некоторые сокращения превратились в корень, и мы начинаем этот корень использовать так же, как и другие нормальные корни в структуре “согласный, гласный, согласный”.
То же самое происходит и со словом, словарь бесконечен. Во-первых, существуют какие-то конструкции циклические. Возьмём смешное слово «ёрничать» от него можно образовать «ёрничество», от «ёрничества» преобразовать «ёрничествовать» и так далее. Это бесконечный ряд. Конструкцию «серо-зелёно-буро-малиновый» можно растягивать без конца. В принципе, число слов в языке бесконечно. Есть такие языки, в которых основы слов образуются так же легко, как и словосочетание. Я вам приведу пример из алюторского языка, где используется выражение «я кормлю ребёнка мясом». То же самое можно сказать и аналитическим способом, то есть все слова произнести отдельно. Это будет означать, что я занимаюсь конкретным действием, кормлением конкретного ребёнка, конкретным мясом. Если вы хотите сказать «я занимаюсь мясо, ребёнка, кормлением», тот тут уже используется второй способ передачи слов.
В этом языке, как вы понимаете, слова также образуются, как и словосочетания. Исчислить все слова этого языка невозможно. Можно только составить грамматику, по которым строятся слова. Это всегда было большой проблемой. Что лучше: составлять списки или изобретать правила, по которым строятся те, или иные выражения. Выясняется, что морфемы в слове соединены такими же синтаксическими выражениями, как и лексемы, то есть слова в предложении. Только отношения между морфемами в слове на порядок меньше, чем отношений, если их вычислять. Далее уже идут изучения семантической части языка. Семантика занимается с одной стороны смыслами, с другой исследует как преференциальный компонент. Есть ещё теория текста, которая пытается описать, по каким законам устроен большой целостный текст.