Pull to refresh

Comments 91

Да, все там делал. Он отваливается периодически, но в целом довольно удобно (когда другого варианта все равно нет).
UFO just landed and posted this here
Ну это тот же Colab. Я имел в виду, когда своей карты нет.
UFO just landed and posted this here
Тут согласен. С другой стороны, на колабе v100 и a100 выпадают на самой платной подписке.

Сергею большое спасибо, за то что откликнулся и дообучил модель башкирского языка. Вообще мы давно занимаемся выравниванием текста, чтоб улучшить в первую очередь качество машинного перевода. Если раньше этим занимались несколько только человек, так как в ручном режиме выравнивать книги не очень удобно, со смартфона вообще не возможно. То теперь мы предварительно этим алгоритмом находим кандидатов, а потом в телеге люди через смартфон просто проверяют, на сколько перевод правильный. Сейчас к боту телеги подключены более 300 человек. Поэтому если кто то занимается такой же задачей, я думаю и Сергей и я сможем вам помочь.

Вполне вероятно, что меня заминусуют, но я все же задам свой вопрос. В чём ценность этих малых языков? Зачем вообще вкладывать силы в их поддержание? Особенно тех ста пятидесяти языков, которые насчитывают менее тысячи носителей?

Со столь малым количеством носителей у языка нет и не может быть никакого культурного пространства. А без культурного пространства язык - это просто кодировка. Можете сравнить объем и количество статей на Википедии почти по любой теме на английском языке и на русском, количество качественных книг по любой теме на Амазоне и на Озоне, и вы увидите насколько культурное пространство русского языка меньше, чем у английского. А количество носителей русского в мире - около 200 млн человек! А вы говорите про чувашский с 1 млн носителей и башкирский с 1.4 миллионами носителей.

В девятнадцатом-двадцатом веке произошел процесс объединения и унификации большинства диалектов каждого из языков - английского, французского, итальянского, немецкого, испанского, русского. Если раньше чуть ли не в каждом городе был свой диалект языка, то с приходом эры развития коммуникаций языки унифицировались и стандартизировались - частично благодаря усилиям государств, частично благодаря естественным процессам. Остались мелкие различия в диалектах вроде "тротуара"-"поребрика" и "подъезда"-"парадной", да и те скорее всего скоро вымрут. Культурное пространство языка в эпоху деревень и слабосвязных городов было разрозненным. В эпоху же, когда все смотрят одни и те же передачи по телевизору и ютубу, читают одни и те же тексты в интернете, культурное пространство языка едино и унифицировано. И это хорошо. По той же логике исчезновение малых языков - это тоже хорошо.

Зачем тратить силы на попытки реанимации трупов? Зачем тратить время на языки, на которых не издаются и не читаются книги, не пишутся и не читаются статьи, на которых даже в быту мало кто разговаривает? Чтобы разжигать националистические чувства малых народностей?

"тротуара"-"поребрика"

Бордюр же.

И сосули с сосисами.

<offtopic>
бордюр и поребрик это два типа укладки.

image
</offtopic>
А вот на правой картинке он поребрик по все длине, включая ту часть где он вровень с плиткой, или только на участке с травой? ;-)

Ага. А подъезд и парадная - это разные типы входов в здание.

Хоть я тоже не понимаю, зачем искусственно неносителем пытаться воскресить неродной язык, именно на Ваши вопросы я вижу ответы.

Вы, кажется, исходите из того, что единственная цель языка — это создать канал для общения между людьми. Аналогия: вот есть локальная сеть, где узлы могут общаться между собой и ресурсы распространяются только внутри, а есть Интернет — единое пространство имён и адресов. При таком подходе Вы правы, нужно одно пространство.

В языке есть либо какие-то собственные уникальные свойства/возможности, либо сопряженные с определённой культурой, либо внешние по отношению к языку. Собственные свойства языка могут быть интересными, даже если на языке не говорит уже или ещё никто; это определённо повод над развитием этого языка работать. Например, в русском люди умеют двигаться; в английском люди двигаются менее осмысленно; с другой стороны, в английском есть система времён, а в русском она поломанная и убогая.

Если язык является предлогом (маркером, идентификатором) к культурному пространству: аналогиям, образам, идеям, взглядам, догматам, традиции, — то унификация невозможно ни в пространстве, ни во времени даже для одного языка (например, русский русских в Америке и в России, в современной, в СССР и в царской). Даже разные поколения и разные субкультуры оперируют разными образами. Вы говорите, что

В эпоху же, когда все смотрят одни и те же передачи по телевизору и ютубу, читают одни и те же тексты в интернете, культурное пространство языка едино и унифицировано. И это хорошо.

но это, во-первых, не так, люди читают то, что им интересно, а во-вторых, пространство не едино (вспомним хотя бы феномен падонкаффского языка). К тому же, я не считаю, что унификация — это всегда хорошо. Хотя я согласен с Вами, что логика применимо к малым языкам должна быть такой же, как в этом вопросе.

Так вот, с этой точки зрения ценность умирающего языка определяется глубиной (не количество, а качеством) умирающей культуры. Реанимировать язык без культуры? Зачем? Например, на хабре читаешь некоторые посты — написаны по-английски, хотя русскими буквами, русскими словами и с падежами. Язык как кодировка, да. А у других переводчиков люди двигаются и сотрудники без экспертизы.

Из внеязыковых свойств Вы отметили распространённость. Это не делает сам язык хорошим, сколько говорит о носителях и современном состоянии общества. Непопулярность не должна приниматься во внимание при оценке самого языка. Это всё равно, что сказать N-е лет назад, что никакая TypeScript не нужна, потому что все знают JavaScript; или сейчас сказать, что git — это хорошая система контроля версия, потому что она всеми поддерживается и все её знают, никакая другая нам не нужна. Хотя распространённость — это показатель, да.

Распестрённый язык живёт и развивается, совершенствуется, эволюционирует. Малые языки существуют, влачат существование.

Хороший пример Мальта. Да есть Мальтийский язык. Но даже местные на слабо разговаривают да и не все. Что бы поступить в госуниверситет Мальты надо сдать экзамены по нему, в итоге молодежь просто имея шенген уезжает на учёбу в Европу. Можно заставлять учить язык, но в итоге самые лучшие проголосуют ногами.

Сравнение с языками и инструментами программирования не совсем верное. Новые языки и инструменты призваны проще решить задачи, которые трудно решить на других языках. Естественные же языки в принципе решают одну и ту же задачу - передать информацию от человека к человеку.

Кроме того из-за простоты смены языка программирования по сравнению с естественным языком, процесс естественного отбора среди языков программирования идет гораздо быстрее. Основных языков осталось не так уж и много: JavaScript, Python, Java, PHP, C, C++, C#, Swift, Kotlin, Rust, Go и небольшое количество менее популярных вроде Scala, Haskell.

Кроме того, существует гипотеза лингвистической относительности Сепира-Уорфа, из верности которой следует, что передача сложной информации на английском языке будет гораздо качественнее, чем на чувашском.

Так вот, с этой точки зрения ценность умирающего языка определяется глубиной умирающей культуры

Какая глубина культуры может быть у малых языков? Они ведь умерли не просто так, а именно потому что не имели культуры, а поглотившая их цивилизация с другим языком её имела.

Я как-то был на фестивале местной культуры в мордовском селе в Пензенской области. Из культуры там были только красно-цветастые платья, которые в реальной жизни никто не носит, частушки на мордовском, которые в реальной жизни никто не поет, и пирожки с картошкой, не имеющие вообще никакой связи с мордовской культурой как таковой. Никаких всемирно известных произведений литературы уровня Достоевского, картин уровня Васнецова, никаких музыкальных произведений уровня Чайковского и никакого кино уровня Тарковского там не было, нет и никогда не будет.

Богатая культурная среда существует только у имперских языков, которые когда-то где-то были lingua franca - английского, французского, немецкого, итальянского, испанского, русского, китайского, арабского. Культура - это продукт жизнедеятельности городской цивилизации, а не деревенской. У малых деревенских народов культуры быть не может, ей неоткуда там появиться. До сих пор во всем мире чувствуется культурное влияние двух величайших цивилизаций античности - греческой и римской, и соответственно их языков - древнегреческого и латыни. Никакого влияния чувашской культуры мир не ощущает, да и о её существовании понятия не имеет.

Единственным исключением из правила, как мне кажется, является иврит и еврейская культура. Израиль никогда не был империей, а в период с II по XX век вообще не существовал. Иврит в это время был исключительно языком коммуникации между еврейскими диаспорами разных стран, на котором даже сами евреи не говорили в быту. Но тем не менее из-за популярности христианства древне-еврейская культура и язык сильно повлияли на европейскую культуры.

Понравился ли фестиваль?

Пирожки с картошкой были очень вкусными

Тот, кто знает, что он ничего не знает, знает больше того, кто не знает, что он ничего не знает.

Ну таки Сычков писал многое в мордовских деревнях, да и Степан Эрзя тоже в целом существовал в международном масштабе (это я так, привел навскидку первое что вспомнил).

Например, в русском люди умеют двигаться; в английском люди двигаются менее осмысленно

Беглое гугление не дало никаких результатов, а сам я не очень понимаю о чём здесь речь.

Речь о большой вариативности и гибкости глаголов движения в русском языке:
ЕХАТЬ: приехать, уехать, заехать, переехать, подъехать…
И таких глаголов целый набор, каждая форма меняет смысл или нюансы смысла.
Это сильно впечатляет изучающих русский язык иностранцев.
Однако, я бы отметил, что большинство этих смыслов передается и в английском языке, но вместо изменения формы слова как в русском, там используются предлоги, формирующие с глаголом устойчивые выражения.

Теперь понятно, спасибо. Но ведь это действительно нельзя записать в значимые различия. Просто разные способы словообразования( синтетические/аналитические языки)

Видимо, имеется в виду однонаправленные и разнонаправленные глаголы движения в русском языке. Идти/ходить, вести/водить, поплавать/поплыть и тому подобные пары.

https://github.com/una-language/una-language — ваше?
В чём ценность этого малого языка? Зачем вообще вкладывать силы в его поддержание? 531 коммит в язык который с близкой к единице вероятностью никогда и никем не будет использован в проде. Что будет если сравнить сообщество этого языка и какого-то захудалого бейсика, не говоря уже про мейнстримные питоны/плюсы/жсы?


Совершенно согласен с тем что языки-трупы не нужны, но неплохо бы самому соответствовать своим стандартам.

Ни в чем)

Это был интересный пет-проект по созданию языка с LISP-подобным синтаксисом на платформе JavaScript с добавлением значимой интендации а-ля Python. Проект принес мне море удовольствия, и я узнал много нового про внутреннее устройство JavaScript.

После завершения этого проекта я не вкладываю в него никаких сил. Его ценность для внешнего мира примерно нулевая. Для меня как творца он бесценен как мое лучшее произведение программистского искусства.

Язык - важная часть культуры народа. Нет языка - исчезает его культура - исчезает народ. Вы возразите: "а зачем нам все эти народы? Пусть будет один народ с одной культурой и унифицированным, математически выверенным языком." Кроме прочего, такому народу зашло бы всемирное правительство, им проще управлять, ставить перед ним великие цели и контролировать их исполнение... Чувствуете, как в этих рассуждениях мы движемся к антиутопии?

А как быть тем разным народам у которых одинаковые языки? Например, на Балканах в бывшей Югославии такое часто встречается.

Говорящие на одном языке сербы и хорваты отличаются друг от друга вероисповеданием и историей в большей степени, чем русские и украинцы, имеющие разный язык. Так что не один язык все решает, хотя его фактор очень важен.

Сами югославы (не все, но существенная часть) считают, что у них разные языки.

Языки, как и культура народов в целом, развиваются по принципу биологических систем. Сиамские близнецы - это один организм или два? В биологии принято считать что два, даже если у них одно сердце на двоих.

Вообще, многие вещи из биологии применимы к человеческим языкам и культуре. Эволюция, естественный отбор, мутации, изоляция, биоразнообразие - вот это вот всё. Это говорит нам о том, что даже если в какой-то момент у цивилизации останется только один язык и культура, например, в результате катастрофы или геноцида, со временем они всё равно будут разделятся на диалекты, мутировать, отмирать и возрождаться. В противном случае это будет уже не человеческая и даже не земная цивилизация, какой мы её знаем.

Давненько на Хабре не доводили до Гитлера.

"Нет языка - исчезает его культура - исчезает народ"

Самый наглядный пример - Австрия. Языка нет, а народ и культура - есть.

У австрийцев язык, скажем, есть. Надо другой пример.

Нет, "Государственный язык — немецкий".

И что с того?

В Ирландии государственный язык ирландский, но на нём разговаривают 1.7% ирландцев, остальные -- на английском. В Беларуси на белорусском тоже разговаривает меньшинство (около четверти).

Опять мимо.

Как говорит немецкая вики, "это родной язык около 88,6% от австрийских граждан".

Т.е., повторюсь, нагляднейшая демонстрация того, что языка нет, а народ и культура есть.

Ну надо же, а на https://de.wikipedia.org/wiki/Bairisch написано "gesprochen werden die bairischen Dialekte hier von insgesamt etwa 12 Millionen Menschen im <...> größten Teil der Republik Österreich (ohne Vorarlberg)"

Расскажете, что родной язык для австрийцев хохдойч, а потом их переучивают на байриш? Ну-ну.

Т.е. вас не смутило слово "диалект"?

Язык - немецкий. Да, есть австрийский диалект немецкого языка. Но язык остаётся.

Т.е. вас не смутило, что в самом начале этой викистатьи написано "Die bairische Dialektgruppe wird von der Internationalen Organisation für Normung als eigenständige Einzelsprache klassifiziert"?

Слово Dialekte (это мн.ч.) в предыдущей цитате относится к диалектам именно баварского языка.

Нет, не смутило. "Официальный язык – немецкий. Имеющий достаточно характерное местное произношение и множество идиоматических оборотов, повседневный австрийский заметно отличается от "хохдойч" (литературного немецкого). Австрийские диалекты близки к баварскому Германии и немецкому Швейцарии, при этом локальные говоры прослеживаются практически повсеместно. Во многих районах присутствует свой характерный сленг, часто малопонятный даже соседям, но в общении местные жители все же стараются придерживаться "стандартного" языка. По разным оценкам его постоянно используют от 85 до 88% населения, но понимают практически все."(с)инет

Т.е. язык государственный немецкий, разговаривают на немецком, при этом присутствуют диалекты.

P.S. По моему скромному наблюдению, устойчивое нежелание признавать феномен Австрии, часто относится к области политических убеждений, совершенно не связанных с проблемой собственно языка.

Значит, сначала вы ссылались на неназванную статью девики, а когда оказалось, что в девики написано не это — то её авторитет сразу затмевает какой-то неназванный русский ресурс?

Устойчивое нежелание признавать байриш языком, даже когда международные организации признали — к какой области относится?
Вас, наверное, смущает слово «немецкий». Типа раз не «австрийский», то нет своего языка.
Язык — важная часть культуры народа. Нет языка — исчезает его культура — исчезает народ.
В США проживают представители сотен народов, которые повседневно общаются на едином английском языке и которые на этом языке совместно построили одну из самых влиятельных экономик мира и культуру (кино, игры, музыка и т.д.), которая понятна и любима практически во всем мире.

Не совсем так. Очень многие люди в США в повседневном общении используют не английский язык.

Стоит уточнить, что "очень многие" -- это 22%:

Кроме прочего, такому народу зашло бы всемирное правительство, им проще управлять, ставить перед ним великие цели и контролировать их исполнение… Чувствуете, как в этих рассуждениях мы движемся к антиутопии?

Ну лично я чувствую, как в этих рассуждениях мы движемся к лучшему будущему, до которого человечество когда-нибудь все же дорастет.

Слишком рискованно. Всемирное правительство будет единой точкой отказа для человеческой цивилизации.

Понятие "народ" в современном мире очень размытое. С учетом ассимиляции, которая есть у всех народов.

объединения и унификации большинства диалектов каждого из языков - английского, французского, итальянского, немецкого, испанского

Появились литературные языки, которые преподаются в школах, типа хохдойч, но местные диалекты и по ныне вполне здравствуют, зачастую являются предметом гордости(или некоторого стыда) и части местной культуры. А человек такое существо, что ему важно чувство принадлежности к какой-то группе, и по возможности группе поменьше. Ну и диалект или язык помогает ему в этом.

На фоне других языков как раз становится заметно, что русскому языку очень сильно не повезло в части сохранения диалектов и говоров. Как бы не скатиться в лингвистический детерминизм, но возможно ли уничтожение диалектов внесло свой вклад в неразвитость и неухоженность российский регионов? Унифицированный язык это как советские микрорайоны - вроде бы как всё общее, а вроде и бы ничейное, нет чувства принадлежности. Да и даже в условиях России людям интереснее ездить в самобытные города со своей культурой и языком, нежели чем в безликий советский Новосибирск, к примеру.

P.S. Жителям НСКа: «В очередь, сукины дети, в очередь!»

Интересная точка зрения. Это как жить в многоэтажке и требовать, чтоб ЖЭУ убирались и жить в частном доме и наводить порядок самому, так как чувствуешь ответственность.

Унифицированный язык это как советские микрорайоны — вроде бы как всё общее, а вроде и бы ничейное, нет чувства принадлежности.
ИМХО, чувство принадлежности психологически связано с чувством собственничества и следовательно не возможно без чувства индивидуальности. А Советская власть отчаянно боролась с индивидуализмом в пользу «коллективизации» на всех уровнях и никакое языковое разнообразие бы тут ничем не помогло.
UFO just landed and posted this here

Мне кажется, что меня тоже заминисуют, ну ладно Думается мне, что это политический момент.

В последние 10 лет очень много НКО внезапно "озаботились" малыми языками в РФ. Под это дело вкачиваются большие средства. Цель ясна - заложить бомбу в мягкое подбрюшье РФ - Поволжье и потом подорвать. На Украине в далёких 90х всё так же начиналось. Технологии мягкой силы уже отработаны))

Причем так забавно слушать "малых" националистов. У них злой Путин навязывает им русский. В то же время молодежь мегаполисов РФ уже говорит на суржике руинглиша. Как бы нелогично, но люди ищут злодея, не понимая, что как вы верно заметили это мировая тенденция. И русского когда-то не станет. Мир придёт к 6ти мировым языкам. Это правильно.

Вместо замыкания на своем микрорегионе проще выучить русский, используемый на бСССР, английский - на весь мир и какой-нить язык программирования. Всё. Вот молодежь и "голосует ногами".

Откуда 6 то? когда одного брокен инглиша хватает?

Да, политический момент, к сожалению. "Язык - это диалект с армией и флотом". По описанным вами же причинам, французы в свое время боролись за единый французский (то есть, Парижский диалект), а испанцы - за единый испанский. Чем сильно подсократили численность говорящих на баскском, например. А баскский - вообще уникальный язык в Европе.

Короче, ужасно жаль, что малые языки попадают под раздачу в этой нашей политике. Насколько было бы круче, если бы государства гордились тем, какая у них богатая культура: 100 языков и 100500 диалектов.

Ответа на вопрос "зачем нужны языки малочисленных народов?" у меня нет. Но относительно ваших доводов могу написать свои соображения.

1. В чём ценность этих малых языков? 

Ценность для кого, для остальных? А почему должна быть ценность? Почему народ просто не может жить сам по себе? Говоря вашим же языком, можно утверждать: зачем нам старики, они уже ничего не производят, а государство им выплачивает просто так деньги.

2. Со столь малым количеством носителей у языка нет и не может быть никакого культурного пространства.

Если говорить про башкир, то нас больше миллиона и есть своя республика, сопоставимая по размерам с некоторыми странами. Культура у народа есть, она не утеряна, причем человек может не знать или плохо знать свой родной язык, но при этом культура эта его окружает и на него влияет.

3. Можете сравнить объем и количество статей на Википедии почти по любой теме на английском языке и на русском, количество качественных книг по любой теме на Амазоне и на Озоне, и вы увидите насколько культурное пространство русского языка меньше, чем у английского. А количество носителей русского в мире - около 200 млн человек! А вы говорите про чувашский с 1 млн носителей и башкирский с 1.4 миллионами носителей.

Всякие Википедии, книги на сайтах - это не показатель. Для примера русских 200млн, а статей всего 1,7млн, то есть 1 статья на 100 человек. А башкир 1,4млн, а статей в Вики 58тыс, т.е. 1 статья на 24 человека. Получается у башкир на человека выходит в 4 раза больше статей, но это же не означает что культура у башкира выше в 4 раза.

Вообще основная идея, из за чего я этим занимаюсь, как раз помочь оцифровать язык. Это включает в себя распознавание языка(STT), синтез речи(TTS), машинные переводы, языковые модели. Вот когда все это будет, вот тогда и поговорим появятся дополнительные возможности по сохранению языка. Простой пример: дети сейчас с детства смотрят ютюб блогеров. Как правило это русскоговорящие блогеры. Кто мешает перевести их и озвучить на родном языке? У Яндекса же получилось 😊 На самом деле инструменты, которые позволят это сделать, они все ближе и доступнее.

А вы говорите про чувашский с 1 млн носителей и башкирский с 1.4 миллионами носителей.

Как русские могут понять славянские языки, так и башкиры понимают тюркские языки. А носителей тюркских языков более 180млн, почти сопоставимы с русскими. Так что здесь у нас даже появляется преимущество перед русскими, так как живя в РФ мы знаем и русский.

В девятнадцатом-двадцатом веке произошел процесс объединения и унификации большинства диалектов каждого из языков

Да, даже сейчас в РФ есть "силы", которые направлены на то, чтоб оставить только русский язык на территории РФ. Но не знаю почему, но в области машинного обучения в последнее время очень много работ направлено на сохранение языков малочисленных народов. Проявляется это в создание мультиязычных языковых моделей(BERT от гугла, есть аналоги у ФБ, даже Сбер что то анонсировал, но пока не выпустил), мультиязычных переводчиков(это направление вообще активно развивается, сам участвую в проекте, где переводят с тюркских языков на русский и английский). Поэтому можно предположить, что маятник теперь двигается в другую сторону. Пока в РФ это не чувствуется, но кто знает, что будет через 10 лет.

В теории может получиться так, что если твой язык оцифрован, то тебе не надо будет изучать другие языки совсем. Новые модели машинного перевода голоса в голос могут произвести революцию. А может Илон Маск доработает свой чип, тогда даже сложно представить, какие возможности откроются.

Зачем тратить силы на попытки реанимации трупов? Зачем тратить время на языки, на которых не издаются и не читаются книги, не пишутся и не читаются статьи, на которых даже в быту мало кто разговаривает? Чтобы разжигать националистические чувства малых народностей?

Можно тут привести пример с языками программирования, что их много и почему то программисты все еще не перешли на один язык(Esperanto#).

А можно еще сказать так: вот так получилось, что сейчас есть такие языки. Какие то исчезли, какие то нет, а некоторые еще и сопротивляются. Почему? Я не знаю. Но я же в свободное от работы времени трачу свои силы. И таких как я много. Значит этот язык еще не труп, а старается всеми силами выжить. И я очень благодарен @averkij за этот проект, @snakers4 за то что сделал для нашего языка синтезатор речи. Никакого отношения к башкирскому языку они не имеют, но зачем то нам помогают. Бесплатно. И не только нашему языку.

В чём ценность этих малых языков?

Говорящие с ветром?


А ещё всяким археологам и лингвистам полезно при расшифровке найденных надписей.
Слышал еще байку про неграмотных радистов во время войны, которые передавали слова с ошибками и это тоже усложняло дешифровку, если данные перехватывали.

"подъезда"-"парадной"

подъезд —  место на границе дома, куда привозят инвентарь, расходные материалы, еду. Характеризуется удобным подъездом большого транспорта и удобным доступом в подсобные помещения.

парадное — место на границе дома, где хозяин дома торжественно встречает гостей.

PS: Про поребрик и бордюр вам уже нарисовали, а то что вы привыкли жить в гробах, не говорит о том, что остальные забыли что и для чего нужно.

В городе, где я живу есть пара старых домов, где есть и парадная и подъезд. В парадную — вход с фасада, а в подъезд — вход со двора. Большинство же жилых домов, давно уже не имеет парадную, а только подъезд.

Как носитель башкирского языка, поддерживаю обеими руками.

Совершенно ни к чему иметь множество кодов для выражения одного и того же смысла.

С подобной логикой любой язык, кроме английского и, наверное, китайского можно вычеркнуть из списка живых. Все равно ведь русский/французский/немецкий/какой-угодно язык прирастает за счет англицизмов. Кринж, хайп, доктор, директор, камрад, детектор, машина, генератор, чатиться, лайкать, свайпать и т д....

Не желаю Вас не коим образом обидеть, но, простите, Ваши вопросы говорят о скудности знаний и поверхностном мышлении.

Прочитайте первую попавшуюся поэзию. Как бы ее прочитали вслух? Что передает та или иная интонация? Вы можете запрограммировать или обучить машину чувствам?

А лингвистикой Вы занимались? Вы чувствовали момент озарения от того, когда понимали суть слова, не поверхностный слой (информационный), а нечто глубже, что-то что идет из глубин времени, времени когда формировалось то или иное определение, смысл, или же двойной, тройной подтекст, что уловим лишь носителю языка?

То же и с языками, неважно какими. Язык это живой организм, который живет и развивается вместе с его носителями. И в нем есть то, что можно назвать душой (материалистам привет), то чего не закодируешь в 0 и 1.

И если учесть мною выше сказанное, то Ваша аналогия с трупами, вообще оскорбительна и непозволительна, если еще можно возможно взывать к совести.

Язык это живой организм, который живет и развивается вместе с его носителями.

Ваша аналогия с трупами, вообще оскорбительна и непозволительна

Ну ведь и вы же называете язык "ЖИВЫМ организмом". Следовательно, как и любой другой организм, язык смертен. Выражение "мёртвый язык" не спроста существует. А значит и слово "труп" к подобному языку вполне применимо. В чём оскорбление?

И если продолжать аналогию с живым организмом, то исчезающие языки ещё не мертвы. Они скорее подобны живому, но сильно больному существу, подключенному к системе искусственного жизнеобеспечения. И, если продолжать аналогии, мы можем в дискуссии прийти к очень непростому вопросу об эвтаназии...

Только вот беда - все эти аналогии только удаляют нас от обсуждения вопроса целесообразности поддержки исчезающих языков ;-)

Я с Вами отчасти согласен.

Оскорблением я считаю потребительское отношение к поднятому вопросу, и попытка обобщения.
Как может судить и предлагать к обсуждению вопрос о необходимости, о целесообразности и смысле существования того или иного объекта, человек не относящийся к делу.
По аналогии: чиновники и реальные дела на месте, люди дела и обсуждение ими геополитики.

По этому и считаю, что обобщение, решение за других, это неуважительно отношение.

Целесообразность и смысл тех или иных мероприятий - дело личное, с учетом интересов окружающих. Не нам это решать.

Как бы ее прочитали вслух? Что передает та или иная интонация?

А где автор статьи занимается интонацией/произношением?

Вопрос в комментарии поставлен про целесообразность языка. То что это культура конкретного народа, как будто никого не интересует.
Пример с поэзией приведен для указания на глубину культурного слоя и его значения в сознании народа. Автор же занимается тем, что ему интересно и что он считает важным и может помочь, в общем случае народу, а не языку.

А зачем защищать вымирающих животных? В чём ценность последней сотни диких амурских тигров, зачем вкладывать столько сил в их защиту от браконьеров?

Каждый сам за себя определяет ценность того или иного явления. Вам так не кажется?
Если Вы не смогли себе ответить на данный вопрос, это не значит что другие для себя не ответили.

Как минимум-разнообразие и богатство некое, после того, как исчезнет последний представитель вида/носитель языка- все, конец, больше никогда этого не будет

В чём ценность этих малых языков?


Ценность малых языков в том, что они есть. Ценность мёртвых языков в том, что они были. Это материал лингвистам для исследований, и чем материала больше (сохранилось) тем интереснее в этом разбираться.

Относительная ценность малых языков есть, например, в том, что они могут содержать полезную информацию об окружающей среде. Люди, жившие в какой-то области со своим языком могут иметь в языке вещи, которые отсутствуют в "имперских" языках и тем самым можно потерять часть информации. Понятное дело, что эту информацию, в теории, можно снова найти, но это время и не всегда кому-то надо. Хотя, это больше голос "за" ради сохранения малых языков, а не их возрождения.

Подробности о возможной потере важной информации можно почерпнуть тут: https://www.pnas.org/content/118/24/e2103683118

Вам не нужно, мне не нужно, а чувашам и башкирам - нужно. Пусть расцветает сто цветов.

UFO just landed and posted this here
UFO just landed and posted this here
Да, думаю, будем дальше его улучшать. И спасибо за датасет.

Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

А можно побольше контекста проекта, пожалуйста. Чем полезно иметь параллельные корпусы для сохранения языка? Я так понял, что эти методики работают, если язык имеет большой набор печатных материалов? Какие еще IT-проекты могут быть полезны / чем можно помочь этому проекту не-носителям языка?

И да, и нет.

Когда у вас много книжек переведенных на другой язык, у вас по сути есть готовый корпус параллельных предложений. От 1млн предложений можно получить более менее приемлемый машинный перевод. В этом смысле языкам, у которых нет книжек или были, но допустим алфавит поменяли и теперь надо из одного алфавита перевести на другой, а заняться этим некому, не повезло.

Но с другой стороны сейчас выяснили, что вроде бы у языков есть что то общее. И когда обучают языковую модель для одного языка, потом можно использовать эту модель(или предыдущие слои этой модели) и дотренировать на корпусе другого языка. И это работает.

В случае с языками из одного семейства это вообще хорошо работает. Например мы обучали мультиязычный перевод с тюркских на англ и рус. Использовали корпус башкирского-русского в размере 500K+, еще какие то другие и якутский где то 9K. Понятно что с 9K машинный переводчик не сделаешь. Но из за того что в корпусе, которую мы использовали были и другие языки, качество перевода с якутского на русский был почти на том же уровне, что и с башкирского на русский.

Чем могут помочь не ночители. Как правило созданием инструментов. Например у нас есть корпус аудио+текст на сайте CommonVoice. Это 5Gb, 247 часов аудио(https://commonvoice.mozilla.org/ba/datasets). Можно на основе него создать модель распознавания речи.

Или можно используя монокорпус башкирского языка и создать спелчекер, суммаризацию текста и т.п.

В игре Civilization V — Аттила — предводитель гуннов, говорит на современном чувашском языке (посмотрите видео). Это не очень научно, но это ближайший язык.
Городское население Чехии 200 лет говорило на немецком. Потом с распадом Австро-Венгрии язык реанимировали буквально за три года и использовали для во внутриэлитных войнах, как сейчас сами-знаете-где. Вы против чешского языка?
Немецкий язык — синтетика высоколобых интеллектуалов. Ему триста лет и часть немцев впервые его учит в школе, потому до сих пор в семьях говорят на швабских и прочих диалектах. Про большинство прочих языков такое же можно сказать. Англичане не могут читать Шекспира в подлиннике. Посмотрите советские фильмы 30х годов, как актеры говорят? Они говорят не на родном языке, а вызубрили фонетически по-бумажке, типа «я вас боюс» — отстутствуют мягкие знаки и прочие необычности — тогда государство формировало стандарт для радио, а потом для Первого канала ТВ.

Из полезного применения чувашского-башкирского (помимо права человека) — культурное, экономическое взаимодействие с тюркоязычными странами (200 млн людей). Им гораздо легче выучить родственный язык. Наверное также полезно спецслужбам для подготовки шпионов.
Про немецкие и прочие диалекты согласен. Знаю, что в Германии есть переводчики с нижненемецкого (Niederdeutsch) на обычный (Hochdeutsch). За факт про Цивилизацию — спасибо.

Наверное, стоит отметить, что Niederdeutsch -- потомок древнесаксонского и относится (вместе с английским) к другой подгруппе германских языков, нежели Hochdeutsch. И заодно -- что диалекты на большей части территорий Германии, Австрии и Швейцарии не имеют отношения к Niederdeutsch, но от официального языка своих стран (Hochdeutsch) отличаются столь же сильно.

https://commons.wikimedia.org/wiki/File:Deutsch-Niederländischer_Sprachraum_(nach_Werner_König).png
https://commons.wikimedia.org/wiki/File:Deutsch-Niederländischer_Sprachraum_(nach_Werner_König).png

Посмотрел на ютубе озвучку Аттилы, да он говорит на чувашском, но ударения на столько неправильно расставили, что даже я как носитель не с первого раза понял все фразы. Так что важен не только текстовый перевод, но и постановка ударений.

Чувашский язык сам по себе интересен. Например, тем, что там нет слова "да". Да и диалектов минимум 3 существует. В общем, малым языком его назвать - некорректно, все-таки, 5-й по численности народ в России.

Малые языки - это, например, чукотский, эвенкийский, etc. Вот для них сохранение языка действительно актуально.

Как в чувашском ЗАГС'е тогда сказать что «да, согласен»? (не для себя интересуюсь).

Да, именно так, на русском, и говорят :)

На чувашском будет утвердительная форма глагола (т.е. просто "согласен")

В общем, малым языком его назвать - некорректно, все-таки, 5-й по численности народ в России.

По результатам переписи 2010, по числу владеющих им россиян (0.73%) чувашский уступает русскому, английскому, татарскому, немецкому, чеченскому, башкирскому и украинскому.

Когда жил в Якутии, то якутский язык тоже не смог бы назвать малым. Он там живее всех живых и мирно сосуществует с русским. А сейчас смотрю, в масштабах страны действительно малый язык, даже поизучать захотелось.
Sign up to leave a comment.

Articles