Comments 18
Если как ллм-ки вроде джипити так они наплетут чего угодно. Если в базе(в наборе данных) есть, то сойдется с разностью степенью достоверности, а если нет то, композиция текста согласно архитектуре нейросети. Но будет уверять в тексте что только, вчера с бореальцом по вотсапу общалась, слова точные - инфа 💯.
Пока нейросети не пройдут начальный период, до тех пор пока не станут работать как совокупность экспертных над одной задачей-будут большие неточности в предоставляемых ими данных.
С учетом что все основные нагрузки на нейросети должны лечь после 30 года (по ряду технологических причин и обьемов их применения) - то ожидать каких то приемлиемых результатов следует к обозначенному временному интервалу.
можно поставить вопрос более широко: способны ли нейронные сети реконструировать утраченные (недостающие) данные и алгоритмы работы с ними?
По идее должны, это как раз их тема, работа с алгоритмами изменения речи. Современная лингвистика началась с признания, что речь меняется не рандомно, а по своим законам. И этот фарш можно провернуть назад
это крайне сомнительное утверждение.
Да, восстановление звуков по письменным источниками звучит контринтуитивно. Однако если токенизировать не только письменное, а также звуковое, да ещё смоделировать все варианты звуков, которые может создавать человеческий речевой аппарат, то дело может пойти.
Удивляюсь, почему ещё нет моделей, основанных на звуках, отфильтрованные от символов.
Raw language LLM
Мы, видимо, о разном.
То, что можно "решить перебором", конечно, пускай решает перебор.
Однако, модели нужно еще обучить, на чём-нибудь подходящем.
Скорее просто генерировать целые языки и проверять по немногочисленным остаткам - подходит или нет. Пытаться обучить на этом мизере это тупик. Скоро уже можно будет ПО писать по пелевински - генератор случайного кода с проверкой , что он делает то что надо.
незнакомые нашим современникам ларингальные звуки h₁, h₂, h₃
Три буквы h - это вполне себе современный армянский язык: Հ, Խ, Ղ :)
что специфически разработанные для этой цели инструменты могут стать хорошим подспорьем в работе языковедов
ладно бы конструкции. Проблема еще в корпусе обучающих данных. К вымершим языкам у нас довольно мало текстов с актуальным переводом.
Я все вспоминаю, как трансформер приучили к восстановлению текста из сгоревших свитков папируса. Суть в том, что обучающий корпус сделали сами: свернули свитки, сожгли и затем просветили рентгеном получившийся пепел, сохранивший форму. Потому как знали содержимое "до", то нейросети это все отдали "вот что стало (вход), вот что было - изначальный текст (выход)". И получилась специфичная сеть, которой можно восстановить текст из сгоревшей рогульки пепла.
Но откуда бы взять столько о вымерших языках - не представляю.
Если обучить на современных, то наверное он на их подобии и построит. И это будет, думаю, праиндоевропейский с современным акцентом и кучей калек из нынешних языков. Интересно было бы проверить: взять сеть, обученную на сильноаналитических языках, английском, французском, но не на синтетических, и попросить её восстановить прагерманский или латынь из реальных древних текстов. Сможет она кучу падежей воспроизвести и всякие там супины?
И если с современными языками нейросети справляются довольно толково, возникает вопрос: как насчет древних?
Ага ага, толково.. Видел как человеку при подготовке к экзамену по греческому языку чатгпт ничтоже сумняшеся подсунул конструкцию из древнегреческого с другим падежом. Нуачо, греческий же
Скажем, тот же Google Translate из рук вон плохо
Он и на современные языки даже 'с новым годом' местами перевести неспособен
Между тем, лингвисты давно предпринимают попытки реконструкции еще более древних языков, к примеру — праиндоевропейского
afaik праиндоевропейский не существовал как некоторый язык, а как набор множества диалектов. Синтаксиса к нему соотвественно вроде также нет, так что превращение из славянского и из какого-нибудь английского выдавало бы различные результаты.
Отдельно стоило подсмотреть каким образом происходит мышление у LLM ибо как сказали выше - оно может просто изобрести булшит. Помнится Микитка разбирал одного такого реконструктора на древне русский, который делал видео в тиктоках а ля "как звучал Х на древнерусском", в которой тот брал какие-то слова близкие по смыслу и пытался рифмовать. По смыслу получалось что-то вроде "мая по твая" да и та со сломанными и вообще структурой предложения.
Отдельное фе за кривую транскрипцию в статье. Ну и отсутвие верификации как оно должно бы быть хотя бы с какими-нибудь базовыми словарями. Тот же kr̥sné скорее всего должен был быть *kr̥snós.
afaik праиндоевропейский не существовал как некоторый язык, а как набор множества диалектов.
Это относится к любому языку -- хоть древнему, хоть современному.
Синтаксиса к нему соотвественно вроде также нет
Так же, как и для остальных его аспектов, есть реконструкции разной степени правдоподобности: https://en.wikipedia.org/wiki/Proto-Indo-European_language#Syntax
Отдельно стоило подсмотреть каким образом происходит мышление у LLM
Один из недостатков LLM состоит в том, что "подсмотреть", каким образом они приходят к своим "умозаключениям", невозможно. Как максимум, они могут сгенерировать "промежуточные соображения", не связанные очевидным образом ни с запросом, ни с окончательным результатом.
Тот же kr̥sné скорее всего должен был быть *kr̥snós.
kr̥sné -- это в звательном падеже, как по ссылке и указано.
Способны ли нейросети реконструировать древние языки?