Как стать автором
Обновить

Комментарии 43

Несколько лет назад смотрели на DLP-системы западногопроизводства, топовые из квадрата Гатрнера :)

Что удивило, везде в качестве базового механизма для написания политик предлагался кондовый regex. На вопрос, а что-то более вменяемое с поддержкой морфологии славянских языков разве нет?
Ответ - нет, кушайте регексы, не обляпайтесь, весь мир использует, а вы чем отличаетесь?
Не взяли тогда ничего, интересно, а как сейчас с поддержкой морфологии и базой синонимов - есть ДЛП-продукты?

В отечественный DeviceLock году в 2008 лично затаскивал поддержку морфологии для множества европейских языков. Остановился на уэльском, он оказался малоресурсным. В тоже время поисковый запрос "морфология русского языка" приводил на сайт автора этой статьи с неприличной картинкой.

Там в ротации крутились картинки в udaff.com. Интересно, кстати, как сейчас поживает Дима Соколовский, который Удав?

Хорошо живёт, иногда в мордокниге бывает. Alterlit - основной его сайт.

Системы от infowatch работают с учётом морфологии русского языка.

(глядя на лежащие рядом новости про ruGPT).

А сейчас кто-нибудь занимается работой вида 'распотрошить внутренности обученной нейросетки и из того, что она 'поняла' создать наиболее компактный набор правил, по которым русский язык на самом деле работает?'

Или это совершенно бесперспективно и неинтересно?

Бесперспективно и неинтересно, оно выдаст максимум ошибок как основное правило. То самое "не подскажети".

Э

Э

Свинья

"Русский язык на самом деле работает" так, как работает его носитель

Если говорить про GPT, то есть многослойные сетки, то задача "распотрошить" вообще не представляется реальной. Проще - на порядки - другую сетку сделать и обучить.

Попросить одну сеть объяснить работу другой?

См. выше, @inkelyad обсуждает возможность распотрошить обученную сетку, чтобы понять, как оно в языке на самом деле всё устроено.

Мне эта задача представляется совершенно нереальной по трудоёмкости и сильно превосходящей задачу обучения такой сетки с нуля.

Да и результат такой работы вряд ли будет представлять ценность.

НЛО прилетело и опубликовало эту надпись здесь

Завидую. Реальная ценность!

У меня есть только издание Словаря конца семидесятых.

Словарь Зализняка достался нам в 80-е, еще на ЕС-овской полудюймовой ленте.

Помню, как мы при помощи простенькой программы и этого словаря искали анаграммы.

А мы когда-то с кроссвордами играли.

Электронные версии также есть, однако почему-то не столь доходчивые.

У бесплатных электронных версий другое, более важное достоинство: они доступны людям.

Но ещё доступнее свободные программы для проверки орфографии, например, GNU aspell.

Вижу Зализняка — ставлю плюс.

>Заинтересовавшись санскритом, считавшимся большим набором древних исключений, Зализняк формализовал и его, обнаружив и описав строгие закономерности словоизменения и там.

Андрей Анатольевич Зализняк сделал столько много полезного, что заслуживает особого отношения, это относится также к точности в описании и цитировании, приведенная автором ссылка на "ГРАММАТИЧЕСКИЙ ОЧЕРК САНСКРИТА", это супер грамотное и хорошо написанное Зализняком краткое введение в грамматику санскрита, первоначально опубликовано как приложение к санскритско-русскому словарю В. А. Кочергиной, в части формализации - обычно считается что классический санскрит был формализован Panini примерно в 6 веке до нашей эры в его работе Astadhyayi, это примерно 4000 правил, уровень формализации превосходит описание грамматики большинства современных живых языков, и вероятно сравним с формализацией языков прграммирования, поэтому BNF (Backus Normal Form) иногда называют Panini-Backus Form, обсуждение можно посмотреть например -

https://news.ycombinator.com/item?id=14293048

https://linguistics.stackexchange.com/questions/43280/is-paninis-grammar-regular-in-the-same-sense-as-that-present-in-the-chomsky-hie

Благодарю.

НЛО прилетело и опубликовало эту надпись здесь

Спасибо.

Но изначально сам текст был посвящён как раз Зализняку и его Великому Словарю и писался как материалы к семинару для команды МойОфис.

Ну а потом подумал - а почему бы и не опубликовать как статью?

Например, у слова <час м 1c> в единственном числе ударение падает всегда на основу (ча́с, ча́са, ча́су, ча́сом, о ча́се), а во множественном — на окончание (часы́, часо́в, часа́м, часа́ми, о часа́х).

Пишу этот текст на русском языке в четвертом часУ по местному времени.

А это "второй предложный падеж", графически совпадающий с дательным. Кажется, "местный": в пятом часу, в дубовом бору́, на особом счету́.

Его особенность в том, что его использование определяется не столько предлогом, сколько смысловыми оттенками фразы.

Ага, локатив — это весело. Медведь живёт в лесу́, а поэт пишет о ле́се. Есть ещё паритив (разделительный падеж): «Съешь же ещё этих мягких французских булок, да выпей ча́ю»; а также два вида вокатива: почти вышедший из употребления старозвательный: «Господи боже!»; и не совсем ещё пролезший в нормы новозвательный: «Мам, купи машинку!».

Настоятельно рекомендую ознакомиться с данным видео.

Хочется еще напомнить, что Зализняка заставили уйти из аспирантуры - потому что он подписал открытое письмо министру образования в защиту другого известного лингвиста - Вячеслава Иванова, которого выгнали из МГУ за поддержку Пастернака (в конце 80х эмигрировал).

Видимо надышался воздухом свободы в Сорбоне, где стажировался до этого.

По нынешним меркам - прямо готовый диссидент, хотя сейчас его бы никто в Сорбону не отправил :)

А может, не в воздухе свободы дело, а в попытке защитить товарища?

После этого случая он таких безнадежных писем больше не подписывал. Так что ставлю именно на свежее впечателение от посещения свободного мира, в СССР ему быстро объяснили, что партия лучше знает, как надо :)

Андроидная клавиатура SwiftKey, которая сейчас от Microsoft, похоже была создана для индоевропейских языков, потом туда подгрузили словарь русского, а анализ остался тот же. В результате этот убогий ИИ постоянно пытается оторвать окончание у незнакомых ему слов, без спроса заменяя слова. Я все надеялся, что в процессе обучения он "поумнеет", но нет, новый версии гордятся добавлением эмодзи и т.п. Есть ли в природе нормальная клавиатура под Андроид, которая работает по принципам, описанным в этой статье?

Вы про Microsoft SwiftKey?

Я пользуюсь на своём китайфоне клавиатурой Google в режиме swipe - вполне приличные слова вводит, сквернословит редко. Разве что слово "заеду" иногда шаловливо подменяет на другое, которое я написал-то всего однажды - обучилась, вредина.

похоже была создана для индоевропейских языков, потом туда подгрузили словарь русского, а анализ остался тот же

Вы не поверите, но русский тоже входит в индоевропейские языки! Я уже даже не помню что туда не входит, вроде как финский / эстонский и изоляты типа баскского. Возможно вы имели в виду германские и романские языки. И то, я не уверен, что романские языки не страдают от автокоррекции.

Венгерский также не входит в индоевропейскую группу. Вроде как сам по себе.

Вроде как сам по себе.

Он из той же языковой семьи, что и финский - уральские языки.

> Я уже даже не помню что туда не входит, вроде как финский / эстонский и изоляты типа баскского

однако, не забывайте про америку (все местные), + африку, + половина азии, кроме пушту, фарси/дари, и 70% индии (хинди и пр.)

Яндекс. Клавиатура

Это книга Дитмара Эльяшевича Розенталя «Русский язык. Орфография и пунктуация».

Есть такой подкаст о русском языке - "Розенталь и Гильденстерн". Теперь понял, откуда в названии Розенталь, спасибо

Только-только закончил чтение книги Зализняка про любительскую лингвистику. И вижу фамилию в страницах Хабра. Спасибо автору. Оригинальный подход к сортировке слов приводил как пример в случае анализа данных. Есть случаи, когда стоит отойти от стандартной сортировки по возрастанию/убыванию, а испробовать что-то другое.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий