Комментарии 43
Несколько лет назад смотрели на DLP-системы западногопроизводства, топовые из квадрата Гатрнера :)
Что удивило, везде в качестве базового механизма для написания политик предлагался кондовый regex. На вопрос, а что-то более вменяемое с поддержкой морфологии славянских языков разве нет?
Ответ - нет, кушайте регексы, не обляпайтесь, весь мир использует, а вы чем отличаетесь?
Не взяли тогда ничего, интересно, а как сейчас с поддержкой морфологии и базой синонимов - есть ДЛП-продукты?
В отечественный DeviceLock году в 2008 лично затаскивал поддержку морфологии для множества европейских языков. Остановился на уэльском, он оказался малоресурсным. В тоже время поисковый запрос "морфология русского языка" приводил на сайт автора этой статьи с неприличной картинкой.
Системы от infowatch работают с учётом морфологии русского языка.
(глядя на лежащие рядом новости про ruGPT).
А сейчас кто-нибудь занимается работой вида 'распотрошить внутренности обученной нейросетки и из того, что она 'поняла' создать наиболее компактный набор правил, по которым русский язык на самом деле работает?'
Или это совершенно бесперспективно и неинтересно?
Бесперспективно и неинтересно, оно выдаст максимум ошибок как основное правило. То самое "не подскажети".
Э
Э
Свинья
Это из нейросети? Это пост'свинья?
Нет, это из древности. Это пост-баян.
"Русский язык на самом деле работает" так, как работает его носитель
Если говорить про GPT, то есть многослойные сетки, то задача "распотрошить" вообще не представляется реальной. Проще - на порядки - другую сетку сделать и обучить.
Попросить одну сеть объяснить работу другой?
См. выше, @inkelyad обсуждает возможность распотрошить обученную сетку, чтобы понять, как оно в языке на самом деле всё устроено.
Мне эта задача представляется совершенно нереальной по трудоёмкости и сильно превосходящей задачу обучения такой сетки с нуля.
Да и результат такой работы вряд ли будет представлять ценность.
Словарь Зализняка достался нам в 80-е, еще на ЕС-овской полудюймовой ленте.
Помню, как мы при помощи простенькой программы и этого словаря искали анаграммы.
Электронные версии также есть, однако почему-то не столь доходчивые.
У бесплатных электронных версий другое, более важное достоинство: они доступны людям.
Но ещё доступнее свободные программы для проверки орфографии, например, GNU aspell.
Вижу Зализняка — ставлю плюс.
>Заинтересовавшись санскритом, считавшимся большим набором древних исключений, Зализняк формализовал и его, обнаружив и описав строгие закономерности словоизменения и там.
Андрей Анатольевич Зализняк сделал столько много полезного, что заслуживает особого отношения, это относится также к точности в описании и цитировании, приведенная автором ссылка на "ГРАММАТИЧЕСКИЙ ОЧЕРК САНСКРИТА", это супер грамотное и хорошо написанное Зализняком краткое введение в грамматику санскрита, первоначально опубликовано как приложение к санскритско-русскому словарю В. А. Кочергиной, в части формализации - обычно считается что классический санскрит был формализован Panini примерно в 6 веке до нашей эры в его работе Astadhyayi, это примерно 4000 правил, уровень формализации превосходит описание грамматики большинства современных живых языков, и вероятно сравним с формализацией языков прграммирования, поэтому BNF (Backus Normal Form) иногда называют Panini-Backus Form, обсуждение можно посмотреть например -
https://news.ycombinator.com/item?id=14293048
Например, у слова <час м 1c> в единственном числе ударение падает всегда на основу (ча́с, ча́са, ча́су, ча́сом, о ча́се), а во множественном — на окончание (часы́, часо́в, часа́м, часа́ми, о часа́х).
Пишу этот текст на русском языке в четвертом часУ по местному времени.
А это "второй предложный падеж", графически совпадающий с дательным. Кажется, "местный": в пятом часу, в дубовом бору́, на особом счету́.
Его особенность в том, что его использование определяется не столько предлогом, сколько смысловыми оттенками фразы.
Ага, локатив — это весело. Медведь живёт в лесу́, а поэт пишет о ле́се. Есть ещё паритив (разделительный падеж): «Съешь же ещё этих мягких французских булок, да выпей ча́ю»; а также два вида вокатива: почти вышедший из употребления старозвательный: «Господи боже!»; и не совсем ещё пролезший в нормы новозвательный: «Мам, купи машинку!».
Настоятельно рекомендую ознакомиться с данным видео.
"Людк, а Людк..."
Хочется еще напомнить, что Зализняка заставили уйти из аспирантуры - потому что он подписал открытое письмо министру образования в защиту другого известного лингвиста - Вячеслава Иванова, которого выгнали из МГУ за поддержку Пастернака (в конце 80х эмигрировал).
Видимо надышался воздухом свободы в Сорбоне, где стажировался до этого.
По нынешним меркам - прямо готовый диссидент, хотя сейчас его бы никто в Сорбону не отправил :)
А может, не в воздухе свободы дело, а в попытке защитить товарища?
Андроидная клавиатура SwiftKey, которая сейчас от Microsoft, похоже была создана для индоевропейских языков, потом туда подгрузили словарь русского, а анализ остался тот же. В результате этот убогий ИИ постоянно пытается оторвать окончание у незнакомых ему слов, без спроса заменяя слова. Я все надеялся, что в процессе обучения он "поумнеет", но нет, новый версии гордятся добавлением эмодзи и т.п. Есть ли в природе нормальная клавиатура под Андроид, которая работает по принципам, описанным в этой статье?
Вы про Microsoft SwiftKey?
Я пользуюсь на своём китайфоне клавиатурой Google в режиме swipe - вполне приличные слова вводит, сквернословит редко. Разве что слово "заеду" иногда шаловливо подменяет на другое, которое я написал-то всего однажды - обучилась, вредина.
похоже была создана для индоевропейских языков, потом туда подгрузили словарь русского, а анализ остался тот же
Вы не поверите, но русский тоже входит в индоевропейские языки! Я уже даже не помню что туда не входит, вроде как финский / эстонский и изоляты типа баскского. Возможно вы имели в виду германские и романские языки. И то, я не уверен, что романские языки не страдают от автокоррекции.
Венгерский также не входит в индоевропейскую группу. Вроде как сам по себе.
> Я уже даже не помню что туда не входит, вроде как финский / эстонский и изоляты типа баскского
однако, не забывайте про америку (все местные), + африку, + половина азии, кроме пушту, фарси/дари, и 70% индии (хинди и пр.)
Яндекс. Клавиатура
Это книга Дитмара Эльяшевича Розенталя «Русский язык. Орфография и пунктуация».
Есть такой подкаст о русском языке - "Розенталь и Гильденстерн". Теперь понял, откуда в названии Розенталь, спасибо
Только-только закончил чтение книги Зализняка про любительскую лингвистику. И вижу фамилию в страницах Хабра. Спасибо автору. Оригинальный подход к сортировке слов приводил как пример в случае анализа данных. Есть случаи, когда стоит отойти от стандартной сортировки по возрастанию/убыванию, а испробовать что-то другое.
Зализняк: основа русской прикладной лингвистики