DanielVyazhev 31 янв 2023 в 03:06

Краткая история NLP — Natural Language Processing

6 мин

3.5K

Искусственный интеллектNatural Language Processing*

Ретроспектива

Комментарии 8

shuhray 31 янв 2023 в 05:07

Он жив, Хомский, 94 года ему.

Robastik 31 янв 2023 в 09:05

Странно, что главное событие в мире NLP не названо.
Когда и благодаря чему машина заговорила сразу на всех языках?
Особый интерес вызывает упорное замалчивание этого факта научным сообществом.

Ahuromazdie 31 янв 2023 в 09:47

Похоже и Вы член научного сообщества. Иначе зачем Вы замалчиваете?

Robastik 1 фев 2023 в 03:59

Потому что есть Гильберт, Риман и Пуанкаре, и есть Савватеев и @DanielVyazhev.А я даже не дата-сатанист)

DanielVyazhev 31 янв 2023 в 13:45

У меня была часть про машинное обучение и формулы, но решил все таки оставить текст без них, ведь история краткая) Поэтому это скорее моя какая-то привелегия, чем специальное замалчивание...

Robastik 1 фев 2023 в 03:49

Ну тогда я воспользуюсь своей привилегией и назову главное событие NLP, которое разделило новейшую историю технологий на "до" и "после".

Нет, это не машинное обучение и не формулы )))

Машина заговорила сразу на всех языках после того, как из алгоритма удалили всякое упоминание о грамматике.

Теперь это научный факт: "правила языка" - настолько чужды языку, что делают его освоение невозможным.
Антинаучность грамматики была очевидна и до него. Сейчас это доказано экспериментально.

Язык состоит из устойчивых фраз и их комбинаций, а не из сказуемых и прилагательных. Это причина "гладкости" изложения ChatGPT → оно выдает наиболее часто встречающуюся последовательность фраз. Одни фразы чаще встречаются в одной отрасли знаний, другие - в другой. Поэтому использование высокочастотных фраз независимо от их принадлежности теме вопроса "рвет" смысловую связность изложения ChatGPT при сохранении связности языка. Многие люди делают так же.

Причины замалчивания этих обстоятельств понятны. Назвать грамматику псевдонаукой с официальной трибуны невозможно по политическим причинам. Широкого хозяйственного значения эта "наука" не имеет, ведь язык "изучают" в основном люди, уже свободно владеющие им. Поэтому общество ничего не заработает в моменте, если откажется от "правил языка". Но убытки в моменте будут огромны.

DanielVyazhev 1 фев 2023 в 15:57

Если это алгоритм, то все таки это машинное обучение и формулы. А устойчивые фразы и их комбинации- это и есть грамматика, вы не можете построить какое-либо предложение без грамматики. Приведу пример, в немецком языке глагол всегда должен быть на втором месте и если мы попросим модель написать что-либо на немецком языке, она подставит глагол на второе место, поскольку та выборка, которую ей дали на обучение- имеет все предложения с глаголом на втором месте, кроме тех, где есть знак вопроса. То есть грамматика детерминирована самим анализом того, как пишут или говорят люди.

Поэтому весьма странно слышать заявление о том, что грамматика это псевдонаука. Вы не сможете изучить язык, без знания грамматический правил, точнее сможете, если конечно потратите на чтение непонятного вам языка тысячи часов.

На вопрос, почему тогда машина может воспроизводить речь "без знания грамматики", только потому, что она изучает эту грамматику посредством анализа больших массивов данных и если бы вам потребовалось выучить язык таким способом, потратив огромное количество времени, то машина может сделать это быстрее.

Другой вопрос состоит в том, что сейчас многие языковые модели работают на основе трансформеров - энкодеров и декодеров. Энкодер преобразовывает входящую информацию (например, текст) и конвертирует ее в вектор (набор чисел). Декодер, в свою очередь, расшифровывает ее в виде новой последовательности (например, ответ на вопрос) слов на другом языке — смотря для каких целей создавалась нейросеть. То есть машина работает с цифрами, а не со смыслами или правилами. Она учится правилам посредством того, что создает числительную последовательность, которую будет повторять в будущем, эта та же грамматика, только "переведенная" на машинный язык. Последовательность по которой создаются любые предложения в любом языке- это и есть грамматические основы, то как они изучаются машиной - вопрос другой, но это не делает грамматику псевдонаукой.

redtreatrick 2 фев 2023 в 05:54

Что есть хорошего у позднего Хомского?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Краткая история NLP — Natural Language Processing

Комментарии 8

Публикации

Истории