Pull to refresh

Comments 17

Тоже мне, исследование устроили.

Я как-то пьяного друга за ГПТ, посадил. Они пообщались. Я потом прочитал. Понять, о чём писал друг было невозможно, но ГПТ отлично разбирался в куче ошибок и неправильно набраных слов и букв. Этому-то что, это же матмодель, тренированная на терабайтах очепяток и грамматических нацистах. Этому только подобными разборками и заниматься.

И не только GPT так умеет. Довольно часто играюсь с разными LLM, и многие +13B модели прекрасно переваривают мой местами корявый английский (там не только опечатки от использования сенсорной клавиатуры, но иногда и просто странные формулировки предложений "в моменте").

Да он не то что со случайной перестановкой букв работает, но и сленг прекрасно понимает, даже 3.5. Иногда просто на русском транслите ему пишу когда лень переключать раскладку.

Hidden text

Как там было?

По рзеузльаттам илссоевадний одонго анлигсйокго унвиертисета, не иеемт занчнеия, в каокм проякде рсапжоолены бкувы в солве. Галовне, чотбы преавя и пслонедяя бквуы блыи на мсете. осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиаетм кдаужю бкуву по отдльенотси, а все солво цлиеком.

UFO just landed and posted this here

На русском это просто, тут для ГПТ один токен == одна буква, от перестановки меняется только порядок токенов. В английском токены длиннее, и от перестановки букв меняются сами токены. Вот что оно продолжает понимать даже в этом случае - действительно удивительно.

UFO just landed and posted this here

>«Развитие» такой способности скачкообразно. У небольшой модели производительность в некоем наборе задач будет почти случайной. К примеру, она плохо транслитерирует слова, с ошибками выполняет арифметические задачи или неправильно отвечает на вопросы — разновидностей бенчмарков много. Если увеличить размер модели, в определённый момент произойдёт резкий фазовый переход, и поведение изменится таким образом, который невозможно предсказать по анализу небольших систем. Модель приобретёт эмерджентную способность.

Уже давно развеяно это заблуждение, нет ни каких скачков, рост перформанса сети вполне себе плавный, а скачкообпазным он кажется просто изза плохо подобранной метрики (ну или хорошо подобранной - намеренно так чтобы был скачок, ведь иначе лойсов будет меньше)

Скачки бывают. Когда появляется новая (или заброшенная за ненадобностью) технология. Генеративные нейросети вот достигли такого качества что о них узнали все. Хотя теорию под них написали еще в 2014.

Человеческое восприятие нелинейно. Человеческие потребности тоже нелинейны. Нейросеть способная водить машину в городе (без всяких если, как средний человек) это качественный скачек. И неважно что еще месяц она была почти способна делать это. Всего раз в неделю застревала так что город колом вставал. Месяц назад она была не нужна, а как смогла сразу стала нужна всем.

>Скачки бывают

Не бывают, просто в силу особенностей технологии. Всегда можно подобрать метрику в которой скачка не будет.

>Хотя теорию под них написали еще в 2014.

В 70х, точнее. Дальше эту теорию прорабатывали и закончили это в 90х. С тех пор какихто новых результатов уже не было (ну это и логично - все вопросы закрыты, теория по сути полностью завершена, на все вопросы отвечает и дополнений не требует).

>Человеческое восприятие нелинейно

Об этом и речь. По факту ни каких эмерджентных свойств и скачков там нет и быть не может, это просто особенность человеческого восприятия, не более.

Ну, вообще это достаточно очевидно само по себе - чисто из математических соображений понятно, что ни каких эмерджентных свойств у сеток быть не может (по крайней мере у ллм с текущей архитектурой).

Вот пейпер из недавнего, тут на пальцах объясняется, откуда эта "мнимая эмерджентность" возникает:

https://arxiv.org/abs/2304.15004

собственно, оно и в обсуждаемой статье понятно откуда происходит - в качестве метрики выбран exact match, с-но, в рамках этой метрики между "сеть совсем не угадала" и "сеть почти угадала" разницы нет - и то и другое идет в unmatch. Поэтому мы получаем ситуацию, при которой реальный перформанс сети плавно и непрерывно растет (матчи становятся все точнее), но метрика этого ни как не отображает (по ней перформанс остается околонулевым), а отображать рост перформанса она начинает только тогда, когда сеть от "почти угадала" переходит к "точно угадала", и на этом отрезке в сжатом виде отображается весь рост перформанса, что и выглядит как скачок.

Вот пейпер из недавнего, тут на пальцах объясняется, откуда эта "мнимая эмерджентность" возникает:

Это совсем не недавнее: на эту статью ещё весной успел ответить Джейсон Вэй, один из соавторов работы про эмерджентные способности.

jasonwei.net/blog/common-arguments-regarding-emergent-abilities

собственно, оно и в обсуждаемой статье понятно откуда происходит - в качестве метрики выбран exact match, с-но, в рамках этой метрики между "сеть совсем не угадала" и "сеть почти угадала" разницы нет - и то и другое идет в unmatch.

В оригинальной работе по эмерджентным способностям в приложении A2 есть результаты бенчмарков с partial credit. Демонстрируется то же самое.

В ответе Джейсона выбор exact match обоснован так: чаще всего важны в первую очередь точные совпадения. Если упрощать до простых примеров, то на вопрос «15 + 23» нужен ответ «38». Конечно, 37 — это близко, но нет смысла давать за это какие-то баллы. А вот выбор альтернативных «суррогатных» метрик наоборот, может создать иллюзию роста способностей.

Если показать плавность для каких-то задач, то это не значит, что плавный рост существует для всех. Джейсон Вэй указывает, что для задачи по транслитерации частота ошибок падает резко. Как он считает, предсказать такое невозможно.

Вообще, само «опровержение» никак не отрицает существование эмерджентных способностей. Говорит это даже не Джейсон Вэй, а один из соавторов «опровержения».

Ну и дальше по тексту Вэй отвечает на все остальные претензии про выбор логарифмической шкалы и про выбор датапойнтов. Не играет роли также выбор логарифмической шкалы. Джейсон публикует график с линейной шкалой, где видно ровно то же самое. Моделей же просто не так много, чтобы была возможность демонстрировать настолько плавные переходы с кучей точек на графиках.

Это совсем не недавнее: на эту статью ещё весной успел ответить Джейсон Вэй, автор работы про эмерджентные способности.

Но он там ни каких аргументов не приводит.

В оригинальной работе по эмерджентным способностям в приложении A2 есть результаты бенчмарков с partial credit. Демонстрируется то же самое.

На приведенных графиках эмерджентного поведения нет.

В ответе Джейсона выбор exact match обоснован так: чаще всего важны в первую очередь точные совпадения. Если упрощать до простых примеров, то на вопрос «15 + 23» нужен ответ «38». Конечно, 37 — это близко, но нет смысла давать за это какие-то баллы.

Так а какая разница, есть смысл или нет?

В чем смысл вообще говорить об эмерджентных свойствах - если они есть, то, значит, у нас есть некоторая точка, в которой свойства сети претерпевают некий скачок, и тогда нам интересно - а что это за точка, а что за скачок, откуда он берется? И в этом случае невозможно построить шкалу без скачка. Если же хотя бы одну шкалу без скачка построить можно - значит, поведение не эмерджентно, т.к. ни каких качественных изменений не происходит - сеть просто спокойно обучается, нельзя выделить какой-то момент в который происходит "магия".

Если показать плавность для каких-то задач, то это не значит, что плавный рост существует для всех. 

В случае фидфорвард нейронок - для всех. Это гарантируется архитектурой сети и теоремами об аппроксимации.

Вообще, само «опровержение» никак не отрицает существование эмерджентных способностей.

Их существование опровергает то, что:

  1. их ни кто не наблюдал

  2. в фидфорвард сетях их существовать не может, математически

Как он считает, предсказать такое невозможно.

А при чем тут предсказание? Ну и еще не надо забывать что в некоторых бенчмарках поведение сети объясняется структурой обучающей выборки. Например, перформанс в математических задачах.

Очевидность - исключительно субъективная величина, результат наложения данных на индивидуальный набор когнитивных искажений. Оперировать очевидностью в качестве аргумента это прием демагогии, который так и называется "апелляция к очевидности".

Сами авторы "опровержения" его опровержением не считают, а называют гипотезой. Кстати, именно поэтому в заголовке статьи стоит вопрос, а в обсуждении сами же авторы пишут: "We emphasize that nothing in this paper should be interpreted as claiming that large language
models cannot display emergent abilities; rather, our message is that previously claimed emergent
abilities in [3, 8, 28, 33] might likely be a mirage induced by researcher analyses."

То есть, авторы настаивают, что их статью нельзя толковать, как отрицание возможности эмерджентности у ллм, а их альтернативное объяснение касается конкретной отдельно взятой работы, в которую возможно(!) закралась методологическая ошибка. А у вас все очевидно, на пальцах и вытекает прямо из архитектуры. Потрясающе. При этом объяснение, приводимое в статье от весны так и остается альтернативным и дискуссия открытой. А сами дебаты частью еще больших дебатов об эмерджентности, как таковой. Хотя казалось бы: очевидно же все. Чем они там вообще в своих стэнфордах заняты...

мне казалось что это часть функционала подобных моделей. зачем нужно исследование то?

Прочитайте текст, пожалуйста, там объясняется, почему это неожиданно.

Sign up to leave a comment.

Other news