All streams
Search
Write a publication
Pull to refresh
2
0

User

Send message

Они включили 300 примеров из общедоступных в общую выборку, что, для сравнения, примерно как одна песчинка на пляжу полном песка.

Интересная ментальная гимнастика. Если "300 примеров ни на что не влияют", то зачем их было нужно в принципе задействовать? Почему бы не показать результаты без них? Слишком уж много попыток мутить воду для "ни на что не влияющих примеров".

это специально дообученные системы в которых генерировали десятки тысяч примеров для обучения только на них в отрыве от всей остальной информации.

Собственно говоря, что мешало OpenAI сделать то же самое? Подробных деталей тестирования у нас нет, воспроизвести полученный результат тоже не можем. Если же учесть, что OpenAI в последнее время достаточно часто занимаются мутными манипуляциями, то с этими результатами становится все еще интереснее.

Типичное мышление веруна. Всё, что поддерживает мою веру - хорошее. Всё что не поддерживает - плохое.

Ну, вы хорошо себя описали. Для вас статья, доказывающая наличие "абстрактного мышления у LLM" - хорошо, даже несмотря на то, что уровень аргументации там на уровне "доказательство наличия эмерджентных свойств". А вот то, что не поддерживает вашу веру - "ряяя, ета щитпост, а не научные стотьи!!!".

Ну, теперь точно - всего вам хорошего.

Ну ладно, давайте отвечу на всю ветку сразу

Потому что когда LLM с такой силой и усердием ломают бенчмарки на вещи вроде решения математических задач или написание кода, отрицать то, что некое "мышление" там внутри есть - это копиум, самый настоящий.

Классика нейрохомяков: "Бенчмарки же!!!!". Давайте разберем:
- Статья от OpenAI с обсуждением в т.ч. того, что многие метрики качества на самом деле являются крайне грубым способом оценить способности модели.
- Еще статья с критикой.
- Ну и еще статья, критикующая исследователей за то, что они не обращают внимание на утечки данных. А, и да, те же OpenAI ради красивых показателей на бенчмарке вполне себе готовы затачивать модель под тесты, жертвуя другими способностями модели (недавно даже их засрали за это).

Ну, что тут можно сказать - нейрохомяк нейрохомяком.

Уже сотни раз разбирали и про генерализацию, и про решение задач, которых нет в датасете.

Сотни раз разбирал кто? А я еще напомню:
- Было сотни доказательств того, что у моделей с ростом размера появляются эмерджентные способности. Много, очень много было красивых песен об этом. А потом, когда инвесторы стали волноваться о слишком высокой цене моделей, сразу пошли "малые языковые модели", а песни про эмерджентность и "неоспоримые доказательства" быстренько забыли.
- Были сладкие песни про то, что LLM можно скармливать чуть ли не любую дичь, а оно все равно каким-то чудесным образом выучит ровно то, что надо. Что нам рассказывают сейчас - без комментариев.
- Тот же Илья Суцкевер был яростным сторонником масштабирования. Но стоило тому уйти из OpenAI, основать SSI и из-за этого начать отставать от других игроков в плане вычислительных мощностей - почти сразу же начались рассказы про то, что масштабирование на самом деле не такой уж и универсальный инструмент и вообще выходит на плато.

В общем, нейрохомяки никак не могут поверить, что компании их могут чуть-чуть обманывать

Не всегда хорошо - но на фоне того, какой у нас был "state of the art" всего-то 10 лет назад - смотришь и офигеваешь.

Классика нейрохомяков - "а вот что будет через 5-10-15 лет". Напомнить, что там про тот же автопилот говорили в 2015? Как там пели, что ИИ развивается по экспоненте и скоро будет с легкостью управлять автомобилем?

желаемое: "LLM принципиально неспособны вообще ни к чему".

Я, например, нигде не говорил, что LLM вообще ничего не могут. В своей нейрохомяковой ярости вы уже вообще ничего не различаете, как погляжу. Главное - защитить "швятой ИИ".

если и правда интересно - то вот "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet" - бумага про то, как команда Anthropic копается в "мозгах" современной LLM

О, нейрохомяки обожают носиться с этой статьей. Типичное натягивание совы на глобус. Подобного рода статьи выходят уже невесть с каких времен.

А так, с/м про "эмерджентные способности" выше. С ними тоже были "неопровержимые доказательства". Но как только стало ясно, что "эмерджентные способности" могут помешать получать деньги - про эти "неопровержимые доказательства" очень быстро забыли (а потом еще и опровергли на практике).

Я напоминаю, что учить модели на синтетических данных - это классика машинлёрнинга, которая была в ходу задолго до текущего бума.

С этим никто не спорит. Да, синтетические данные могут поднять качество. Спорят с вашим пафосным "Делаем синтетические данные, делаем улучшаем ИИ, делаем синтетические данные еще лучше и т.д." Вы хоть читаете сообщения оппонентов?

Использование ИИ для обучения ИИ - это тоже древний подход

Ох, открыли вы нам глаза. Знаете, self-distillation тоже древний метод. И даже рабочий. И с ним можно реализовать описанный вами метод с "делаем более умную модель, чтобы потом получить еще более умную модель"... И увидеть, что это в один момент просто-напросто перестает работать.

Опять нейрохомяк считает себя умнее всех и думает, что критика возникает "патамушта вам абидна!!!", а не потому что есть вполне объективные предпосылки для этой самой критики

позже вернулся в контексте LLM внутри RLHF и теперь уже в виде RLAIF. Именно про последнее - в гугл, и читать.

Может, лучше поделитесь ссылками на статьи, на которые вы ссылаетесь? Вы же не просто нейрохомяк, который бездумно переписывает термины, которые в него вливают различные хайпожоры, не так ли?

Если внутри LLM исследователи нашли понимание абстрактных концепций - значит, для веруна исследователи не те, нашли не так, и понимание ненастоящее.

Прямо как для нейрохомяков все примеры "непонимания" - смешные и вообще ничего не доказывают. Зато откровенные натягивания совы на глобус, которые сочетаются с мнением нейрохомяка, являются "неоспоримым доказательством". Кстати, наброшу вам таких исследований - 1, 2. Ваши комментарии, кроме "Врети, ета ниправильные иследаватели!!!"?

К слову говоря, как мне известно, нет какой-то теории, которая полностью бы объясняла понимание как явления. И вот интересно: мы, конечно, не можем сказать, что такое понимание, но с уверенностью говорим, что оно есть у LLM. Удобно, что сказать.

Очень забавно про "сектантство" читать от загнанного в угол веруна, у которого вместо религии "LLM сосать".

Да нет, тут другая картина, такая же, как была с автопилотами. Просто сейчас уже повисла тяжелая атмосфера. Произошли уже события, после которых многие начали понимать, к чему все эта шумиха с LLM идет (или, во всяком случае, может придти). Кто-то молчит, в надежде, что еще все может тотально поменяться, а другие потихоньку, но все громче и громче, высказывают сомнения. Компании эти настроения тоже видят, но вместо того, чтобы выпустить очередную модель, которая уничтожила бы сомнения раз и навсегда, почему-то только рассказывают сладкие истории, показывают на публику красивые бенчмарки и толкают под ковер некрасивые.

А у нейрохомяков плохо. У них пошла 2 стадия принятия - гнев. Копиум неумолимо бьет в голову. Нейрохомяку сложно признать, что он - нейрохомяк, которого просто водят за нос. Вместо этого он в безумной ярости будет бросаться на каждого, кто криво посмотрел на "швятой ИИ", вне зависимости от того, какие доводы у оппонента. Нейрохомяк также будет цепляться за каждую статью и бенчмарк, которые согласуются с его мнением, а то, что не согласуется, будет выкидывать с криками "Врёти!!!".

Ладно. Спорить со стеной бессмысленно. Время рассудит.

Если мы сейчас поднимем планку "разумности" до сложения 50-значных чисел в голове и решения интегралов, то внезапно из "разумных" придётся выписывать больше 99% процентов населения Земли.

Нейрохомяк воздвигает соломенные чучела. Моя претензия состоит не в "модель не может сложить два больших числа", а в "модель пишет абсолютный бред, тривиально выявляемый в одно мгновение даже без прямого сложения". С интегралами - то, что у модели жесткие проблемы с обобщением, которых у людей и близко нет.

Я понимаю, что тебе дофига дискомфортно от того, что по интеллекту тебя уже превосходит ведро матричной математики. Но от отрицания реальность не поменяется.

Ну классика. Нейрохомяк пришел понтоваться, а когда ему предоставили конкретные примеры и попросили конкретных доказательств его слов - началось "вы фсе врётииии, ано думоет!!!". Ни примеров задач, где LLM показывают нереальный интеллект, ни доказательств своих слов.

Понимаю, тяжко осознать, что ты - нейрохомяк и что крупные компании водят тебя за нос. Но пять стадий принятия неизбежного пройти все же придётся.

Хвататься за соломинки и выть про "оно неспособно мыслить патамушто..." - занятие глупое и бессмысленное.

Ну, чтобы не никто не хватался - приведите строгое математическое доказательство того, что модель может "мыслить". Но у вас просто-напросто этого доказательства нет, только нейрохомяковая агрессия в отношения несогласных. Обыкновенный нейрокультизм.

"Предсказание следующего токена" - это ловушка для дураков.

Дурак видит "предсказание следующего токена" и думает: "ха ха, это же как Т9, смотрите какой я умный а все вокруг тупые".

"Модель все понимает" - это ловушка для нейрохомяков.

Нейрохомяк думает, что если модель решает задачу, то она точно её понимает. Нейрохомяк просто не знает про всякие веселые штучки по типу "one pixel attack" (аналоги которого есть и для LLM) и прочие проблемы со всякими входными данными, которые являются "необычными" с точки зрения обучающей выборки. А для новых открытий (да и решение типовых, но редких задач) навык работы с "редкими задачами" необходим; сомнительно, что без этого можно создать AGI.

На деле? Нет ни одной известной причины, по которой система на основе предсказателей следующего токена неспособна достичь уровня AGI.

Ну нет. Либо вы показываете строгое доказательство, либо, как говорится, "Talk is cheap", а ваше "нет ни одной известной причины" - нейрохомяковый копиум.

И LLM уже сейчас показывают чудовищно высокую производительность на задачах, которые считаются требовательными к интеллекту.

Люблю это пафосное "уже сейчас показывают", но вот с конкретикой как-то очень туговато. Заявлений много, примеров мало (ситуация прямо как с многострадальным автопилотом, лол).

Претензии так и вовсе смешные.

Ну, то есть вы не можете их объяснить? Нейрохомяк в отрицании - вот это правда смешно.

Потому что ну покажите мне человека, который умеет решать интегралы. Из сотни случайно выбранных людей даже с простейшими задачами справится человека 2-3 от силы.

Забавная нейрохомяковая логика. Когда мы говорим про "ИИ" - надо рассматривать только самые лучшие модели. Но когда говорим про людей - надо рассматривать людей в "среднем". Не находите, что про интегралы надо спрашивать у тех людей, которые имеют соответствующее образование, например?

Ну или покажите мне человека, который сложит в уме два числа в 50 знаков. Тут из сотни случайно выбранных людей с задачей справится примерно 0.

А вы мне покажете человека, который будет утверждать, что "3 + 3 - 4" равняется нулю?

Кстати, вы очень ловко (нет) проигнорировали этот пример. Покажете мне человека, который в пробел без шуток вставит слово "zero" (когда там уже есть минимум 2 буквы "o")? Ну да, как только возникает пример, явно показывающий, что ничего модели не понимают от слова "совсем" - у нейрохомяков идет лютейшее отрицание.

Ну и напоследок - небольшой тестик. Где даже средний (да-да, именно "средний", а не "лучший" или "эксперт") выносит вперед ногами все существующие LLM, в т.ч. те, которые "рассуждают". Хотя да, нейрохомяки всегда сознательно игнорируют примеры, подрывающие их фантазии об "Сейчас условное распределение как станет AGI".

Меня всегда забавляет, когда нейрохомячки начинают люто бомбить с фразы "Это всего лишь предсказание следующего токена", но никаких доказательств, что это не так, предоставить не могут.

Ну ладно, положим, что модели действительно рассуждают. Объясните следующие моменты? Начнем с малого и по нарастающей:

- Ну, классика - сложение больших чисел и o1-preview. Результат. Много раз тыкал по этому вопросу - и почти всегда такая бредятина. Достаточно посмотреть на последние цифры A, B и C, после чего становится ясно, что "-1" там вообще никак не может получаться. К слову, модель умеет работать с последними цифрами чисел (и отдельно рассматривает их, как видно в примере)... Что не мешает рожать ей такой бред. И да, модели предыдущих поколений справляются с этой задачей в разы лучше (там тоже ошибочные варианты, но хотя бы видно, что модель старается сложить, а не пишет хрень).
- Просто баловство. Смотрим "рассуждения модели" и видим там ту самую информацию, которая модель писать не должна (при попытке спросить напрямую - в упор отказывается). Ну и второй такой же пример. Вот оно, "понимание" в чистом виде (сарказм).
- Простенькая олимпиадная задачка для o1-mini (у которого, ЕМНИП, намерили столько же рейтинга на codeforces, сколько и у полноценного o1). Там вроде OpenAI понтовались "Да чем дольше думает модель, тем лучше ответы". Ну, видимо, не в этом случае. Самое смешное, что в интернете есть похожие задачи с уже готовыми решениями, но увы... Ладно, в конце-концов оно родило решение (1), но на фоне прошлого сообщения о похожих задачах и тотальных тупняках в попытках объяснить свое решение (посмотрите, что модель пишет в конце: сначала то, что формула (N - 1) * (M - 1) неправильная, потом исправляет на "правильную", но в следующей же строчке забывает об этом "исправлении", возвращаясь к "неправильной", которая на самом деле правильная) напрашивается один вывод: в обучающей выборке просто-напросто было решение этой задаче (возможно, несколько в другой формулировке), которое модель и вытащила, исходя из кучи примеров входных данных (если эти примеры не давать, то модель просто ходит по кругу и тупит) и описания задачки.
- o1-mini и опечатка. Написал я случайно "3 шага" вместо "2 шага" в конце и получил неверное утверждение. Думаете, модель укажет на то, что там, вероятно, есть ошибка? Нет, наша "рассуждающая" модель просто решила перекосить верный код и выдать абсолютную хрень, ошибочность которого доказать максимально тривиально. Вот это я понимаю - "модель рассуждает"! Не может же быть такого, что OpenAI просто немного обманули нейрохомячков?
- Немного интегралов. Например, вот пример. Меня забавляет, что в зависимости от пределов интегрирования как o1-mini, так и o1-preview могут выдать как полностью верный ответ, так и абсолютную бредятину (как по приведенной ссылке). Самое сладкое - здесь аргумент "А человек тоже бред выдает" не работает абсолютно; если человек знает, как решать этот интеграл, то никогда не допустит ошибку с пределами суммирования, как в приведенном примере.
- И еще интегралы. Немного альтернативной математики (и просто хрени). Это уже совсем позорище. Что o1-mini, что o1-preview дружат с делением полиномов (например), но вот конкретно данный пример убивает их почти наповал, лишь изредка они могут все правильно поделить, но тогда обычно чудят в другом месте (к слову, claude 3.5 sonnet этот пример с делением полиномов выполняет вообще без проблем, но взамен с интегрированием у него печальнее). Ну да, еще гориллион долларов - и точно AGI получим.
- Ну и еще игрушечный пример. Гениальный ответ уровня "хуже, чем GPT-3". Вдобавок, ответ противоречит "рассуждениям". Неплохо.

Ладно, устал я писать. Надо еще и o1 потыкать, но, судя по отчетам от OpenAI, огромного смысла в этом нет: даже если описанные выше приколы пофиксят - почти наверно всплывут другие.

В общем, хочется объяснений, хочется объяснений, почему "модели, которые вот УЖЕ размышляют" вытворяют описанную выше дичь.

Полностью никак. Но можешь найти любой из используемых сейчас бенчей для ИИ. И быть на нём киберуниженным GPT-o1-preview.

Я бы не был настолько уверен в этих словах.

А так, показатели на бенчмарках обычно не показывают реальные способности модели к решению задач. Не говоря уж о том, что можно намеренно скормить в модель бенчмарк, на котором собираешься проводить замеры.

Ну да. Только один момент: если взять картинку с котом, перевернуть её на 180 градусов и показать ребенку - он все равно распознает на ней кота. И я крайне сомневаюсь, что ребенок распознает поворот картинки потому, что в течение своей жизни видит "миллион перевернутых вверх ногами котиков с разных сторон со скоростью 24 котика в секунду"

А вот у ИИ, которому в датасет не насыпали "перевернутых" котов, с распознаванием "перевернутого" кота (да и не только кота) возникнут серьезные трудности . Более того, даже если скормить ИИ кучу "перевернутых" картинок, то это совсем не гарантирует того, что ИИ начнет адекватно распознавать этот самый поворот.

Как-то не особо согласуется ваше теория с тем, что мы имеем в CV на практике.

Над авиацией и её бесполезностью кто только не смеялся. И где все эти весельчаки?

Над NFT и их бесполезностью кто только не смеялся. И где все эти весельчаки? Ах, да...

А вообще, очень странный аргумент. Не совсем ясно, как из "Над авиацией смеялись, а что получилось в итоге" следует "Над ИИ смеются, но он всем ещё покажет". IBM Watson тоже в свое время превозносили как нечто нереально, как почти ИИ и путь к сингулярности. А сейчас где этот IBM Watson и все те, кто его превозносил?

Обе задачи уникальны.

Можете это строго доказать?

В случае второй задачи, LLM показала понимание работы физического мира и использования подручных предметов.

Расскажу небольшую историю, которая случилась у меня при тестировании o1-preview. Решил я потестировать, как модель справляется с ML. Попросил написать модель для Fashion-MNIST с accuracy 95% или больше (задача нетривиальная, но готовые решения, дающие +- столько, с поправкой на разные факторы, в интернете есть). После кучи мучений произошла забавность: o1-preview все-таки притащил работающий код, который давал те самые заветные 95%. Но увы, оказалось, что это был какой-то Богом забытый код для датасета CIFAR-10, лежащий на GitHub и парочке блогов; изменений было минимум, разве что некоторые гиперпараметры были изменены по принципу "поставим те гиперпараметры, которые чаще всего используют для Fashion-MNIST".

В этой ситуации, как кажется, сыграл факт того, что Fashion-MNIST и CIFAR-10 - датасеты, которые часто используют для тестирования гипотез и которые часто соседствуют на страницах статей с исследованиями. Вероятнее всего, через эту статистическую связь и было притащено чужое решение.

А теперь перейдем к вопросу: вы уверены, что здесь "LLM показала понимание", а не "LLM за счет собранной статистики слов нашла примерно релевантный к вашему запросу текст из обучающей выборки, а потом на основании той же статистики просто успешно поменяла некоторые слова, в результате чего получился правильный ответ"?

Как нейросети решают математические задачи олимпиадного уровня лучше большинства людей без "умения рассуждать" - вопрос занимательный.

Хм, но ведь и связка самых обычных классических алгоритмов тоже способна решать задачи олимпиадного уровня лучше большинства людей, в геометрии уж точно (1, 2). Какой-то плохой у вас критерий наличия "умения рассуждать".


Вы про эту новость? Хорошо, смотрим статью, на которую ссылается данная новость, и видим там один маленький и очень интересный фрагмент:

The gaming industry’s job market was already precarious after the Chinese government’s monthslong licensing freeze in 2021 threw thousands of game developers out of business. Leo Li, a gaming industry recruiter in Hangzhou, told Rest of World the number of illustrator jobs plunged by about 70% over the last year — not only because of regulatory pressures and a slowing economy, but also the AI boom.

И как удобно, что в той новости этот фрагмент, конечно же, был опущен. Ну, оно и понятно: новость "ИИ УЖЕ увольняет людей... ТРИЛЛИОНАМИ!1!" соберет сильно больше внимания, чем "Из-за проблем в индустрии сокращаются рабочие места, и ИИ может усугубить ситуацию".

Так что нет, конкретно данная новость ваше изначальное утверждение о "9 из 10 исчезли из-за ИИ" не доказывает ну совсем никак.

800 синонимов невозможно придумать - у слова "скромность" нет столько. 800 словосочетаний, имеющих длину от 1 до 5 слов и связанных с OpenAI, написать можно. Тем более я, за исключением отдельных случаев, не запрещал использовать одно и то же словосочетание несколько раз.

Ладно, вас не смущает, что GPT-4o абсолютно не понимает смысла слов, которые генерирует. Приведу тогда другой пример. Заходим на Википедию, берём английскую версию статьи "Загадка Эйнштейна", копируем слово в слово условие задачи и скармливаем модели. GPT-4o выдает правильный ответ, но промежуточные рассуждения почти всегда содержат кучу ошибок. Ладно, начинаем веселиться. Возьмём список из 15 начальных условий и удалим 4 откуда-нибудь из середины. Отправляем. И тут GPT-4o на всю мощь проявляет свою способность логически мыслить и свои "эмерджентые способности" в целом. Заселить два человека в один дом? Без проблем. Поменять кому-нибудь национальность? Легко. Сделать так, чтобы один напиток пили сразу два человека? Пожалуйста. И это при условии того, что оговорка о том, что такие ситуации невозможны, удалена не была. Рассуждения же превращаются из "логических" в "фантасмагорические", выводы прилетают из воздуха.

Ну, по итогу GPT-4o не справляется с задачей, готовый ответ на которую был у него в обучающей выборке. И ломается напрочь, если чуть-чуть изменить условие. Ну, в следующей итерации точно справится. Или же продолжит традицию своих предков и будет дальше тупить.

Просто для образца, результаты тестов последних LLM моделей. 100% равны
решению всех поставленных комплексных задач (которые далеко не все люди
способны решить без ошибок).

Читаем эту статью. Смотрим на даты выпусков тестов. Смотрим на даты выпуска моделей. Делаем выводы.

Можно сказать, что не убедил. Вот ещё обзор (1). Явно показывает, что ситуация с загрязнением данных куда серьёзнее, чем кажется. Учтите, что большинство из представленных тестов достаточно древние, и получите, что хорошие результаты вполне могут связаны с тем, что в обучающие выборки моделей просто попали готовые ответы. Ещё стоит выделить GPQA: смотрим результаты тестирования, видим, что Few-shot CoT значительно повышает качество GPT-4, вспоминаем результат статьи 1 (такое повышение, вероятно, связано с загрязнением задачи), учитываем, что GPQA вышел значительно позже, чем GPT-4, и... да, авторы датасета, вероятно, не смогли подобрать вопросы так, чтобы в обучающей выборке GPT-4 не нашлось бы ответа ни на один из них. Это к тому, что придумать вопрос, ответа на который точно не было в обучающей выборке LLM, является нетривиальной задачей.

Ну и вишенка - статья от OpenAI. В которой, помимо всего прочего, затрагивается вопрос того, что тесты, которые мы придумываем для оценки качества модели, зачастую слишком грубые и не отображают реальных способностей модели. Приведенных вами тестов это тоже касается, так как проверяются там нетривиальные способности.

Часто от таких людей слышал аргументы по типу «Я вот дал gpt простую
задачку, которую может решить даже ребенок, а он не решил. Людей
нейросети никогда не заменят». Давайте, господа, попробуйте позадавать
такие простые задачки последнему gpt-4o или любым другим
сегодняшним лидерам в этой сфере, буду ждать ваш итог в комментариях:)
А ведь прошло только пару лет...

Даю элементарнейшую задачку GPT-4o: напиши мне 800 словосочетаний длиной от 1 до 5 слов, которые ассоциируются с OpenAI. Отправляю. Он начинает генерировать. Все нормально, только вот там на одно словосочетание, которое реально ассоциируется с OpenAI, приходится по 5-7, которые ассоциируются с ML, но никак не с требуемой компанией. Ну, такое соотношение верно в течение первых 50-70 сгенерированных словосочетаний, дальше GPT-4o тупо забивает на изначальное задание и начинает генерировать словосочетания, которые связаны только с ML и к OpenAI вообще никаким боком не относятся. Примерно после 100 сгенерированных словосочетаний стабильно начинаются галлюцинации - их там столько разных, что лучше самому раз 10-15 вбить этот запрос и посмотреть на них. Модель может просто забыть изначальную тему, может начать по кругу генерировать одни и те же словосочетания (Явный запрет употреблять словосочетание более одного раза не помогает, к данному моменту модель на запрет забивает), так вдобавок ещё и в строго определенном порядке, может начать генерировать абсолютно безумные конструкции etc. В итоге вроде задача невероятно простая, но в ответе из 800 словосочетаний мы получаем только порядка 5-10, которые действительно вызывают ассоциации с OpenAI; сколько я ни генерировал, я ни разу не получал в списке что-то типа "Илья Суцкевер" или там "Сэм Олтмен" (иногда среди сгенерированных словосочетаний не было "GPT" ни в каком виде, хотя казалось бы...); зато вот, по мнению GPT-4o, если человек услышыт "AI in business", то точно точно подумает "О, это что-то связанное с OpenAI". И откровенно низкое качество ответа стабильно сдобрено отборными галлюцинациями. Существенного прогресса относительно GPT-3.5 тоже нет. Попытки поменять тему генерации (не OpenAI, а что-нибудь другое) успехом не увенчались.

Ну, вроде поделился итогами в комментариях. Это, к слову, далеко не единственная такая задача.

О, кстати, один достаточно далеко зашел и осмелился выкинуть нас уже сегодня — Devil Devin AI,
первый «AI software engineer», который может (по заявлениям)
из текстового ТЗ писать, дебажить и исправлять код, лазить в интернете и
читать доки. Хотя, я думаю, до такого уровня ИИ еще рано (еще
годик‑два), и по обзорам Devin'а это видно (gpt-4o, наверно, будет полезней).

Ну, тут вот комментарий оставили по поводу этого проекта. Видимо, имеем в действительности мы не более чем попытку скамом срубить денег на волне хайпа. Там, вроде, ещё кто-то проводил расследования (ссылку, правда, с ходу не найду) по поводу данной "компании", и обнаружили многовато подозрительных моментов.

Неверие № 3.1: «Для ИИ нужны огромные вычислительные мощности, которые очень сложно набрать».

Кстати, раньше, в конце 90-х и в начале нулевых, это действительно было проблемой, которая замедляла рост. Но если вы все еще в это верите, можете взглянуть на рынок AI-чипов.

Как предлагаете бороться с тем же принципом Ландауэра? Законы физики, вообще-то говоря, ограничивают количество мощностей, которое мы можем выделить.

Почему так быстро? Потому что прогресс в этой сфере растет
как на дрожжах, казавшееся раньше очень отдаленным (анализ окружающей
обстановки через камеру и высокий уровень эмоций) уже сейчас существует.

А как идет прогресс, например, в сфере автоматического вождения? В сфере машинного перевода? Уже который год мы топчемся на условных 99.9%? Который год нам обещают, что "ещё пару лет, и всё будет"?

Смотреть, как ранее люди думали, что еще 10, 15, 20 лет ИИ не дойдет до такого уровня, уже смешно.

Читать такие комментарии тоже смешно. Напомните, что там говорили после демонстрации IBM Watson? А после демонстрации AlphaGo? У нас там, исходя из старых прогнозов, на дворе давно должна быть технологическая сингулярность, а в итоге-то...

Признаюсь, так думал и я, пока не понял, что ИИ будет развиваться
экспоненциально и до замены большинства людей остались считанные годы.

Откройте эту статью. Прокрутите до графика, показывающего скорость самолетов. Закройте рукой экран так, чтобы были видны только точки, соответствующие самолетам, выпущенным в 1934 году и ранее - получите график, похожий на экспоненту. Теперь уберите руку и скажите, напоминает ли полный график экспоненту? А теперь скажите, на каких основаниях (исключая вау-эффект) вы экстраполируете дальнейшее развитие ИИ экспонентой?

Ну и да, рекомендательные системы, машинный перевод, автопилот - в основе всех этих систем лежит ИИ и все эти системы, судя по последним годам, развиваются по сигмоиде. Почему рассматриваемый нами случай должен стать исключением из этого правила?

а обобщениями, формированием абстракций, латентного пространства,
сохраняющего модель мира, из которого можно уже извлекать разные данные,
а не только то, что туда было заложено.

Ну, не стоит так уверено такое говорить. Есть основания полагать, что за "модель отвечает, потому что сформировала модель мира и вывела что-то новое" лежит "модель отвечает, потому что такое уже было в обучающей выборке". Например, здесь рассматривается проблема утечки данных (ну, или "проблему загрязнения заданий", как это называется в статье). А кто-то из-за этого просто в открытую смеётся над исследователями, явно намекая, что перед интерпретацией результатов тестирования /исследования модели неплохо бы тщательно изучить её обучающую выборку. Да и какая-то абсолютная нездоровая погоня OpenAI и других компаний за расширением датасетов (1, 2) наводит на некоторые мысли (хотят максимально увеличить вероятность того, что ответ на произвольный пришедший вопрос уже был в обучающей выборке?). Так что на самом деле здесь всё не так просто, как кажется.

активное препядствование технологическому прогрессу

А как люди из поста мешают ученым из OpenAI (да и не только им) модифицировать старые архитектуры ИИ и разрабатывать новые? Никак. Следовательно, никакого препятствия прогрессу здесь нет.

И да, как ни странно, те, кто мешает собирать датасеты, как раз способствуют прогрессу. Может, они (вместе с другими факторами, конечно) побудят решать проблемы, которые ухудшаются уже сколько лет и которые как-то никто особо не спешит решать.

Галлюцинации возникают по причине того, что внутренее представление не
до конца точное, и не соответствует на 100% смыслу тексту затравки. Т.е.
не хватает параметров для полного описания всех ньюансов смыслов,
имеющихся в обучающем корпусе. В начале восхождения LLM заметили простой
факт, тупо увеличивая количество параметров, получаем меньшее
количество ошибок и более корректные ответы.

И это в общем случае неправда. Вот тут приведен пример, когда рост размера модели приводит к увеличению числа галлюцинаций. Да и отчёт OpenAI по GPT-3 (1) ясно показывает, что зависимость качества модели от размера не является монотонно возрастающей. То есть причина галлюцинаций лежит совсем в иной плоскости.

Хм, а давайте представим ситуацию: человек, который за свою жизнь успел повидать тысячи плохо нарисованных работ (детские каракули, мазня в Paint от случайного человека из интернета, работы от не очень умелых художников), решил стать художником. Сможет ли такой человек стать хорошим художником? Да, сможет, причин полагать обратного нет. А теперь другой вопрос: сможет ли модель, обученная на датасете, в котором есть много картинок плохого качества, рисовать хорошо? Ну, я вам напомню, что очистка обучающей выборки от плохих примеров является стандартным приёмом для повышения качества модели.

Какой итог? Картинки, которые художник видит в течение своей жизни, не оказывают значимого влияния на качество его работ (а раз нет влияния, то и разрешений не нужно), в то время как картинки, "увиденные" моделью, являются чуть ли не одним из главных факторов, определяющих качество работ, которые она генерирует. Так что ваш аргумент "А вот живые художники" в контексте данной дискуссии не является хоть сколь-нибудь значимым.

И это всего лишь универсальный инструмент, который под данную задачу и не затачивался.

Вот, например, статья, в которой говорится, что OpenAI нанимали толпы разметчиков кода. Так что говорить, что GPT не затачивался под написание кода - полная ложь.

И сколько там времени понадобилось для перехода от гпт3 (которая вообще ничего толком писать не могла) к гпт4, около года?

GPT-3, исходя из этой статьи, был выпущен в мае 2020. Так что нет, переход от GPT-3 к GPT-4 занял почти 3 года (и это на фоне того, что переход от GPT-1 к GPT-2 и от GPT-2 к GPT-3, если правильно помню, заняло как раз около 1 года, что немного заставляет задуматься).

Почему GPT-3 не мог писать код - дает ответ вот эта статья. Так что увы, GPT-3 не мог писать код не потому, что он принципиально не мог этого делать, а потому, что в него тупо не залили сотни гигабайтов кода (как только залили - процесс сразу пошел в гору); при переходе от GPT-3 к GPT-4 в плане программирования никаких качественно новых свойств не появилось (в плане понимания программирования - уж точно, как показывает данная статья).

ИМХО, использовать ChatGPT 4 как аргумент, почему нейронки не могут
писать код, это примерно как в начале ХХ века использовать самолёт
братьев Райт как аргумент, почему самолёты никогда не смогут летать
через Атлантический океан.

Некорректное сравнение. С самолетом братьев Райт куда правильнее было сравнивать вот эту модель (да, размер модели - крошечный, размер датасета - крошечный, но код хоть как-то пишет. И это было целых 7 лет назад). По сравнению с ней GPT-4 - это какой-нибудь Boeing (в плане потребляемых ресурсов - уж точно). Так что есть все основания полагать, что модели, в основе которых лежит трансформер, действительно никогда не научатся адекватно писать код; исправить положение сможет разве что полная смена подходов, что произойдет ой как нескоро (так как фундаментальная смена подходов - это очень долгий процесс, который очень часть может не приносить никакой практической пользы; куда проще клепать эвристики на существующие решения, фиксировать прирост качества в 0.1% и получать деньги от инвесторов).

После прочтения комментария вспомнилось, что говорили про автопилот лет так 10 назад. Тоже было "Вот-вот совсем скоро, и появится автопилот 5 уровня по SAE, не будет больше водителей". Что имеем сейчас? Ну, вроде как еле-еле подобрались к 3 уровню, с 4 - классическое "что-то там тестируем, оно вроде работает, через пару лет планируем начать производство", про 5 уровень никто даже и не заикается; роботакси умудряются периодически творить дичь даже несмотря на то, что они ездят в малых количествах и с кучей ограничений (1); нейросетевая магия в автопилоте тоже все не хочет и не хочет происходить; да и имеющиеся новости тоже не самые позитивные (1, 2).

А что происходит сейчас с ИИ? Да в принципе то же самое. Никакой строгой теории для прогнозирования свойств моделей ИИ у нас нет, но все кричат, что "Вот-вот совсем скоро всё будет". Как всё сложится в этот раз - поглядим, но по ощущениям всё идет к очередной "AI winter" со всеми вытекающими.

1

Information

Rating
Does not participate
Registered
Activity