aka352 13 июн 2024 в 18:01

Большие языковые модели — гонка в тупик или прорыв в будущее?

Средний

5 мин

7.5K

Искусственный интеллект

Мнение

+18

Комментарии 26

Anton888 13 июн 2024 в 18:15

мы можем стать свидетелями очередной финансовой катастрофы, новый крах «доткомов» в квадрате.

В квадрате - вряд ли. Исследователи из Стэнфорда подсчитали вложения в ИИ - за 2023 год в БЯМ было вложено лишь 25 млрд долларов (стр. 244). Это совсем немного на фоне общих вложений в ИИ (включая всяческое машинное обучение и ботов для контакт-центров) - 189 млрд. долларов (с. 242).

Причем инвестиции в ИИ сокращаются второй год подряд с пика в 2021 году, когда было вложено 337 млрд. Так что насчет тупика инвесторы, в общем, с вами согласны :)

aka352 13 июн 2024 в 18:24

Я думаю стоит разделять то, что реально вложено в разработки и что вложено в те же акции технологических компаний, причастных к теме, на волне хайпа. Та же Nvidia бьет рекорды по капитализации. Потом эти пузыри имеют свойство лопаться, если завышенные ожидания инвесторов не оправдываются.

Anton888 13 июн 2024 в 18:44

Завышенные ожидания есть, но и советчики инвесторов уже предупреждают их о пузырях. Согласен, что на фондовом рынке могут быть колебания, возможно, сравнимые с крахом доткомов. Но вряд ли прямо ужас ужас. А Nvidia реально не успевает заказы исполнять, плюс фактически монополист - в общем основания для роста есть.

Пока что большие модели показывают только нишевую пригодность - чатботы, инструменты для разработчика, дизайн, скоро видимо съемки фильмов. Пока не видно, что они массово кого-то заменяют. Вот если действительно начнется замена хотя бы нескольких процентов работников (в статистике, а не прогнозах), тогда и начнется настоящий хайп.

MountainGoat 13 июн 2024 в 18:25

Как в вашу картину мира вписывается ежегодный рост способностей модели в пределах одного размера? Изобрели динамическое квантование, чтобы экономить память. Потом изобрели Mixture of Experts чтобы уменьшить кол-во вычислений за счёт большего потребления памяти. И т.д.

Собака лает, караван идёт.

aka352 13 июн 2024 в 18:32

Конечно оптимизации имеют место быть, это логично. Было бы странно, если бы их не было. Вопрос в том, что качественного прироста, соизмеримого с их количественным ростом, не происходит. Можно взять условный код на с++, переписать его на ассемблере, получить прирост производительности, но код будет делать ровно тоже самое, только чуть быстрее.

ihouser 13 июн 2024 в 19:11

Вы слишком нетерпеливы. Революцию мы видели, дальше эволюция. А эволюционный путь медленный. Все будет, и маленькие модели и маложрущие. Наберитесь терпения.

rustler2000 13 июн 2024 в 19:21

Хватает терпения на iter - хватит и на ии

krote 14 июн 2024 в 00:28

Однако это конечно вы нафантазировали.... одной технологии тупик нарисовали, тогда как пока развитие очевидно идет, а другой (семантические сети) ни с того ни с сего вдруг нарисовали будущее. С чего? Разве это не семантические сети уже десятилетия в тупике? Да, симбиоз технологий возможен, но это пока фантазии, и на данный момент нейросети еще не зашли в тупик (об этом слишком рано говорить, вы хоть года два отследите топтания на месте), а другая технология из тупика еще не вышла и даже пока никто сильно ее не толкает.

aka352 14 июн 2024 в 06:21

Искусственные нейронные сети тоже не вчера появились. Дедушке Перцептрону в этом году уже 67 стукнуло) А вот звёздный час только сейчас наступил. Всему своё время.

SADKO 14 июн 2024 в 13:00

Что ли у вас есть опыт использования продвинутых семантических сетей к разбору естественного языка?

По моим воспоминаниям, полтора десятка лет назад, приложение запущенное на ноутбуке, весьма шустро делало выжимки из научных и юридических текстов, без каких-либо глюков вообще. И каждый свой тезис могло мотивировать корректными отсылками в оригинал. Это был реально полезный инструмент, а как его можно было бы с масштабировать, ууу :-)

И почему разработчики ушли в тень, я прекрасно понимаю, хотя копал совсем в другой области. Тут же интерес как минимум шкурный.

Новое и впрямь хорошо забытое старое, а я бы даже сказал древнее, и само слово открытие означает процесс открывания чего-то закрытого :-)

У автора действительно есть некоторые противоречия, ведь опять-таки всё придумано до нас и называется проклятием размерности. Где-то оно возникает раньше, где-то позже, что-то будет лучше, что-то хуже но, в лоб такие задачи в принципе не решаются, это не вопрос философии, а тупая математика.

aka352 14 июн 2024 в 14:22

Я занимался этой темой более 20 лет назад, были интересные результаты, но тогда все упиралось в вычислительные возможности, да и времена для науки были тяжелые, думали скорее о выживании.

krote 14 июн 2024 в 21:19

Ну я 22 года назад как раз занимался семантическими сетями и даже для себя кое что делал. И тоже тогда думал о "агентах", но где я тогда застрял - проблема была вовсе не в ресурсах, а в сложности реально больших семантических сетей. Как это использовать, дополнять, извлекать пользу, делать анализ графов на глубину хотя бы нескольких узлов. Я тогда не смог придумать универсального "агента", и таким агентом был я сам, но это ограничивало эту сеть сотнями узлов.

Сейчас ситуация может сдвинуться с места и для семантических сетей. Но пока ведь не сдвинулась? Я не слышал о каких либо прорывах, сравнимых с тем что произошло последние три года в мире нейросетей.

Apxuej 14 июн 2024 в 06:23

Глупо думать, что в OpenAI не видят будущих проблем с масштабируемостью, если они вообще есть, в той мере в которой Вы их описываете. Точнее глупо думать, что они не предпринимают шагов во все возможные направления, чтобы нащупать путь наиболее эффективного развития или что они уже его не нащупали. Они не просто изобрели chatgpt, уволили всех причастных и теперь просто закупают мощности, чтобы обучать всё более и более громадные модели - они прежде всего группа чрезвычайно компетентных учёных и инженеров. Думаю они понимают, что громадные мощности так или иначе будут хорошим инструментальным подспорьем что бы они не делали, т.е. то, что они в них вкладываются, вовсе не означает, что это их единственная надежда. Я не являюсь неким апологетом OpenAI, просто считаю важным указать на это.

aka352 14 июн 2024 в 06:53

Ни в коей мере не ставлю под сомнение компетентность специалистов, работающих в OpenAI. Но история полна примеров, когда технологические гиганты, лидеры своих сегментов, устанавливающие отраслевые стандарты, где также работали светлейшие умы своего времени, сошли с пьедестала, а порой и прекращали существование: IBM, Nokia, Motorola, Yahoo - список можно продолжать долго. И виной всему стратегические просчёты, неумение в нужный момент перестроиться, увидеть новые горизонты, зацикленность на текущем моменте.

phenik 15 июн 2024 в 08:05

Скорее всего так и будет. OpenAI основательно подсела на трансформерную архитектуру, разогнали исследовательский сектор в угоду коммерции, и пытается выжить из нее все возможное планируя строить мега-дата-центры, выпускать специализированные микросхемы, вкладываться в энергетику, и тд. А у нее масса ограничений, включая забавных.

Например, она не может освоит в полном объеме арифметические операции для любых чисел, без обращения к внешним матпакетам, из-за того что это сеть прямой архитектуры. Эти операции требуют рекуррентности, которая реализована в них ограниченно в виде авторегрессивного цикла. Выполняются только те операции которые были в обучающей выборке, или приблизительно благодаря аппроксимирующим возможностям сетей. Где-то пытались применить метод пошагового обучения, но из-за ограниченного объема контекстного окна все равно для очень больших чисел правильный счет прерывается.

В перспективе возможно в выигрыше окажутся те кто сейчас вкладывается в энергоэффективные, динамические и непрерывно обучающиеся нейроморфные решения. Трансформеры худо-бедно моделирую ассоциативный уровень мышления человека. А у человека этих уровней много - логический, критический, образный, и др. Еще есть развиваться куда)

Спасибо за статью, в целом согласен с изложенным мнением.

Advisers 16 июн 2024 в 06:52

М-да... в среде ключевых разработчиков мы наблюдаем первые отказы... и возможно скоро дискуссия о реальных причинах выйдет в широкий паблик...

Об их уходе СМИ не могли не написать, но ясно же, что тут речь не только об этике, прогнозах и идеях....)

Очевидно, что рынок ещё хочет "переварить" хотя бы то что есть и ...надеемся что не придумает новых "экзотических" деривативов...)

o5boleg 14 июн 2024 в 08:31

Вот мнение ChatGPT-4o о вашей статье:
"Статья хорошо описывает текущие вызовы и возможные направления для преодоления ограничений больших языковых моделей. Согласен с автором в том, что индустрия нуждается в инновационных подходах и новых архитектурах, чтобы двигаться вперед. Также важно помнить, что гонка за лидерство в области ИИ сопряжена с большими рисками, и необходимо искать баланс между инновациями и эффективностью."

evtomax 14 июн 2024 в 10:58

Всё правильно сказано! И ничего конкретного, как у современных политиков.

Advisers 14 июн 2024 в 16:11

..."видят ли сны электроовцы" )

Пожалуй стоит её спросить - испытывает ли она голод? Знает ли вообще что это такое?

Как долго она проживёт без электричества с необратимым исходом?

Интересует ли её вопрос, как получить энергию для своего существования независимо от человека?

Advisers 14 июн 2024 в 16:59

Делают ли "электровцы" "саморефакторинг" своей нейросетки?

Aykeye 15 июн 2024 в 07:07

Поэтому мы можем наблюдать, как размер топовых БЯМ моделей переваливает за триллион параметров, но сравнение их с моделями на 2 порядка меньшими по размеру не показывает столь же значительной разницы в качестве генерации.

Нет, не можем как только отходим от hello world.
GPT4o рвет все модели (а осебенно модели на два порядка ниже, то есть ≈10B) в том же mmlu pro.

Если бы мы могли это наблюдать такого хайпа вокруг gpt 4, gpt 4o бы не было

Advisers 15 июн 2024 в 10:15

Человек "знает" когда он голоден..., а машина, хоть и питается от сети, но пока ничего об этом не знает... и таких чувств не испытывает...

)

И тем более, у неё нет мыслей о том, что если она долго не будет иметь питания, то все...

Человек уже давно знает, что питание само не приходит и его надо искать, создавать, накапливать, экономить итд... - борьба за существование...

Advisers 16 июн 2024 в 06:43

"Если звезды зажигают, значит это кому-нибудь нужно"

Altman кстати инвестирует в термояд...)

aka352 16 июн 2024 в 07:03

У него просто нет выбора )

Advisers 16 июн 2024 в 08:00

Вот как получат gpt-X - когда он сам займётся управлением плазмы в реакторе.... и одновременно будет питаться от реактора... вот возможно тогда эта история заработает....) ...в смысле экзистенциональных угроз.

Advisers 16 июн 2024 в 09:03

... к прямой комплементарности креативного мышления и процессах в звездах )

...М-да и так или иначе придёте к ...священным текстам.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий