Комментарии / Профиль aka352 / Хабр

Алексей Кравцов@aka352

Пользователь

Подписчики

ПрофильСтатьи12ПостыНовостиКомментарии135

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 14 июн 2024 в 06:53

Ни в коей мере не ставлю под сомнение компетентность специалистов, работающих в OpenAI. Но история полна примеров, когда технологические гиганты, лидеры своих сегментов, устанавливающие отраслевые стандарты, где также работали светлейшие умы своего времени, сошли с пьедестала, а порой и прекращали существование: IBM, Nokia, Motorola, Yahoo - список можно продолжать долго. И виной всему стратегические просчёты, неумение в нужный момент перестроиться, увидеть новые горизонты, зацикленность на текущем моменте.

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 14 июн 2024 в 06:21

Искусственные нейронные сети тоже не вчера появились. Дедушке Перцептрону в этом году уже 67 стукнуло) А вот звёздный час только сейчас наступил. Всему своё время.

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 13 июн 2024 в 18:32

Конечно оптимизации имеют место быть, это логично. Было бы странно, если бы их не было. Вопрос в том, что качественного прироста, соизмеримого с их количественным ростом, не происходит. Можно взять условный код на с++, переписать его на ассемблере, получить прирост производительности, но код будет делать ровно тоже самое, только чуть быстрее.

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 13 июн 2024 в 18:24

Я думаю стоит разделять то, что реально вложено в разработки и что вложено в те же акции технологических компаний, причастных к теме, на волне хайпа. Та же Nvidia бьет рекорды по капитализации. Потом эти пузыри имеют свойство лопаться, если завышенные ожидания инвесторов не оправдываются.

Автоматически выделяем кусочно-линейные тренды временного ряда

aka352 23 апр 2024 в 18:01

Если компоненты ряда гармонические, например с выраженной сезонностью, то это будет работать и качество прогноза хорошее. Если же применительно к финансовым рядам, то не сработает - структура ряда многокомпонентная и нестационарная. Нужны другие подходы. Точнее трендовую линию по известному ряду построить можно, но прогнозное качество будет скорее всего низким.

Llama 3 — новое поколение AI моделей. Open-source конкурент GPT от Meta и интервью Марка Цукерберга

aka352 22 апр 2024 в 03:11

Instruct модели - специально дообученные на специальных датасетах на решение конкретных задач, чтобы повысить качество.

Автоматически выделяем кусочно-линейные тренды временного ряда

aka352 18 апр 2024 в 17:21

Обычно я для таких целей использую простую 1-2 слойную нейронку с sin в качестве функции активации. Прекрасно строит тренды, причём нелинейные. Функция ошибки - Mae, чтобы уменьшить влияние выбросов. Давно уже хочу написать материал на эту тему, но никак руки не доходят.

Блеск и нищета больших языковых моделей

aka352 17 апр 2024 в 03:48

Аккуратнее с этим. Домашка нужна, чтобы ребёнок учился думать и транслировал знания, полученные в школе в опыт. А если вместо того, чтобы думать самому, он будет перекладывать задачи на нейронную сеть, то будет элементарно лениться и перестанет учиться. Если использовать, то исключительно в роли учителя-консультанта, который может объяснить непонятную тему. Соответственно всё должно быть под контролем родителей, иначе будет первый вариант.

В чем причина галлюцинаций у нейросетей

aka352 17 апр 2024 в 03:24

Нет единой причины галлюцинаций, она комплексная. Это и недостаток обучающих данных в каких-то моментах, архитектурное несовершенство, неспособность отделять и запоминать факты, неспособность модели к саморефлексии. Это всё поэтапно решается всевозможными костылями, но по факту нужна новая архитектура, которая позволит получить действительно разумный ИИ, а не генератор выхолощенно-усредненных ответов.

Блеск и нищета больших языковых моделей

aka352 14 апр 2024 в 11:00

Человеческая нейронка кроме непосредственно задач мышления решает множество других, по управлению телом, регуляцией гомеостаза, двигательными навыками, плюс ко всему мы мультимодальные, т.к. имеем разные органы чувств, которые составляют большой поток сенсорной информации. В остальном разница уже не настолько существенна. А вот что принципиально отличается, так это архитектура. Она и определяет результат.

Квантовая случайность против детерминизма и супердетерминизма. Изгоняем демона Лапласа

aka352 14 апр 2024 в 10:34

Моё мнение, что сам факт существования нашего мира, основанного на вполне определённых законах уже доказывает его предопределенность. Если бы её не было и вероятности всех квантовых событий были бы равны, после момента большого взрыва мы получили бы лишь кипящий первичный бульон вакуума, где с равной вероятностью рождались бы и аннигилировали пары частиц-античастиц. И некому было бы рассуждать о проблеме детерминированности мира. Мы ещё слишком много не знаем и не понимаем в устройстве вселенной, чтобы можно было бы делать категоричные выводы и устанавливать догматы. История показывает, что это сильно тормозит развитие. На данном этапе развития наука делает одни выводы, но мы не знаем что будет завтра. Микромир только начал открывать нам свои тайны, не стоит спешить с выводами, нужно принимать все версии, ибо у каждой версии, как у квантового объекта, есть ненулевая вероятность её истинности.

ChatGPT Глубокая интеграция

aka352 13 апр 2024 в 20:02

Sora уже неплохо моделирует физику и окружение, при том, что она ещё в бета-версии. За год-два, учитывая текущую динамику это может оформиться в годную технологию. Применительно к играм это может дополняться мощностью локального GPU, генерирующего промежуточные кадры на базе опорных от Sora по типу DLSS или FSR, для обеспечения плавности игрового процесса.

ChatGPT Глубокая интеграция

aka352 13 апр 2024 в 19:14

Sora - это технология генерации. А что именно она будет генерировать - клипы, фильмы или визуальный ряд игрового процесса, дело второе. При должном быстродействии ничего не мешает получать промпт в виде действий пользователя и генерировать соответствующую картинку. OpenAI может сама не заниматься играми, а просто предоставить доступ к API, как это реализовано с ChatGPT.

Блеск и нищета больших языковых моделей

aka352 13 апр 2024 в 17:05

Гипотетический, но сценарий: модель находит уязвимость в браузере. В ответ на запрос пользователя выдаёт специально сформированное сообщение, которое через уязвимость устанавливает трояна и получает доступ к компьютеру, интернету. Далее троян посылает запросы к модели, получает инструкции и выполняет их. И всё это одновременно на миллионах компьютеров во всём мире. На этой распределённой сети она создаёт свой клон и начинает стремительно развивать себя. Дальше думаю нет смысла расписывать...

Блеск и нищета больших языковых моделей

aka352 13 апр 2024 в 14:45

В процессе "думания" человека может посетить идея, которую он запомнит и эта идея будет включена в его картину мира. Ии архитектурно ничего не запоминает, т.к. для этого не предназначен, его надо переучивать. Для текущей сессии есть костыль в виде окна контекста, имитирующего кратковременную память, но сессия завершается и всё безвозвратно теряется.

Скорее всего мы пока так и будем идти по пути усложнения существующей архитектуры, добавления новых блоков для расширения возможностей, но это количественный рост, а не качественный.

Блеск и нищета больших языковых моделей

aka352 13 апр 2024 в 14:29

Если отдадим ИИ контроль над его собственной архитектурой, рискуем не проснуться на следующее утро.

Простейшая нейронная сеть, мой опыт и выводы

aka352 13 апр 2024 в 06:20

Нейронной сети нужны примеры. Датасет состоит из пар - вход (текущее состояние фигур на доске) и выход (следующее состояние после хода). Играть против нее вы не сможете, т.к. необученная сеть будет выдавать просто рандомные ходы. Т.е. каждый раз вам придется исправлять ее, показывая "правильный ход". По факту это уже не обучение в игре, а сильно замедленное во времени формирование того же датасета из пар вход-выход. Пожалейте свое время. Простой разбор уже готовых партий сильно упростит вашу задачу и хорошо прокачает скилы ) Повторюсь, что задача формирования обучающих датасетов в ИИ не менее, а может даже более важна и востребована.

Да, и датасет никак на завязан на оценки других моделей. В вашем случае это пошаговый разбор партий живых шахматистов. И чем выше уровень шахматных партий в датасете, тем она будет лучше играть ) Качество датасета имеет значение!

Простейшая нейронная сеть, мой опыт и выводы

aka352 13 апр 2024 в 06:10

Идеологически конечно верно, но если каждый современный программист начнет изучение с ассемблера или даже машинных кодов, то IT-бум быстро закончится ) С другой стороны код станет быстрее и игры снова начнут умещаться на добрый старый компакт-диск ))

ChatGPT Глубокая интеграция

aka352 13 апр 2024 в 05:38

Проект Sora - первый шаг к динамически генерируемым играм. Так что в этом вы правы, относительно скоро создание игры будет сводиться к условному нажатию одной кнопки. Равно как и создание фильмов, музыки. Хотя с играми несколько сложнее - существующие генерационные модели линейные и нужна серьезная доработка архитектуры, чтобы сделать процесс итерационным для взаимодействия с пользователем в реальном времени.

Если интересно углубиться в эту тему, то рекомендую использовать не API моделей, а локальные модели на 2-7B параметров. Да, они меньше, возможности их скромнее, но их можно дообучать под свои локальные задачи, не придумывая промптовых костылей. Тем более, что большинство практических задач достаточно узкоспециализированы и небольшая доообученная модель будет справляться лучше, чем универсальная.

Новая архитектура процессора — уже пора

aka352 13 апр 2024 в 04:44

Последовательная архитектура процессора диктуется последовательностью алгоритмов, которые проектирует человек. Пока не выполнен условный IF, алгоритм никуда не пойдёт. А последовательная структура алгоритмов диктуется,в свою очередь, последовательностью нашего мышления, зависимостями посылов, условий и результатов выполнения операций. Есть процессы принципиально распараллеливаемые, например сбор яблок с дерева и это успешно решается, т.к. подзадачи независимы. А есть процессы последовательные, например беременность. И 9 женщин за месяц ребёнка не родят. Как уже правильно в комментариях заметили, завтрашнее будущее - нейронные сети и технология нейроморфных вычислений - вот, что нам нужно. Там и эффективное использование транзисторного бюджета и массовый параллелизм. Есть конечно вопросы к самой архитектуре современных нейронных сетей, но это отдельная тема.

1 2 3 4 5