Comments 54
То есть просто и дальше тупеет пользователь телефона и текущие НейроСети окажутся умнее - и не надо ничего развивать - просто подождать.
Журналист изнасиловал учёного, причём, какого учёного! Точка зрения Дойча очень хорошо известна: 1) теста Тьюринга нет и быть не может (по видеосвязи он конкретно про Тьюринга говорит, что эта история — миф, но до того он уже писал, что сама идея такого теста, кто бы его ни предложил, глубоко ошибочна), 2) чатботы это тупик (не в смысле зарабатывания денег, а в смысле науки), 3) никакого прогресса в AGI не будет, пока не будет изучен когнитивный процесс человека, разве что случайно.
Собственно, он снова это и повторил. И если при этом из вежливости не назвал их всех шайкой шарлатанов, это не значит, что он поменял своё мнение.
Да нафиг никому не сдался интеллект похожий на человеческий. Со всеми его недостатками и эволюционными костылями.
Нужен именно НЕчеловеческий ИИ который бы ничего не забывал. Всё запоминал. И делал интеллектуальную работу без ошибок.
Что мы имеем сейчас? Алгоритм поиска соседнего вектора в векторном пространстве. Путём чудовищных вычислений - этот алгоритм каким то чудом стал выдавать на выходе псевдо-похожую речь.
Кто знает как внутренне устроенна LLM - тот у виска крутит пальцем когда слышит рассуждение армии блогером о всемогущем искусственном интеллекте - который вот вот, ещё чуть чуть, уже в 2030 году всех победит и всё придумает.
А те кто плотно с ним работает (например я) получаю то что он может дать и не более. Если я прошу написать его алгоритм - он в 99.99 это сделает блестяще - потому как в векторном пространстве есть цепочка векторов реализующая этот алгоритм.
Но если я дам ему проверить свой код. Уже со страницы кода - это просто финиш. Он найдёт кучу неисправностей, потом ты ему будешь доказывать что это не неисправности. Спустя час он полностью с вами согласится, а потом ты сам увидишь дыры в коде.
Вам кажется что у вас диалог, а в реальности это алгоритм упаковывания всего вашего трёпа в короткий вектор - эмбединг. И уже из этого вектра идёт дальнейший поиск.
А всё потому как там нету алгоритма который бы конкретизировал образы-модели и строил вокруг этих обектов виртуальную модель поведения. Там только алгоритм вытаскивания соседнего вектора из своеобразной огромнейшей векторной базы данных.
Да там вообще нету алгоритма чётких фактов. Вообще всё что выдаёт LLM на выходе - это всё приблизительно. Просто чудовищными мощностями загнали эту приблизительность в 99.99%. Но скоро докатимся что для простого ответа нужна будет мощность АЭС.
И всё из за того что неправильно выбран алгоритм. Скажем так - я уже сейчас начинаю видеть посты от разработчиков LLM - что они пошли неправильной дорогой.
Где конкуренты, которые идут правильной дорогой и предлагают более эффективные решения? Реально интересно.
Всевозможные гибриды SOAR, ACT-R и LLM это то что на слуху. Вроде как в спец конторах такие гибриды применяют. Слышал что в Америке в конторах для модулирования и предсказания войн и подобного. В конторах прогнозирующих мировые рынки и их тенденции развития. Там годами пилят подобные спец под себя заточенные программы. Наружу они не выходят.
Ну почему не выходят?! Soar есть в двух версиях: гражданская - она публичная и общество само её допиливает и военная (+разведка), которая давно применяется и вот она закрыта для общества. Военная, полностью под крылом DARPA, а публичная частично. DARPA, со всего мира (!), поддерживает только: логические/когнитивные/символьные/гибридные системы, а вот LLM, они давно "послали"... пасти ёжиков.
SOAR и ACT-R это как раз методология подхода к проблеме интеллекта как - чётко определить что надо и отсюда реализовать это в алгоритмах. По моему мнению именно классическое определение (как именно реализуют эти алгоритмы сейчас фиг его знает) это более низкоуровневое поведение. Т.е. механизм объектной памяти и механизм алгоритмов поведения.
Я же тут во вех портянках продвигаю мысль - развития этого механизма до виртуального моделирования среды. Хотя кто его знает - может где кто прямо сейчас это делает.
LLM - это же алгоритм поиска скрытых связей в понятиях. Через близкое расположение векторов понятий.
Думаю что гибрид первого подхода и второго даст качественный скачок в построении AGI.
Гибрид с LLM ничего не даст... "Слабости" LLM мешают и очень сильно мешают. Лично для меня, ЛЛМка нужна чтобы генерить "с`котикафф" и "собачкафф", на Большее - она не способна
Главное что даёт LLM - она способна понимать человеческий текст. Просто сейчас из неё пытаются выжить все соки и придать её чуть ли не божественные возможности.
А текст она понимает потому как работает с буквами и слогами и сочетаниями слов.
Это примерно как человеческий мозг работает - мы читаем слова не по буквам а целой картинкой. Свёрточные сети затылочной зрительной части мозга неплохо преврящают картинку целого слова в нужный сигнал.
Даже есть забавный эксперимент - если выкинуть большую часть букв из слова или переставить их местаим - всё равно будет понятно.
Я бы даже сказал что человек может воспринимать несколько слов одновременно или даже целое предложение - если у него в мозгах под это шаблон есть.
LLM работает точно также - она входящий текст с ошибками с склеенными словами и прочим мусором превращает в входные токены которые превращаются в нужные эмбединги.
Проблема SOAR, ACT-R и подобных жёстко структурированных систем это то что они могут работать с чётко поставленными данными. LLM это им обеспечит.
Ну и второе - LLM обеспечивает нахождение связей между понятиями. Это очень сильный механизм. Его надо использовать.
Это я написал так очевидное. Думаю может кто ещё каких интересных идей накинет.
Что касается SOAR, ACT-R и других когнитивных архитектур, то Вы ошибаетесь, считая их ограниченными "жёсткой структурой". Они уже давно работают не с "чётко поставленными данными", а с: динамической моделью состояния; целеполаганием; внутренней памятью (они и есть память); событийным управлением. Именно поэтому они способны обрабатывать тот же текст в разы быстрее и точнее. Такие системы используют словоформы, онтологию, правила вывода, символьное представление знаний и потому не галлюцинируют, могут объяснить ход мысли, обучаются в процессе, в реальном режиме времени можно "поправить" любые "знания" и самое главное - понимают контекст.
С удовольствием почитаю про хоть какие нибудь реализации. Разумеется сам тоже буду гуглить. Но может у вас есть пару ссылок?
И так сказать для дискуссии. Как вы считаете почему LLM со своими трансформерами взлетели, а про другие технологии что то не слышно что бы были доступны в массовом испльзовании?
Пока одни тратят миллиарды на масштабирование LLM, пытаясь выжать из статистики то, что она дать не может, альтернативные системы: LBS, CESP, нейро-символьные гибриды - развиваются в тишине, без шума, без ожидания признания. Их не сравнивают в бенчмарках, их не рекламируют на главных страницах, но именно они внедряются там, где нельзя ошибаться: в системах госуправления, в военных симуляциях, в диагностике, в юриспруденции. У них нет конкурентов, потому что никто не верит в логику, онтологии, формальный вывод. А значит, у них есть время, чтобы довести до совершенства анализ, рассуждение, работу с гигантскими объёмами знаний, способность к обучению в процессе и объяснению решений. Они не генерируют красивые отчёты, они просто работают.
Представьте поле боя: множество армий кричит «У нас ИИ!», «У нас лучший ИИ!», и все они "рубятся" между собой, расходуя деньги, энергию, ресурсы. Бойцы падают, технологии горят, инвесторы теряют интерес. А вы стоите на холме, не в центре, не в драке, на белом коне, в тишине, ведь вас никто всерьёз не воспринимал. Вы не участвовали в гонке за автозаполнением. Вы строили не имитацию, а понимание. И вот, когда шум затихает, когда остались только уставшие, истощённые, уверенные, что победили, "воины ИИ" - вы выходите. Не с криком, а с действием. Один шаг. Один запрос. Одно решение - точное, быстрое, объяснимое. И всё. Поле ваше. Потому что вы не сражались за хайп. Вы ждали момента, когда станет ясно: интеллект - это не кто громче, а кто понял первым.
Странно это читать от разработчика. Компьютер это тоже набор транзисторов и прочих элементов. А на выходе мы можем смотреть фильмы, делать сложные вычисления, писать тексты и т.д.
Это я привел аналогию к тому, что вы называете текущие модели ИИ - всего лишь алгоритмом поиска соседних векторов. Но этот алгоритм уже может создавать изображения, видео, разговаривать и решать разные практические задачи. И говорить в такой ситуации про точность - какой смысл? Компьютерная техника тоже работает не со 100% точностью. Но это не мешает решать практические задачи. Потому что точность ДОСТАТОЧНАЯ.
А всё потому как там нету алгоритма который бы конкретизировал образы-модели и строил вокруг этих обектов виртуальную модель поведения.
Исследователи или уже доказали, что все последние модели ИИ формируют у себя некие образы-модели, вокруг которых строят свое поведение, когда задаешь им соответствующий промпт. Т.е. это уже давно не просто векторная база данных.
А ещё есть такая штука как эмерджентность. Пример: велосипед. Если взять все его компоненты: колёса, раму, цепь, педали, руль, сиденье, и разобрать их по отдельности, получится набор независимых предметов. Но когда эти элементы собираются вместе, они образуют не просто конструкцию из частей, а транспортное средство, которое можно использовать для передвижения. Аналогично и с ИИ. Совокупность всех элементов и алгоритмов работы с векторами дают куда больше, чем просто "соседний вектор". Мы видим осмысленное с нашей человеческой точки зрения поведение, речь, размышления и т.п.
Ну и наконец - человек вообще не способен выдавать такую точность, как современная компьютерная техника и ИИ. Не говоря про ошибки. Но при этом мы считаем, что у нас есть интеллект))
Скажем так. Я смотрел множество интерпретаций от разработчиков на тему - а что же там собственно происходит. Не буду говорить что самым частым эпитетом которым они пользовались было - мы вообще не понимаем почему это работает, а также как они вообще разрабатывают дальше современные LLM. А разрабатывают они их просто наугад. Просто пробуют разные коэффициенты для локальных алгоритмов или просто тусуют эти алгоритмы. ПО типу а давайте пропустим не через 12 слоёв перецептрона, а через 16 и зациклим это через трансфомер. Или давайте переобучим 2,5,10 слои. Через месяц обучения смотрим что получилось - нихера не получилось. А давайте RAG на вход прикрутим ! Или в середину. И по новому. И при этих всех модификациях именно кор-алгоритм не меняется.
Так вот. Они (натягивали сову на глобус) предполагали что поиск в многомерном векторном пространстве, а в реальности тупое перемножение матриц, стал подобен... мыслям! Как по мне - они просто создали огромную БД куда аппроксимировали всю обучающую мега выборку. Т.е. сложили рядом друг с другом (в векторном виде) просто даже не слова. А слоги или даже буквы! Если глянуть величину эмбединг словаря - он будет занимать ushort величину. 64K всех возможных слогов, букв.
Если убрать притянутый за уши рандомизатор - механизм температуры. То на входящий промпт LLM будет отвечать всегда одним и тем же выводом слог. Что говорит что это просто конечный автомат.
Человек одним входящим предложением может переосмыслить весь свой жизненный опыт, т.е. переобучить мясную нейросеть. LLM же принципиально не обучаются от входящих промтов. Они статичны.
У LLM нету локальной памяти. Что бы они могли поддерживать контекст - весь предыдущий трёп каждый раз помещается в входящий промт - что бы получить один единственный маленький вектор, точка отправления которого и будет служить в векторном пространстве.
Кстати механизм внимания меня вообще убил - тупо складываем кусок предыдущего вектора с новым в итерации. Удивительно что это работает.
Вывод этой портянки текста. Современные LLM не имеют внутри фактов объектов. Не обучаются на входящей информации. Не модулируют факты объекты в виртуальном пространстве. Не имеют короткую память - как у человека. Не имеют внутреннего диалога - это следствие отсутствие визуализации внешнего мира. Не имеют никаких стимулов - это тупой конечный автомат по предсказанию следующего слога, буквы. Они не мыслят вообще - их вывод это иллюзия мысли. Внутри нету никаких проекций в быстрой памяти которой тоже нет.
Короче я задолбался писать. И да - они весьма полезные поисковики информации.
Вот бы вы были правы. Жаль, что нет.
Ключевых ошибки две. Механизм внимания - это и есть краткосрочное обучение. Это не сохраняется между чатами, но технически слой внимания работает как дополнительный слой сети (навскидку, arXiv: 2503.06671, arXiv:2106.05505, но их много).
Вторая - это утверждение, что у вас есть мысли. Разумеется это выглядит очевидным, ведь вы их ощущаете. Но если попытаетесь строго доказать, у вас не получится (буду рад увидеть научную статью, которая по вашему это бы доказывала).
Разумеется речь по мысли в том смысле, в котором у нейросетей их якобы нет. Что-то неаппроксимируемое достаточно сложной нелинейной функцией. Есть такое? Повторюсь, просьба не ссылаться на очевидность, а ответить надёжно.
Когда человеку сообщают новые знания - они попадают сначала в быструю память. А потом в долговременную. Физически это выглядит как прорастание новой дендритно-аксонной сети. Т.е. Человеческий мозг постоянно переобучается.
Пямять LLM - это веса в перцептронных слоях и вектора в векторной БД. Они статичны. Это обусловлено архитектурой.
Ваш пример краткосрочного обучения непонятен. Весь наш текст упаковывается в эмбединг - это что обучение по вашему? Это просто упаковка. Сжатие. А дальше с этим вектором просто происходит перемножение матриц.
По поводу мыслей. Я тут уже высказывал своё видиние развитие человеческого сознания. Если кратко - то сознания как бы 2 типа.
Первый тип - животное сознание. Присутствует у всех живых существ. Это модулирование внешней среды во внутреннее представление. Развито эволюцией для целей предсказания будущего. Хищники предсказывают куда прыгнет заяц. А зайцы следовательно наоборот.
Потомство оставляли те кто лучше это делал.
Это тип сознания я бы назвал автоматическим - там главенствуют безусловные рефлексы.
Второй тип сознания появился с появлением неокортекса и главное появлением речи. Мы получили возможность вести внутренний диалог с самим собой.
В повседневной жизни человек ведёт себя обычно по первому типу сознания - всё делает на автомате как робот. Но может переключится и на второй тип. Ведь мы осознаём себя именно в моменты внутреннего диалога.
Проекции образов из первого типа сознания на слова второго типа сознания и внутренний диалог - это и есть мысли.
В LLM мыслей нету - потому как нету внутренней проекции мира. Ну например мы читаем книгу - в голове сразу автоматически рисуется картина локальной арки книги. Рисуются герои. Наше сознание вообще отключается - мы переносимся в этот вымышленный мир. Читая диалоги книги - мы одновременно живём героем в этом виртуальном мире. Тоже самое когда мы смотрим кино. Тоже самое когда программист входит в так называемое состояние потока. Вообще проблема вопроса "Я" - я тут тоже неоднократно обсуждал.
Короче всего этого механизма в LLM нету.
Что касается учёных статей....Я вам их не приведу. Тема настолько новая что нету сейчас таких учёных. А учёных старой школы слушать их рассуждения о работе LLM без слёз невозможно. Да, он учёный - но просто вообще не в зуб ногой как устроена внутри современная LLM. Это я камень в огород некоторых которые иногда попадаются на ютубе или в шортсах
Ах да забыл. Вот https://www.youtube.com/watch?v=9ue_NLaSf0Y серия лекций просто потрясающего качества деталей. Вышла буквально "вчера". Ничего более подробного в русскоязычном секторе не найдёте. А если найдёте буду благодарен за ссылку.
А потом в долговременную. Физически это выглядит как прорастание новой дендритно-аксонной сети
Не у всех. Вы ведь должны знать про нарушения, когда новая долговременная память не образуется? А значит вы не можете считать это необходимым условием для мышления. Эти люди так же мыслят (ну или так же не мыслят).
Они статичны. Это обусловлено архитектурой.
Опять же, не является необходимым условием. Могут быть и не статичные. Хватит ли вам этого, что бы назвать перемножение матриц мышлением?
Вы явно уделяете статичности слишком много внимания.
Это просто упаковка. Сжатие.
Игра слов. Фундаментальное отличие покажете?
там главенствуют безусловные рефлексы
Не относится к делу, у человека их нет (ах да, один назвать сможете, но это всё). Давайте опираться на научные факты, а не на ваше мнение о людях.
потому как нету внутренней проекции мира
Повторюсь, давайте опираться на факты или диалог потеряет смысл. У LLM есть внутренняя проекция мира. Даже не буду приводить статьи, это же не секрет.
Тема настолько новая что нету сейчас таких учёных.
Если вы альтернативщик, так бы сразу и сказали. При чем тут шортсы? Изучать науку по шортсам, это несерьезно. Если для вас учёных «нет», значит вы в тему не погружены. Погрузитесь, пожалуйста, иначе слишком самоуверенно звучите. Якобы вы знаете, а другие нет. Слишком тщеславно, уж извините.
Один чудовищный эксперимент когда человека лишили возможность перемещения данных из быстрой памяти в долговременную я знаю. В общих чертах один любитель покрамсать мозги - обрезал что то в долях мозга, при этом нарушил своё же правило доктора - сделал одинаковую операцию на левой и на правой доле одновременно. В результате получился человек который помнил старое, а всё новое помнил лишь то что было не позже 15 минут - время быстрой памяти.
Но как это относится к проблеме мыслей? Мысли как раз в быстрой памяти и крутятся. Вот если бы доктор покрамсал участок отвечающий за быструю память - думаю в результате получился бы овощ. Или вы о проблеме проецирование образов из долговременной памяти на быструю? Честно говоря не вы не я не можем знать что и как там детально происходит. Я лишь для себя определю поверхностную логику работы. И кстати я вообще не утверждаю что это правда. Просто для меня текущая версия бытия такая. Новые данные - новые версии.
Хватит ли вам этого, что бы назвать перемножение матриц мышлением?
Мышление в моём понимании - это алгоритм, механизм, который строит виртуальную модель. Виртуальная модель включает в себя объекты. Виртуальная модель включает в себя законы внешнего мира. И главное это модель не статична. В ней происходит текущая последовательность активностей. Блин вот на ходу придумываю формулировки. Вобщем кроме механизма модели, есть ещё и механизм действий этой модели. У человека например этот механиз напрямую зависит от внешних сенсоров - глаза вилт хищника - бежать. Желудок сообщает что надо жрать - запускается механизм поиска еды. Короче у животных - этот механизм выживания. У человека с высшей нервной деятельностью - внешние сенсоры подменяются на виртуальные. Мы можем представить как едим лимон - и нам даже станет кисло.
В LLM вообще другая архитектура. Вот я как ни стараюсь не могу её архитектуру сравнить с архитектурой которая по моим определениям работает в голове человека. Вообще разные вещи. Но это не главное. Как я говjрил - AGI не должен быть человеческим. Но то что есть сейчас не выполняет тех минимальных требований который может сделать мясной интелект. LLM не может сидеть на кассе магазина. LLM не может писать код проекта от начала до конца. LLM вообще ничего интелектуального длинного не сделает. Она может генерировать бесконечный текст - который будет в результате бредом. LLM - сегодня это просто большая база данных. С API для запросов к этой базе данных. Да API по сложнее чем какой нибудь SQL. Но тем не менее это просто запросы.
Не относится к делу, у человека их нет (ах да, один назвать сможете, но это всё).
Ну скажем так - человек это почти целиком и полностью безусловный рефлекс. Эндокринная система, работа сердца. Это всё аппартно зашитые рефлексы. Отдёргивание руки от огня происходит раньше чем сигнал доходит до мозга. Но честно вообще не пойму при чём здесь это.
И чего это вы на меня наехали? Альтернативщик какой то. Статьи не хотите приводить о внутреннем устройстве очередного ИИ. А я бы почитал. И чего вам шортсы то не угодили? Никто по шортсам не изучает - это просто доступный католог. Увидел интересного чела - пошёл гуглить видео или статьи по нём. Мне например в шортсах никогда ничего интресного не попадается - там все несут полную пургу. Ну и что?
Вы меня рассмешили ))) Я никому ничего не доказываю ))) Как вы думает - зачем я тут пишу эти простыни ? Ну главным образом для себя - я так прокрастинирую. Мне кабздец как лень писать очередной код. И второе - а вдруг я увижу что то дельное и интересное от других?
Ладно. Пойду уже спать.
Какая разница, сколько случаев вы помните? Нет же возражений, что случаев антероградной амнезии тысячи? А если учитывать временную, то миллионы. А то ваши слова прозвучали так, будто это что-то уникальное.
человек это почти целиком и полностью безусловный рефлекс
Вы всё-таки альтернативщик. Нет, человек это не безусловный рефлекс. Не хотите опираться на современную науку, дело ваше, удачи вам.
мы вообще не понимаем почему это работает
Вы - может и нет, а вот мы понимаем, есть универсальная теорема аппроксимации, она доказана и для трансформеров, поэтому даже в худших случаях они работают.
И при этих всех модификациях именно кор-алгоритм не меняется.
Что такое по вашему мнению кор-алгоритм?
Они (натягивали сову на глобус) предполагали что поиск в многомерном векторном пространстве, а в реальности тупое перемножение матриц, стал подобен... мыслям! Как по мне - они просто создали огромную БД куда аппроксимировали всю обучающую мега выборку. Т.е. сложили рядом друг с другом (в векторном виде) просто даже не слова. А слоги или даже буквы! Если глянуть величину эмбединг словаря - он будет занимать ushort величину. 64K всех возможных слогов, букв.
Не знаю чем вам не нравятся операции из линейной алгебры, но если мысли и генерацию текста можно представить как функцию, то почему бы и нет?
У LLM нету локальной памяти. Что бы они могли поддерживать контекст - весь предыдущий трёп каждый раз помещается в входящий промт - что бы получить один единственный маленький вектор, точка отправления которого и будет служить в векторном пространстве.
Это особенность трансформеров, mamba или rwkv имеют скрытое состояние явное.
Кстати механизм внимания меня вообще убил - тупо складываем кусок предыдущего вектора с новым в итерации. Удивительно что это работает.
Ну во первых взвешенный, а во вторых это условное мат ожидание/fir фильтр/свёртка, в чем проблема? Его цель предоставить временные зависимости MLP.
Под работает я подразумеваю что на выходе получается осмысленный текст, а не осмысленный и логичный(в деталях) но в общей картине - бред.
Изначально как раз работало как бредогенератор. И никто не верил openAI что тупое увеличение векторного пространства даст качественный скачок. А они упорно продвигались в деле увеличения мощностей. И у них получилось!
И когда они говорят - что не понимают как это работает, имеется ввиду что не понимают почему произошёл этот качественный скачок только из за увеличение мощностей.
Это непонимание как раз и является краеугольным камнем преткновения который не даёт сделать следующий качественный скачок.
LLM в своих возможностях на данном этапе упёрлись в невидимую стену. Чудесный способ который помог на предыдущей итерации - в этот раз не помог - gpt5 оказался тупее.
Поэтому и разработка сейчас идёт методом тыка.
Погуглил "теорема аппроксимации для трансформеров" - разумеется ничего путного нет. Ok спросил у LLM. Она как всегда выдала ответ (хз выдумала или нет) Вот приведу кусок:
Скрытый текст
3. Что это значит на практике и какие есть ограничения?
Теорема — это мощная гарантия "мощности" архитектуры, но у нее есть важные практические ограничения:
Размер модели: Теорема гарантирует, что для аппроксимации любой функции существует трансформер достаточно большого размера (достаточно большое количество голов внимания, размерность embedding'а и т.д.). Но этот размер может быть астрономически большим и недостижимым на практике.
Обучение: Даже если такой трансформер существует, алгоритм обратного распространения ошибки (backpropagation) может не найти оптимальные веса из-за проблем с локальными минимумами, затухающими градиентами и т.д.
Контекстное окно: Теоремы часто предполагают фиксированную длину последовательности. Хотя на практике трансформеры могут обрабатывать последовательности разной длины (благодаря маскированию и позиционным кодировкам), обобщение на значительно более длинные последовательности, чем те, что были в обучающих данных, — это отдельная проблема.
Вычислительная сложность: "Достаточно большая" модель может требовать нереальных вычислительных ресурсов. Полносвязное внимание имеет сложность O(n²), что делает обработку очень длинных последовательностей крайне дорогой.
Как я понял - это теорема доказывает что имея безграничные возможности для трансформера можно произвести упаковку любой информации в маленький вектор который в векторном пространстве опять же безграничном найдёт точный ответ.
Ну хз что с этой информацией делать... Метематика не запрещает, но как нам это на практике то поможет? Уже сейчас практически достигли потолка мощностей - а LLM не то что новый качественный скачок не показывают, они деградировать начали. Что говорит об одном - архитектура не подходящая для нового скачка.
можно произвести упаковку любой информации в маленький вектор который в векторном пространстве
Статья: Генеративный ИИ — это просто «замыленный JPEG интернета», который убедительно косит под интеллект
В нормальной, научной среде, использовать солово ГенИИ - моветон;
И что дальше? Сами вектора что с ними делать?! Они никак не связаны между собой. Вот логические/когнитивные цепочки - они связаны, но только в альтернативных системах.
Весь смысл векторов что они лежат рядом друг с другом по смыслу. И типо если взять координаты вектора "столица Парижа" то по идее по соседству будут лежать координаты всех других столиц.
Это как бы основа работы LLM. Она берёт рядом стоящие вектора и складывает слоги из словоря по этим векторам. И получается псевдо интеллектуальный текст полученный вообще не интеллектуальным путём. В этом и есть чудо!
И весь спор в том - считать ли этот новый путь интеллектом или не считать. Потому как сама работа получается путём перемножения матриц.
В мясном же ИИ - работа заключается в передачи частотно изменчивых импульсов от нейрона к нейрону. Инфа передаётся количеством импульсов от конкретного нейрона. По типу вогнали иглу в нейрон и он начал выдавать 100 импульсов в секунду. Вместо 1.
Короче архитектуры вообще разные. На выходе вроде что то одинаковое.
Но что меня вообще выбивает из колеи что вектора не содержат понятие парижа и прочего. там будут просто объёмные области векторов которые будут в себе содержать размазанное понятие Парижа. И в зависимости с какой стороны придёшь можно на выходе получить что угодно. Вобщем я не до конца владею деталями. Сейчас как раз изучают тему подробно. Хочу раз и навсегда в коде увидеть эту магию и понять как реально работает, а не обобщенные не связанные с реальностью рекламные статьи.
Я бы сказал что обучение LLM вывернуто наизнанку по сравнению с обучением человека. Человек обучается на рельности. Он знает что такое город. И париж он будет ассоциировать с городом.
LLM же все свои понятия определят просто взаимосвязью слов в тексте. И понятие времени, обёма, вообще физического пространства там нету. Только частота распределения слов.
Получился какой то эрзац кадавр - который работает. Ну как работает. Текст выдаёт. Выдаёт по слогам.
Можно сказать что мозг тоже хрен пойми как работает. Но! Есть вещи которые мы чётко знаем что они есть. Это внутренние мечтание. Да сны в конечном счёте. Мозг явно модулирует внутри себя окружающую среду. Мы можем воображать.
В LLM такого точно нету.
Не понял, к чему это Вы сейчас. Статья как раз про то, что «ИИ» — это «Интернет, запакованный неточно (то есть с ошибками)», примерно как JPEG.
>>gpt5 оказался тупее
есть мнение что он оказался тупее не в силу каких-то ограничений концептуальных. А ограничений искусственных. Когда модели накрутили всякой логики что это говорить нельзя, этого обидеть нельзя, а еще выявить тех у кого психологические проблемы, и прочее. В итоге это привело к среднему ухудшению ответов в целом
Погуглил "теорема аппроксимации для трансформеров" - разумеется ничего путного нет.
Ну почему же, вот оно.
Компьютерная техника тоже работает не со 100% точностью.
Вообще‑то как раз со 100% точностью — за что и любим. Если «компьютерная техника работает не со 100% точностью» — её в ремонт нести надо.
Вообще то нет. Ошибки происходят и с ними существуют. Причём в ряде случаев даже намерено берут с ошибками ради скорости работы общей
Ошибки происходят и с ними существуют.
Пример приведёте, или так, просто трындите? Ни разу за мою не столь короткую жизнь не видел, чтобы a = 1; b = 2; if (a > b) then puts "ошибка"; end что-то напечатало.
Протокол UDP как пример
Протокол UDP как пример
Уж про «протокол UDP» не Вам мне рассказывать, который, можно сказать, с этим протоколом вырос. Я Вам сейчас расскажу основные причины «ошибок, благодаря которым UDP не является протоколом с гарантированной доставкой»:
1) нарушение сетевой связности — условно говоря, уборщица сетевой (который network) шнур выдернула, или экскаватор магистральный оптический кабель переехал — пакеты пропали. Как Вы должны понимать, компьютерная техника тут не виновата.
2) недостаточная ширина канала — канал, условно говоря, шириной 2 Гбит/с, а в него пытается пролезть 3 Гбит/с пакетов — софт раутера будет избыточные пакеты тупо дропать, ибо та ни лизе, батько! Как Вы должны понимать, компьютерная техника тут тоже не виновата, она делает что может — и она не виновата, что на тачку слона взгоромоздить пытаются!
3) битая память на одном из промежуточных хопов — контрольная сумма после передачи сходиться не будет, и следующий хоп такой пакет дропнет. Ежу понятно, что у такой железяки путь один — на свалку в ремонт.
Но всё это ничуть не противоречит моему посылу: компьютерная техника либо работает со 100% точностью, либо она поломана.
Вообще‑то как раз со 100% точностью
Если быть стопроцентно точным, «С точностью, сколь угодно близкой к 100%» (на практике это «сколь угодно» продиктовано компромиссом между надёжностью и ценой). Да, это свойство цифровой техники. Тем она и отличается от аналоговой, где ошибка неминуемо будет накапливаться, и контролировать её нельзя.
Скажем так - программы работают со 100% точностью. Потеря даже одного бита в адресе приведёт к возникновению исключения доступ к запрещённому адресу, либо к искажению данных. Что не говорит что такое не происходит. Программы постоянно вылетают с ошибками.
Для предотвращения этого используют память ECC - там единично искаженные биты исправляются простым алгоритмом коррекции чётности на лету.
Я даже где то статистику читал - как часто срабатывает механизм исправления ошибок в памяти ECC. Примерно 1 ошибка бита на гигабайт оперативной памяти за 1,8 часа.
Но не стоит различать логические ошибки задуманного алгоритма и ошибки выполнения инструкций процессор. Это 2 совершенно разные вещи - хоть и называются ошибками.
Собственно как криво вы напишите алгоритм - он с 100% точностью будет выполнять всю кривизну задуманного.
Программы постоянно вылетают с ошибками.
«Программы вылетают с ошибками», потому что программисты не предусматривают исключительные ситуации. Самый характерный пример — программист запросил 100500 памяти, malloc вернул NULL, потому что ну не шмогла я, не шмогла; программист на NULL не проверил, а стал по возвращённому указателю (это который NULL) пытаться что‑то писать — с очевидным результатом. А «ошибку компьютера», о которых мы тут рассуждаем, Вы чёрта с два встретите (хотя в теории — должны, но железячники делают всё возможное, чтобы программисты таки никогда не встретили).
Ну тема этой ветки была мол работают процы со 100% точностью или нет. Вот я как бы на это и ответил. Если в главном потоке будет ошибка доступа к памяти то прога аварийно завершится.
А вы описали классические глюки логики в программном коде. Что порграммер вложил в свою программу - то и получит.
И кстати зря вы говорите что обычный юзер не сталкивается с проблемами железа. Сталкивается постоянно. От этого очень страдает. Всякие несовместимости видеокарт, процессоров, и материнских плат. Криво разведённая трассировка до RAM обеспечивающую гонку сигналов.
Лично сам сталкивался с проблемой которая сильно повлияла на мой жизненный путь. А именно гнилой или недо-вставленный data кабель в HDD который работал но сыпал постоянно ошибками. И это не было заметно вообще нигде в программной логике. Т.к. это типа вотчина драйверов микросхем SATA контроллера. Но на всём компе это выглядело как всё глючит везде и непонятно почему.
гнилой или недо‑вставленный data кабель в HDD который работал но сыпал постоянно ошибками.
Ну то есть Вы снова подтверждаете мой тезис, что «или компьютер работает 100% правильно, или его в ремонт надо».
А речь о том, что LLM принципиально основана на случайности, см. «температура» (которая параметр, а не которая в комнате).
Я вообще не спорил с вами что комп работает как жёсткий автомат полностью подчиняясь булевой алгебре. Я с вами в этом согласен. Это другой товарищ вверху вроде что то другое говорил.
А что косается температуры в LLM - это как раз не кор механика, а самый настоящий костыль. У них на выходе получается пачка векторов с вероятностями. Как по мне - бери самый высокий и будет норм. Ведь я пользуюсь LLM как машиной поиска точной инфы.
Без этого костыля на одинаковый промт всегда будет одинаковый выход
Но разработчики хотят что бы LLM проявляла креативность. Что бы не была похоже на бездушную машину (но она и есть бездушная машина).
Вот и прицепили этот рандомизатор.
Я даже раньше интересовался у LLM - могу ли я задавать процент этого рандомизатора? Что бы сам мог управлять шкалой <Точные данные.......Бред>. Сказало что это жёстко зашитый параметр и управлять нельзя. Только если я локально запущу LLM и буду её исходники править.
А вот кор-механика это упаковка через перцептроны всего промта в маленький вектор и далее поиск соседнего вектора в векторном пространстве - и (по мне ИМХО тупой способ) - склеивание куска предыдущего вектора и нового (типо что бы сохранить контекст) вот этот механизм везде неизменен. И это работает -что удивительно.
P.S. Почему я говорю что это тупой способ? Потому как передача контекста должна идти через построение карты объектов обсуждения. И должна быть локальная память для этой карты для текущего обсуждения. У человека это быстрая память.
Когда я читал про это склеивание и про расчёт коэффициентов Q,K,V - то постоянно слышал - что это вообще наугад сделали и оно каким то хреном заработало.
Нужен именно НЕчеловеческий ИИ который бы ничего не забывал
Вы там поосторожнее с желаниями — они иногда сбываются.
Этот слон тоже ничего на забыл.
Кто знает как внутренне устроенна LLM - тот у виска крутит пальцем когда слышит рассуждение армии блогером о всемогущем искусственном интеллекте - который вот вот, ещё чуть чуть, уже в 2030 году всех победит и всё придумает.
из обывателей это мало кто понимает
Да нафиг никому не сдался интеллект похожий на человеческий. Со всеми его недостатками и эволюционными костылями.
Нужен именно НЕчеловеческий ИИ который бы ничего не забывал. Всё запоминал.
Это ещё один МИФ, о котором постоянно говорит Дойч. Что якобы может быть какой-то сверхчеловеческий интеллект. Если задаться критерием «умеет строить объяснения» (и вытекающим из него умением решать проблемы), алгоритмы делятся ровно на две группы: 1) умеет, 2) не умеет. Всё. К первой группе, например, относятся алгоритмы, выведенные эволюцией у нас в голове. Ко второй — алгоритм Брезенхема 😎.
Если алгоритм умеет строить объяснения и решать проблемы, в конце концов (за бесконечное время) он построит все возможные объяснения и решит все возможные проблемы. Куда выше этого прыгать? Что вам ещё надо? Например, чтобы ничего не забывать, мой алгоритм нашёл следующее решение. Купите тетрадку 48 листов, и ручку, которую не противно взять в руки. (Из «ФиксПрайса» с резиновой держалкой мне лично норм). И записывайте в процессе работы всё, что приходит в голову, чтобы не отвлекаться сейчас, но можно было вернуться к этим идеям позже. Некоторые компании в настоящее время работают над нейронными интерфейсами, чтобы в будущем можно было исключить ручку и ускорить записи идей.
И делал интеллектуальную работу без ошибок.
А ничего, что есть ещё фундаментальные ограничения на процесс вычисления, непонятно почему наложенные творцом нашей вселенной? Любой, кто играл в Life, видел своими глазами эффект «вычислительной несократимости» по Вольфраму. Некоторые решения просто нельзя найти иначе, чем полным перебором, а значит — совершая всевозможные ошибки. Это, знаете ли, основы нашей профессии. Примерно, как физик сказал бы, что он «плотно работает» с лазерами, и при этом демонстрировал незнание начал термодинамики. Короче, попробуйте говорящую щуку. Или лампу потереть.
В итоге получим HAL-9000 )
Если что, у него в 2025 году ИИ должен был круто и лихо заменить всех программистов
Логично, что сео компании про нейронки говорит что нейронки будут лучше, но принимать на веру я бы не стал
Ну не пишут код они.. Вот все кто не пробовал все обломались. Просто это выглядит так - задаёшь простой промт - напиши мне сайт. Можешь даже расписать его - типа там менюшки, кнопки. И LLM естественно в своей огромной векторной БД найдёт шаблон похожего сайта и выдаст тебе портянку нерабочего кода.
Но это же только начало. Дальше ты начинаешь разработку этого сайта - и начинается ад.
Когда ты начинаешь просить найти ошибки в существующем новом увеличенном коде или доработать его - это прост превращается в самобичевание. LLM найдёт ошибки там где их нет. Там где они есть не найдёт. И вместо самостоятельной разработки и тестирования - ты попросту занимаешься болтовнёй с LLM - а это занимает очень много времени. Больше если бы сам писал и тестировал.
У меня LLM занял следующую нишу. Написать маленький алгоритм. Сортировка там какая нибудь - который копипастишь и сам проверяешь на работоспособность.
И анализ кода. Скинул портянку - и читаешь вывод. Потому как она хорошо подмечает какие то локальные вещи. Иногда то что она выдала помогает самому обратить внимание на место в коде на которое у тебя зашорился взгляд. Но скажу честно такой двойной анализ бреда выданного LLM и анализ собственного кода - жутко выматывающая процедура. Мне смешно слышать когда кричат - программисты скоро не понадобятся. Да даже опытному программисту трудно вести такую двойную работу по анализу.
Просто нужно поручать LLM посильные задачи, и все будет ок.
"Найти ошибки" - это задача сложная, на порядок сложнее, чем генерировать код по заданным параметрам.
Сами OpenAI писали что ИИ сочиняет когда не знает ответа, ну как студент. Значит он выдумает ошибки если не найдёт ошибок. Надо добавлять "отвечай если уверенность более 80%, иначе скажи "не знаю"
Согласен. Дополню ваш ответ.
LLM легко ищут ошибки синтаксиса (собственно это гораздо лучше делает компилятор). Но это палка о двух концах. Новые синтаксисы она считает - грубейшими ошибками. Как ВСЕ даже чат гпт4 LLM достали меня поправлять в C# что объявление List или массива через [] - это ошибка.
Также LLM определяет ошибки в локальной логики - на несколько слов или строк.
На этом всё.
Когда кидаешь ей класс с 2 методами занимающий страницу или полторы экрана - она сначала полностью переделывает твой класс - создаёт тучу лишних методов. Заводит какую то лишнюю логику. Понятно почему. Она в своей базе данных нашла похожий шаблон и просто скопировала его на выход. Разбератся в этой неработающей каше как правило нету никакого желания. И когда горишь не переделывать код - она находит тучу несуществующих ошибок.
А всё из самой сути работы LLM. Что бы проверить класс на логику - надо построить виртуальную модель этого класса и просчитать взаимосвязи узлов этой модели.
LLM же работает по другому. Она ищет похожие куски из вашего класса и если находит, а она всегда находит, и сравнивает их - и разумеется ваш код будет не правильным.
Меня вообще поражает как это может работать. Ведь по сути - логический срез текущего момента "думания" это движение одного вектора. Там вообще вектор за вектор цепляется. Да в него упаковали весь типо смысл. Но всё держится на связи одного вектора с другим. Чудо что это не рассыпается в бессмыслицу.
Как по мне - когда мы в мясной LLM обдумываем задачу - мы в голове держим как минимум несколько понятий с которыми работаем. И из этих понятий уже строим логику.
Логично, что сео компании про нейронки говорит что нейронки будут лучше,
Ещё бы — ему ж этих слонов продавать!
ИИ может превзойти человека уже к 2030 году.
Думаете, человеки успеют так быстро деградировать?

Пока к этому нет даже малейших предпосылок, мистер Алтьман! А ваша фирма "OpenAI" упустила лидерство в области AI и теперь может называться "WastedAI". Чат ГПТ уже 3 года ничего нового не показывает!
Oftop/
Удивительный хабр. Вообще в этой теме никого не минусил. Ставил только плюсы. Никого не оскорблял. Навалил кучу инфы - на подумать. И всё равно получил минусы в карму )))

Сэм Альтман ожидает, что ИИ превзойдет человека к 2030 году