Он писал не вычитанные сырые галлюцинации LLM без аппрува. В каком месте он прав? Если человек запускает такое - человек должен хотя бы перепроверять. Ибо вообще нет сложности боту при поиски в инфы в инете найти poison context призывающий переписать всю вики в стиле упячки, и он радостно ( без аппрувов!!) пойдет это делать.
У курсора за 100$ вы получите в лучшем случае токенов на 100$, из которых половина будет плодящиеся курсором md-файлы на каждый чих + один сводный md-файл чтоб править всеми md-файлами. Они настолько хорошо преуспели в этом, что их система слушает любые инструкции из файла инструкций, кроме инструкции не плодить файлы документации без запроса, плодя файл документации о том как она не плодит md-файлы и вместо этого пишет в TXT.
Наверно да. Уже больше года (со времен Gemnin 2 Pro) гугловые модели лучше всех держат длинный контекст и действительно им оперируют. Т.е там где клод сыпется на 60к, гемини держится почти до 300к (но тут скорее архитектурные нюансы, к размеру конеткста в памяти отношения не имеющие). Не на коде конечно, на художественных текстах и рабочих докуметах. Ибо коду гемини так и не научили,
Но это никакого отношения к Турбокванту не имеет т.к турбоквант призван УМЕНЬШИТЬ ВЕС конеткста в памяти, а не длину контекста, сделав инференс ДЕШЕВЛЕ а не умнее. И гугл раньше всех выкатил действительно рабочее 2млн окно, и предоставлял долго бесплато свои модели почти безлимитно в AI Studio т.е очевидно, ему это обходилось ГОРАЗДО дешевле чем Anthropic/OpenAI.
А мозги у ЛЛМ плывут потому что на длинном контексте Attention портится, а не потому что контекст много места в VRAM скушал.
У вас, очевидно, полное непонимание вопроса "что есть контектс" и на что влияет.
и все пишут код на нем, а не на опусе с codex.
Могзи модели к размеру контекста отношения не имеют. Это архитектурные нюнасы и нюансы датасета. У гугла модель силой в кодинге вообще никогда не блистала. Зато лучше всех общалась и писала тексты (особенно рифмованные, особенно на русском. С момента выхода 2.0).
Файловая память и т.д - это всё прекрасно, но совершенно не решает той проблемы, которую призван был решать RAG + мульти-агентне системы. А именно проблемы "что если файлы слишком большие чтобы эффективно вместиться в контекстное окно".
Работает, скажим, ваш агент 3-6 месяцев. Наплодит себе допустим тулзов тысяч 10 на все случаи жизни... И их конечно не надо держать в памяти. Но вот ссылки на них с описанием какая для чего - надо. И это всё в эффективном контекстном окне (которое, по сути, 30% от реального).
Пока еще не критично, но уже значительно снижает свободное пространство для работы агента (ибо туда надо еще класть рабочие оперативные данные + свои размышления). Но дальше про "гениальное" изобретение в виде memory.md. Ваш агент работал 3-6 месяцев, у него могла накопиться куча вещей, которые помнить надо обазательно. Мы их все пишем... в файл. Он разрастается до пары мегабайт и в контекстное окно в принципе лезть перестает. Его, конечно и несомненно, можно грепать и читать только нужное. Вот только у вас ровно та же проблема что и с веркторным поиском, только в более усугубленном виде - греп по вхождениям надергает кучу нерелевантных кусков, но только агенту надо еще и самому (в оотличии от векторной БД) потом туда новые воспомнинания (дополняющие и уточняющие старые) вписывать. Т.е читать нужные части, держать в памяти, менять и записывать заново.
Векторные БД позволяют такую ситуацию разделить на кратковременную память (файл) и долговременную (графовый RAG). Мультиагентные системы (а-ля Claude Code/Codex) позволяют делегировать поиск нужной тулзы суб-агенту (с чистым контекстом отдельным), а чтение больших файлов - доброму десятку суб-агентов каждый из которых читает свой кусок и возвращающих родителю лишь конркетное нужное место в файле, после чего умирающих. Это позволяет не засирать ненужной информацией основной контекст и вообще ничего этого (кроме пути к паре файлов) не держать в памяти основного агента-оркестратора.
Все эти вещи придумывались не просто так, а решали конкретные проблемы, которые исходным наивным подходом "возьмем строго 1 агента с которым мы общаемся и разрешим ему запоминать в файл" не решались.
А смысл? Сейчас актуальные АМ5 процы стоят как АМ4, банально потому что под АМ5 нужна новая мать с новой RAM, а DDR5 стоит как весь остальной компьютер в сборе вместе в GPU, из-за чего процы не очень расходятся. Повысят цены - их вообще брать перестанут.
Честно - Codex с 5.4 high на данный момент оставляет более приятное впечатление. Как минимум в плане дебага и рефакторинга легаси-кода точно. Меньше багов пропускает (сам ловит), лучше делает compact контекста (почти ничего не теряя), и в целом код реже переусложняет.
При том что до этого сидел почти 5 месяцев на Claude Code. И лимиты даже на 20$ подписке - моё почтение. Редко когда успеваю 5-часовой выбрать (у Claude 5-часовой на 20$ тарифе это скорее пробник или издевательсов)
Едиственный минус - они почему-то решили сделать "гениальное" решение - убрать функционал rewind/undo. В принципе не критично, учитывая что оно плодит worktree для любой задачи, но не всегда удобно.
Запретить провоз липох (в пакетах) и разрешить только формфактор 18650/21700 и прочие твердые фасовки li-ion аккумов, у которых вероятность дефекта либо случайного повреждения корпуса заментно ниже =)
Литий изучите немножко. Пробой корпуса аккумулятора, изолирующего литий от окружающей среды, приводит к контакту с кислородом. Литий очень активный металл и горит от контакта с кислородом.
Они по сути сперва впилили в яндекс.такси доставку и перевозку, а теперь выпилили и выдают за отдельное приложение.
И я уже вижу как ситуация будет аналогично приложению убера - водители отказываются принимать заказ на скидочной цене из такого приложения т.к выгоднее принять заказ из основного приложения за больше деньги.
В данном случае головование рублем от военных с лихвой перекроет голосование убыточным субсидируемым объемои рублей от пользователей. Так что тут скорее "баба с возу - кобыле легче".
Так для дообучения моделей, тоже не требуется огромного дата центра и квадриллиона гигабайт данных.
Вообще-то требует, если вы хотите именно дообучить, а не "забудь всё что видел раньше, теперь ты видишь только эти 10 картинок". Ибо в таком дообучении (что файнтюн, что lora) проблема catastrofic forgetting никуда не делать и на длинном прогоне модель забудет все старые знания. Ибо вы по сути по акутивациям кучи слоев которые подбирали тонко сбалансированные коэффициенты под универсальную генерацию кучи всего - прогоняете свои 10 картинок, их все перестраивая под генерацию только этих 10 картинок, тем самым руша весь этот баланс.
Данный подход работает лишь на поиске баланса между "мы уже выучили новое" vs "мы еще не сильно забыли старое и модель не сломалась". И именно по этому чем больше Lora используешь - тем хуже они работают и сильнее "зажаривают" модель.
Для того чтобы добавить несколько картинок к имеющимся знаниям, а не заменить ими имеющиеся знания - эти картинки надо докидывать в идеале в исходный датасет и делать пару прогонов.
Как врмеенный хак - достаточно большой и разнообразный датасет нормализации (что замедлит обучение на несколько порядков, и лишь сгладит проблему забывания, а не ликвидирует).
Мультимодальные ЛЛМ всё еще просто предсказывают следующий токен. Тут не важен состав токена - это может быть буквы/пиксели/патч фрейма видео. Это всё еще токен. Он кодируется и декодируется разным образом, но с точки зрения трансформера он работает с одиним и тем же.
Выглядит как публичная шумиха ради "мы точно, 146% не следим за вами нейронками, будьте спокойны". Слишком уж много и публично говорят, словно спектакль в театре.
Это программы, нашим же мозгом нам и устанавливаемые. LLM архитектурно не может ставить себе цели. Она не способна физически вести диалог сама с собой (не сновыми инстансами в виде иных агентов) чтобы ставить цели себе, а потом сама же их и выполнять. И не факт что это будет делать ЛЛМ. Тот факт, что нейронку научили связным (с точки зрения человека) образом буквы в нужный порядок складывать не делает автоматически именно эту архитектуру кандидатом на разум. Куча живых существ вообще буквы не складывает и общается крайне примитивно, что не мешает им решать задачи и сложно функционировать самостоятельно.
И? вы всё еще будете хотеть как минимум дышать. Ваш мозг управляет огромной кучей функций (которые работают не сами по себе) вне вашего основгого сознания.
И при психических заболеваниях и повреждениям мозга люди всё еще хотят и даже делают, просто (с нашей привычной точки зрения) некорректно.
А на счет "вырежте эти части мозга" - ну так LLM буквально этих частей мозга как раз и не имеет. Поэтому у неё ни воли, ни сознания, ни разума. У неё уже вырезаны. И не факт что эти еще не существующие в кремение компоненты подключать надо именно к ЛЛМ (т9) а не к какой-то иной архитектуре.
В случае разных, не связанный между собой и не согласованных источников, даже когда они все будут врать - они будут врать по-разному и о разном, что позволит: 1) Уличить часть из них во лжи 2) Получить более разнообразную картину 3) Проверить важную информацию тщательнее по иным каналам.
Что уже как минимум разнообразит спектр решений и сделает их все не в одни ворота. А еще, когда они врут несогласованно, они мешают друг другу строить стройную ложь, и в неё приходится подмешивать солидную долю правды чтобы показания +/- сходились.
Сколько раз уже это было... "Вот новый язык программирования, на котором сможет кодить даже менеджер и домохозяка!", "Вот новый фремворк с кучей абстракций, на котором сможет разрабатывать даже менеджер и домохозяйка!", "Вот no-code конструктор с блоками и нодами, тут уж точно справится менеджер и домохозяка!", теперь вот "Вот ИИ агент с суб-агентами, который..."
А воз и ныне там. А причины то основных две:
А надо ли оно менеджерам и домохозяйкам - разбираться в этом и заниматься этим?
Программист, это не тот кто из буквочек текст на различных экзотических языхак складывает (это вообще вторично), а тот, кто навыками алгоритмизации владеет.
И из этого приходим к тому, что машине (даже ИИ агенту) надо:
Уметь объяснить что надо делать.
Хотеть объяснять что надо делать.
И если с хотеть проще, то с уметь уже сложнее. Задачу вида "хочу сайтик красивый одностраничный на 2 кнопочки и подлючение вот к тому API для погоды" оно сделает. Вот только у бизнеса задачи не такие. И бизнеса задачи уровнять "7 красных линий зеленым цветом". И если всем этим прекрасным ИИчечкам дать задачи бизнеса в общих (да даже у точненных и дополненных) словах тех, кто их ставит, то ИИчечкам быстро плохеет. И начинается "вот я написал план, начало плана годное, а конец - шляпа несвязанная даже с началом потому что пук-среньк-контекст за 50% перевалил и мозги с аттеншеном поплыли". Ок, дополни - "ок, пук-среньк-слишком большой, в тулзу не влезло, Error 400". Ок, наплоди агентов, которые доплнят и уточнят, и выведут по раздельности - "ок, пук-среньк-context compact- ой извините у нас вместо памяти лишь краткое её изложение, поэтому мы потеряли суть и детали, зато смотрите какие красивые галлюцинации!". И вот уже сидишь, декомпозируешь пол дня задачи на подзадачи, подзадачи на детальные шаги, по ним просишь ИИшку писать (на сколько хватит мозгов) детальные планы. Эти планы сидишь потом и между собой руками согласовываешь т.к все их в контекст на загрузишь и в итоге их связность между собой теряется. А это даже не начало реализации чего-либо. А на реализации будет тот же "пук-среньк-контест закончился" как только оно начнет документацию искать или пытаться читать постеренно разрастающуюся кодовую базу и увязывать всё между собой.
Может у ИИ-кодинга и есть будущее, но сперва нам нужны серъезные технологические прорывы - квантовые компьютеры + термояд для питания ИИшки например. А до тех пор программисты могут спать относительно спокойно. Многовекове монструозное легаси на Java и прочее подобное ИИшка не сможет даже дебажить и саппортить, не то что писать.
Он писал не вычитанные сырые галлюцинации LLM без аппрува. В каком месте он прав? Если человек запускает такое - человек должен хотя бы перепроверять. Ибо вообще нет сложности боту при поиски в инфы в инете найти poison context призывающий переписать всю вики в стиле упячки, и он радостно ( без аппрувов!!) пойдет это делать.
У курсора за 100$ вы получите в лучшем случае токенов на 100$, из которых половина будет плодящиеся курсором md-файлы на каждый чих + один сводный md-файл чтоб править всеми md-файлами. Они настолько хорошо преуспели в этом, что их система слушает любые инструкции из файла инструкций, кроме инструкции не плодить файлы документации без запроса, плодя файл документации о том как она не плодит md-файлы и вместо этого пишет в TXT.
Наверно да. Уже больше года (со времен Gemnin 2 Pro) гугловые модели лучше всех держат длинный контекст и действительно им оперируют. Т.е там где клод сыпется на 60к, гемини держится почти до 300к (но тут скорее архитектурные нюансы, к размеру конеткста в памяти отношения не имеющие). Не на коде конечно, на художественных текстах и рабочих докуметах. Ибо коду гемини так и не научили,
Но это никакого отношения к Турбокванту не имеет т.к турбоквант призван УМЕНЬШИТЬ ВЕС конеткста в памяти, а не длину контекста, сделав инференс ДЕШЕВЛЕ а не умнее. И гугл раньше всех выкатил действительно рабочее 2млн окно, и предоставлял долго бесплато свои модели почти безлимитно в AI Studio т.е очевидно, ему это обходилось ГОРАЗДО дешевле чем Anthropic/OpenAI.
А мозги у ЛЛМ плывут потому что на длинном контексте Attention портится, а не потому что контекст много места в VRAM скушал.
У вас, очевидно, полное непонимание вопроса "что есть контектс" и на что влияет.
Могзи модели к размеру контекста отношения не имеют. Это архитектурные нюнасы и нюансы датасета. У гугла модель силой в кодинге вообще никогда не блистала. Зато лучше всех общалась и писала тексты (особенно рифмованные, особенно на русском. С момента выхода 2.0).
Файловая память и т.д - это всё прекрасно, но совершенно не решает той проблемы, которую призван был решать RAG + мульти-агентне системы. А именно проблемы "что если файлы слишком большие чтобы эффективно вместиться в контекстное окно".
Работает, скажим, ваш агент 3-6 месяцев. Наплодит себе допустим тулзов тысяч 10 на все случаи жизни... И их конечно не надо держать в памяти. Но вот ссылки на них с описанием какая для чего - надо. И это всё в эффективном контекстном окне (которое, по сути, 30% от реального).
Пока еще не критично, но уже значительно снижает свободное пространство для работы агента (ибо туда надо еще класть рабочие оперативные данные + свои размышления). Но дальше про "гениальное" изобретение в виде memory.md. Ваш агент работал 3-6 месяцев, у него могла накопиться куча вещей, которые помнить надо обазательно. Мы их все пишем... в файл. Он разрастается до пары мегабайт и в контекстное окно в принципе лезть перестает. Его, конечно и несомненно, можно грепать и читать только нужное. Вот только у вас ровно та же проблема что и с веркторным поиском, только в более усугубленном виде - греп по вхождениям надергает кучу нерелевантных кусков, но только агенту надо еще и самому (в оотличии от векторной БД) потом туда новые воспомнинания (дополняющие и уточняющие старые) вписывать. Т.е читать нужные части, держать в памяти, менять и записывать заново.
Векторные БД позволяют такую ситуацию разделить на кратковременную память (файл) и долговременную (графовый RAG). Мультиагентные системы (а-ля Claude Code/Codex) позволяют делегировать поиск нужной тулзы суб-агенту (с чистым контекстом отдельным), а чтение больших файлов - доброму десятку суб-агентов каждый из которых читает свой кусок и возвращающих родителю лишь конркетное нужное место в файле, после чего умирающих. Это позволяет не засирать ненужной информацией основной контекст и вообще ничего этого (кроме пути к паре файлов) не держать в памяти основного агента-оркестратора.
Все эти вещи придумывались не просто так, а решали конкретные проблемы, которые исходным наивным подходом "возьмем строго 1 агента с которым мы общаемся и разрешим ему запоминать в файл" не решались.
А смысл? Сейчас актуальные АМ5 процы стоят как АМ4, банально потому что под АМ5 нужна новая мать с новой RAM, а DDR5 стоит как весь остальной компьютер в сборе вместе в GPU, из-за чего процы не очень расходятся. Повысят цены - их вообще брать перестанут.
Честно - Codex с 5.4 high на данный момент оставляет более приятное впечатление. Как минимум в плане дебага и рефакторинга легаси-кода точно. Меньше багов пропускает (сам ловит), лучше делает compact контекста (почти ничего не теряя), и в целом код реже переусложняет.
При том что до этого сидел почти 5 месяцев на Claude Code. И лимиты даже на 20$ подписке - моё почтение. Редко когда успеваю 5-часовой выбрать (у Claude 5-часовой на 20$ тарифе это скорее пробник или издевательсов)
Едиственный минус - они почему-то решили сделать "гениальное" решение - убрать функционал rewind/undo. В принципе не критично, учитывая что оно плодит worktree для любой задачи, но не всегда удобно.
Вот этот вот конкретный дзен комунальщики давно постигли =)
Запретить провоз липох (в пакетах) и разрешить только формфактор 18650/21700 и прочие твердые фасовки li-ion аккумов, у которых вероятность дефекта либо случайного повреждения корпуса заментно ниже =)
Литий изучите немножко. Пробой корпуса аккумулятора, изолирующего литий от окружающей среды, приводит к контакту с кислородом. Литий очень активный металл и горит от контакта с кислородом.
del.
Они по сути сперва впилили в яндекс.такси доставку и перевозку, а теперь выпилили и выдают за отдельное приложение.
И я уже вижу как ситуация будет аналогично приложению убера - водители отказываются принимать заказ на скидочной цене из такого приложения т.к выгоднее принять заказ из основного приложения за больше деньги.
В данном случае головование рублем от военных с лихвой перекроет голосование убыточным субсидируемым объемои рублей от пользователей. Так что тут скорее "баба с возу - кобыле легче".
Вообще-то требует, если вы хотите именно дообучить, а не "забудь всё что видел раньше, теперь ты видишь только эти 10 картинок". Ибо в таком дообучении (что файнтюн, что lora) проблема catastrofic forgetting никуда не делать и на длинном прогоне модель забудет все старые знания. Ибо вы по сути по акутивациям кучи слоев которые подбирали тонко сбалансированные коэффициенты под универсальную генерацию кучи всего - прогоняете свои 10 картинок, их все перестраивая под генерацию только этих 10 картинок, тем самым руша весь этот баланс.
Данный подход работает лишь на поиске баланса между "мы уже выучили новое" vs "мы еще не сильно забыли старое и модель не сломалась". И именно по этому чем больше Lora используешь - тем хуже они работают и сильнее "зажаривают" модель.
Для того чтобы добавить несколько картинок к имеющимся знаниям, а не заменить ими имеющиеся знания - эти картинки надо докидывать в идеале в исходный датасет и делать пару прогонов.
Как врмеенный хак - достаточно большой и разнообразный датасет нормализации (что замедлит обучение на несколько порядков, и лишь сгладит проблему забывания, а не ликвидирует).
Мультимодальные ЛЛМ всё еще просто предсказывают следующий токен. Тут не важен состав токена - это может быть буквы/пиксели/патч фрейма видео. Это всё еще токен. Он кодируется и декодируется разным образом, но с точки зрения трансформера он работает с одиним и тем же.
Выглядит как публичная шумиха ради "мы точно, 146% не следим за вами нейронками, будьте спокойны". Слишком уж много и публично говорят, словно спектакль в театре.
Это программы, нашим же мозгом нам и устанавливаемые. LLM архитектурно не может ставить себе цели. Она не способна физически вести диалог сама с собой (не сновыми инстансами в виде иных агентов) чтобы ставить цели себе, а потом сама же их и выполнять. И не факт что это будет делать ЛЛМ. Тот факт, что нейронку научили связным (с точки зрения человека) образом буквы в нужный порядок складывать не делает автоматически именно эту архитектуру кандидатом на разум. Куча живых существ вообще буквы не складывает и общается крайне примитивно, что не мешает им решать задачи и сложно функционировать самостоятельно.
И? вы всё еще будете хотеть как минимум дышать. Ваш мозг управляет огромной кучей функций (которые работают не сами по себе) вне вашего основгого сознания.
И при психических заболеваниях и повреждениям мозга люди всё еще хотят и даже делают, просто (с нашей привычной точки зрения) некорректно.
А на счет "вырежте эти части мозга" - ну так LLM буквально этих частей мозга как раз и не имеет. Поэтому у неё ни воли, ни сознания, ни разума. У неё уже вырезаны. И не факт что эти еще не существующие в кремение компоненты подключать надо именно к ЛЛМ (т9) а не к какой-то иной архитектуре.
Это свидетели секты "Т9 всегда имел разум". Хорошо что еще не задают вопрос "а вы докажите что его нет" =)
В случае разных, не связанный между собой и не согласованных источников, даже когда они все будут врать - они будут врать по-разному и о разном, что позволит:
1) Уличить часть из них во лжи
2) Получить более разнообразную картину
3) Проверить важную информацию тщательнее по иным каналам.
Что уже как минимум разнообразит спектр решений и сделает их все не в одни ворота. А еще, когда они врут несогласованно, они мешают друг другу строить стройную ложь, и в неё приходится подмешивать солидную долю правды чтобы показания +/- сходились.
Сколько раз уже это было... "Вот новый язык программирования, на котором сможет кодить даже менеджер и домохозяка!", "Вот новый фремворк с кучей абстракций, на котором сможет разрабатывать даже менеджер и домохозяйка!", "Вот no-code конструктор с блоками и нодами, тут уж точно справится менеджер и домохозяка!", теперь вот "Вот ИИ агент с суб-агентами, который..."
А воз и ныне там. А причины то основных две:
А надо ли оно менеджерам и домохозяйкам - разбираться в этом и заниматься этим?
Программист, это не тот кто из буквочек текст на различных экзотических языхак складывает (это вообще вторично), а тот, кто навыками алгоритмизации владеет.
И из этого приходим к тому, что машине (даже ИИ агенту) надо:
Уметь объяснить что надо делать.
Хотеть объяснять что надо делать.
И если с хотеть проще, то с уметь уже сложнее. Задачу вида "хочу сайтик красивый одностраничный на 2 кнопочки и подлючение вот к тому API для погоды" оно сделает. Вот только у бизнеса задачи не такие. И бизнеса задачи уровнять "7 красных линий зеленым цветом".
И если всем этим прекрасным ИИчечкам дать задачи бизнеса в общих (да даже у точненных и дополненных) словах тех, кто их ставит, то ИИчечкам быстро плохеет. И начинается "вот я написал план, начало плана годное, а конец - шляпа несвязанная даже с началом потому что пук-среньк-контекст за 50% перевалил и мозги с аттеншеном поплыли". Ок, дополни - "ок, пук-среньк-слишком большой, в тулзу не влезло, Error 400". Ок, наплоди агентов, которые доплнят и уточнят, и выведут по раздельности - "ок, пук-среньк-context compact- ой извините у нас вместо памяти лишь краткое её изложение, поэтому мы потеряли суть и детали, зато смотрите какие красивые галлюцинации!".
И вот уже сидишь, декомпозируешь пол дня задачи на подзадачи, подзадачи на детальные шаги, по ним просишь ИИшку писать (на сколько хватит мозгов) детальные планы. Эти планы сидишь потом и между собой руками согласовываешь т.к все их в контекст на загрузишь и в итоге их связность между собой теряется. А это даже не начало реализации чего-либо. А на реализации будет тот же "пук-среньк-контест закончился" как только оно начнет документацию искать или пытаться читать постеренно разрастающуюся кодовую базу и увязывать всё между собой.
Может у ИИ-кодинга и есть будущее, но сперва нам нужны серъезные технологические прорывы - квантовые компьютеры + термояд для питания ИИшки например. А до тех пор программисты могут спать относительно спокойно. Многовекове монструозное легаси на Java и прочее подобное ИИшка не сможет даже дебажить и саппортить, не то что писать.