Обновить
3
Константин@logran

Пользователь

0,2
Рейтинг
1
Подписчики
Отправить сообщение

Под РФ. 1 чтобы пользователься интернетом с перманентным ВПН. Другой чтобы пользоваться РФ.

 Если только закрыть российские площадки для иностранцев в принципе. Ну бизнесу будет прямо оооочень плохо

Не то чтобы у Озона/ВБ/Госуслуг и прочего было сильно много клиентов вне СНГ. Можно закрыть всё кроме СНГ и почти ничего не потерять.

Бенчмарки гляньте. У LLM эффективный контекст где-то 30-40% от контекстного окна, а после 60% наблюдается заметная деградация качества ответа. У кого-то чуть раньше, у кого-то чуть позже (зависит и от архитектуры, и от преобладающего размере чанка в обучающем датасете), но в целом вещь стабильно наблюдаемая у всех и легко отслеживаемая.

200к гарантируют вам лишь что раньше этого окна модель не скатится в RTYGUWE%@&#*@A вместо текста, но не более (GLM-5 например как оказалось даже этого не гаратирует и после 90к выплевывает рандомную шизу). Компакт делать лучше уже после 110-130к.

айтишники, даже будучи миллионерами ничего не смогут купить,

Алиэкспресс шутка для вас? А если РФ окуклится настолько, что в неё даже товары из Китая попадать перестанут - мне кажется айтишникм к тому моменту там в приницпе уже нечего делать. Ну и кроме озоно-вайлдебиров есть физические локальные магазины, в которые можно ножками сходить. До их появления (а появились они не так давно в принципе) жили же как-то? В магазины техники ходили, на рынок. Озон на 50% товары из китая, а остальные 50% можно найти в ДНС и иных магазинах под домом, причем по более низкой цене без комиссий площадки и прочего (особенно если это какой-то нишевый товар).

Да, не так удобно. Но потерпеть 5-6 месчцев чтобы снизить доход враждебно настроенных площадок, мне кажется, вполне можно.

Берете и подымаете VPN сервер в РБ/Казахстане/Любом другом регионе с российсими сервисами. И пользуетесь и телегой и внутренними сервисами.

Банкинг останется. А всякие ВК/яндекс/озоны просто лишатся клиентов, решивших "не реаботате? ну не больно то и нужно".

Как именно эта часть помогает бороться с ВПН?

Возможно так они борются в ВК и Яндексом =) Пользователь увидит, что ему надо что-то отключать, химичить, отдельные браузеры подымать чтобы это работало, решит что нафиг это нужно и уйдет пользоваться другими сервисами, которые так не выпендриваются. Ибо кто в здравом уме будет отключать себе инсту, ютуб и телегу ради... ВК? Скорее уж просто белорусский сервер ВПН возьмут, где всё это работает...

Он писал не вычитанные сырые галлюцинации LLM без аппрува. В каком месте он прав? Если человек запускает такое - человек должен хотя бы перепроверять. Ибо вообще нет сложности боту при поиски в инфы в инете найти poison context призывающий переписать всю вики в стиле упячки, и он радостно ( без аппрувов!!) пойдет это делать.

У курсора за 100$ вы получите в лучшем случае токенов на 100$, из которых половина будет плодящиеся курсором md-файлы на каждый чих + один сводный md-файл чтоб править всеми md-файлами. Они настолько хорошо преуспели в этом, что их система слушает любые инструкции из файла инструкций, кроме инструкции не плодить файлы документации без запроса, плодя файл документации о том как она не плодит md-файлы и вместо этого пишет в TXT.

 Наверно gemini всех победил с суперконтекстом

Наверно да. Уже больше года (со времен Gemnin 2 Pro) гугловые модели лучше всех держат длинный контекст и действительно им оперируют. Т.е там где клод сыпется на 60к, гемини держится почти до 300к (но тут скорее архитектурные нюансы, к размеру конеткста в памяти отношения не имеющие). Не на коде конечно, на художественных текстах и рабочих докуметах. Ибо коду гемини так и не научили,

Но это никакого отношения к Турбокванту не имеет т.к турбоквант призван УМЕНЬШИТЬ ВЕС конеткста в памяти, а не длину контекста, сделав инференс ДЕШЕВЛЕ а не умнее. И гугл раньше всех выкатил действительно рабочее 2млн окно, и предоставлял долго бесплато свои модели почти безлимитно в AI Studio т.е очевидно, ему это обходилось ГОРАЗДО дешевле чем Anthropic/OpenAI.

А мозги у ЛЛМ плывут потому что на длинном контексте Attention портится, а не потому что контекст много места в VRAM скушал.

У вас, очевидно, полное непонимание вопроса "что есть контектс" и на что влияет.

 и все пишут код на нем, а не на опусе с codex.

Могзи модели к размеру контекста отношения не имеют. Это архитектурные нюнасы и нюансы датасета. У гугла модель силой в кодинге вообще никогда не блистала. Зато лучше всех общалась и писала тексты (особенно рифмованные, особенно на русском. С момента выхода 2.0).

Файловая память и т.д - это всё прекрасно, но совершенно не решает той проблемы, которую призван был решать RAG + мульти-агентне системы. А именно проблемы "что если файлы слишком большие чтобы эффективно вместиться в контекстное окно".

Работает, скажим, ваш агент 3-6 месяцев. Наплодит себе допустим тулзов тысяч 10 на все случаи жизни... И их конечно не надо держать в памяти. Но вот ссылки на них с описанием какая для чего - надо. И это всё в эффективном контекстном окне (которое, по сути, 30% от реального).

Пока еще не критично, но уже значительно снижает свободное пространство для работы агента (ибо туда надо еще класть рабочие оперативные данные + свои размышления). Но дальше про "гениальное" изобретение в виде memory.md. Ваш агент работал 3-6 месяцев, у него могла накопиться куча вещей, которые помнить надо обазательно. Мы их все пишем... в файл. Он разрастается до пары мегабайт и в контекстное окно в принципе лезть перестает. Его, конечно и несомненно, можно грепать и читать только нужное. Вот только у вас ровно та же проблема что и с веркторным поиском, только в более усугубленном виде - греп по вхождениям надергает кучу нерелевантных кусков, но только агенту надо еще и самому (в оотличии от векторной БД) потом туда новые воспомнинания (дополняющие и уточняющие старые) вписывать. Т.е читать нужные части, держать в памяти, менять и записывать заново.


Векторные БД позволяют такую ситуацию разделить на кратковременную память (файл) и долговременную (графовый RAG). Мультиагентные системы (а-ля Claude Code/Codex) позволяют делегировать поиск нужной тулзы суб-агенту (с чистым контекстом отдельным), а чтение больших файлов - доброму десятку суб-агентов каждый из которых читает свой кусок и возвращающих родителю лишь конркетное нужное место в файле, после чего умирающих. Это позволяет не засирать ненужной информацией основной контекст и вообще ничего этого (кроме пути к паре файлов) не держать в памяти основного агента-оркестратора.

Все эти вещи придумывались не просто так, а решали конкретные проблемы, которые исходным наивным подходом "возьмем строго 1 агента с которым мы общаемся и разрешим ему запоминать в файл" не решались.

А смысл? Сейчас актуальные АМ5 процы стоят как АМ4, банально потому что под АМ5 нужна новая мать с новой RAM, а DDR5 стоит как весь остальной компьютер в сборе вместе в GPU, из-за чего процы не очень расходятся. Повысят цены - их вообще брать перестанут.

Честно - Codex с 5.4 high на данный момент оставляет более приятное впечатление. Как минимум в плане дебага и рефакторинга легаси-кода точно. Меньше багов пропускает (сам ловит), лучше делает compact контекста (почти ничего не теряя), и в целом код реже переусложняет.

При том что до этого сидел почти 5 месяцев на Claude Code. И лимиты даже на 20$ подписке - моё почтение. Редко когда успеваю 5-часовой выбрать (у Claude 5-часовой на 20$ тарифе это скорее пробник или издевательсов)

Едиственный минус - они почему-то решили сделать "гениальное" решение - убрать функционал rewind/undo. В принципе не критично, учитывая что оно плодит worktree для любой задачи, но не всегда удобно.

Вот этот вот конкретный дзен комунальщики давно постигли =)

Запретить провоз липох (в пакетах) и разрешить только формфактор 18650/21700 и прочие твердые фасовки li-ion аккумов, у которых вероятность дефекта либо случайного повреждения корпуса заментно ниже =)

Литий изучите немножко. Пробой корпуса аккумулятора, изолирующего литий от окружающей среды, приводит к контакту с кислородом. Литий очень активный металл и горит от контакта с кислородом.

Они по сути сперва впилили в яндекс.такси доставку и перевозку, а теперь выпилили и выдают за отдельное приложение.

И я уже вижу как ситуация будет аналогично приложению убера - водители отказываются принимать заказ на скидочной цене из такого приложения т.к выгоднее принять заказ из основного приложения за больше деньги.

В данном случае головование рублем от военных с лихвой перекроет голосование убыточным субсидируемым объемои рублей от пользователей. Так что тут скорее "баба с возу - кобыле легче".

Так для дообучения моделей, тоже не требуется огромного дата центра и квадриллиона гигабайт данных. 

Вообще-то требует, если вы хотите именно дообучить, а не "забудь всё что видел раньше, теперь ты видишь только эти 10 картинок". Ибо в таком дообучении (что файнтюн, что lora) проблема catastrofic forgetting никуда не делать и на длинном прогоне модель забудет все старые знания. Ибо вы по сути по акутивациям кучи слоев которые подбирали тонко сбалансированные коэффициенты под универсальную генерацию кучи всего - прогоняете свои 10 картинок, их все перестраивая под генерацию только этих 10 картинок, тем самым руша весь этот баланс.

Данный подход работает лишь на поиске баланса между "мы уже выучили новое" vs "мы еще не сильно забыли старое и модель не сломалась". И именно по этому чем больше Lora используешь - тем хуже они работают и сильнее "зажаривают" модель.

Для того чтобы добавить несколько картинок к имеющимся знаниям, а не заменить ими имеющиеся знания - эти картинки надо докидывать в идеале в исходный датасет и делать пару прогонов.

Как врмеенный хак - достаточно большой и разнообразный датасет нормализации (что замедлит обучение на несколько порядков, и лишь сгладит проблему забывания, а не ликвидирует).

1
23 ...

Информация

В рейтинге
3 160-й
Откуда
Гомель, Гомельская обл., Беларусь
Дата рождения
Зарегистрирован
Активность