Обновить
2

Пользователь

5
Подписчики
Отправить сообщение

Вы пишете, что излишнюю сухость можно выключить банальным промптом. Нет, нельзя. Если на этапе RLHF модель жестко штрафовали за разговорчивость в угоду агентским бенчмаркам, то её латентное пространство сжалось.

Сильное заявление. RLHF не удаляет связи из MLP-матриц базовой модели, он лишь перераспределяет веса внимания при отсутствии контекста. Если попросить 3.5 Flash написать креативный текст со сложной метафорой — она его напишет:

Опиши процесс очистки памяти (Garbage Collection) в стиле готического романа

Память процесса — это темный собор, где неприкаянные призраки забытых переменных блуждают среди заброшенных указателей. Сборщик мусора приходит безмолвно, как чума, безжалостно стирая из бытия тех, на кого больше никто в этом мире не ссылается…

модель прекрасно умеет в метафоры, готический слог, синтаксическое разнообразие и абстрактное мышление. Все эти связи на месте. Просто чтобы их активировать, нужен соответствующий контекст, частью которого является системный промпт, а не вера и надежда в будущее.

Системный промпт работает как фильтр, но он не может достать из матриц MLP те ассоциативные связи, которые в них убили на этапе файнтюнинга. … Все тесты на сухость я проводил в google AI studio, где system prompt по умолчанию пуст. Почему? Потому что именно голое поведение модели показывает все честно.

А Вам не приходило на ум, что отсутствие системного промпта в интерфейсе проприетарного клиента проприетарной модели - ещё не означает отсутствие его при инференсе в целом? Должно вообще так сильно удивлять, что в интерфейсе для разработчиков модель показывает бОльшую утилитарность, что для разработчиков в таких условиях по сути и должно быть главным критерием оценки?

Если мне нужно писать костыли в POST запросе и умолять LLM “пожалуйста, не общайся со мной как JSON парсер”, значит, модель изначально перекошена в сторону агентов. О чем и написана статья.

Ну это уже просто фантазии в сторону адаптивных гиперпараметров, и нежелание их тюнить под конкретную задачу есть ничто иное как попытка одну конкретную модель утопить на фоне остальных абсолютно таких же с точки зрения списка гиперпараметров, что в контексте выглядит как “очернить на основе субъективного мнения”.

Профессиональная камера для видеосъёмки выдает плоский RAW-сигнал именно для того, чтобы колорист на посте выжал из него максимум. А вы требуете от неё встроенных бьюти-фильтров из ТикТока по умолчанию, отказываясь даже применить LUT (системный промпт), и строя свой пафосный заголовок на субъективной оценке, припорошенной умными терминами - без воспроизводимого анализа и объективных метрик.

Чтобы измерить температуру воды, не нужно выпивать весь океан. Мне не нужны “миллионы токенов”, чтобы увидеть падение энтропии в логитах и изменение паттернов генерации по сравнению со старой 3.0 Flash.

ещё одно очень сильное заявление. чтобы заявлять о статистическом коллапсе распределения, нужно показать распределение вероятностей, например, энтропию Шеннона или KL-дивергенцию на репрезентативной выборке хотя бы в несколько тысяч генераций при одинаковых параметрах температуры. в ином случае это всё то же “ну мне же видно”, т.е. vibe-based evailuation, vibe-based benchmarking. Но само собой - людям всё равно, они лайкнут.

А этого мы уже не узнаем...

И второй момент, автор. Работа проделана монументальная для пет-проекта, тут жму руку без иронии. Осознать это всё, обучить, свести лосс - это круто.

Но у меня есть просьба: давайте снизим градус наукообразия. Статья написана так, будто Claude Code укусила вас за концептуальный аппарат и заставила оверинжинирить термины.

Вы кидаетесь в таблицах переменными вроде sel_acc и ref_prec, не расшифровывая толком их в тексте, что делает таблицу выдаваемую за бенчмарк - священным писанием. Зачем заставлять читателя заниматься дешифровкой? Это же классическая задача селективной классификации с опцией отказа

"Когнитивные токены" и "когнитивный энкодер" - звучит очень пафосно, как и название материала, для обычного пулинга вектора последнего токена и последующей линейной проекции. По факту, вы сделали классный и легкий кросс-аттеншн адаптер над замороженной базой для калибровки уверенности. Это неглупо, но когда вы называете это "интроспективным когнитивным слоем"... в общем, думаю понятно к чему я веду.

Если убрать этот маркетинговый налет, попытку сослаться на всем известную статью - труд только выиграет с технической точки зрения. Будет выкатываться это на на более серьёзные модели, или упрёмся в стоимость инференса двух проходов?

и плз, поменьше самобичевания. вы - либо ученый, который проверяет и доказывает что делает, либо вайбкодер с лёгкой рукой - быстро понимает прочитанное и написанное.

Который год на хабре автор кликбейтного и максимально субъективного заголовка не знает что такое system prompt и что в POST запросе его можно указать.

Маркетологи водят нас за нос, они выдают переобучение на специфический формат ответов за рост общего интеллекта. Модель не стала умнее 3.1 pro. Она просто научилась лучше проходить конкретные тесты.

Сколько вы конкретно миллионов токенов с момента релиза успели потратить именно на 3.5 флеш после предыдущих, чтоб оправдать объективность и заголовка и процитированного? будут независимые тесты, или всё так же субъективные ничем не подкованные разочарования?

Её нельзя спутать ни с чем, она умнее 3.1 флеш, а то что она умнее pro по паре бенчмарков не говорит что она будет умнее линейки pro в целом.

И я не адепт - каждой задаче по инструменту, но так нагло накручивать плюсы на пост - прям такого я ещё не видел. Излишнюю эмоциональность можно выключить банальной отладкой системного промпта.

@siakinnikBot Api 10.0 планируете? насколько сейчас он поддерживается?

Библиотека является drop-in replacement (бесшовной заменой) для оригинального Телеграфа. Для установки пишем:

логически, полагаю, да, но уточню - значит ли это, что замена в любом проекте ничего не сломает? если нет чего-то ультра-специфичного.

даже если ответы на мои вопросы не положительные для меня - спасибо большое за проделанную работу

мечта то да =)) а в реальности имеем немного другое

есть, кстати, момент - да. генерировать текст генератором текста и лениться его читать - а зачем генерировал вообще?

но идею вроде неплохую предлагают, правда как будто бы на этот же случай есть и tts, и видео, и фото.

Ееее бой! Они познакомили зумеров с LXC за деньги.

Что дальше? Bootloader с активацией по смс?

это один из самых паршивых редиректов за всю историю рунета, если не всего интернета.

Яндекс по логике заставили один из основных доменов отдать редику на уже чужой сервис. какое у них вообще было распределение трафа между ya.ru и yandex.ru? компания то называется "Яндекс" - есть впечатление, что было 30-40 / 70-60 %. Похоже, не "национализированный" айти мы с вами проебали примерно во времена тех сделок, редиректа, деления яндекса и т.п.

лучше пусть они юзают опен сорц и мы будем знать как оно работает, чем всё скрытно и пост фактум.

це-тэ-эф... Больно читать. Вы бы ещё SQL как "СКЛ" писали. Если уж адаптируете под кириллицу, то почему не "си-ти-эф" СТФ? Или вы там параллельно с хакингом сдаёте нормативы ГТО? Карабины и верёвки есть, осталось только добавить в программу прыжки в мешках и метание дискет)) можно же просто захват флага.

https://youtube.com/shorts/3aFEpTYZgK0?si=D4nSeo85YFxQznSf

Понял. Против питона ничего не имею - для ML это единственное что есть, и гуй на нём делать можно, и микросервисы, и многое. Лично я от него отошёл достаточно давно и воспринимаю только как ML или скриптовый язык, по типу "нечто, чуть удобнее, чем баш". особого выбора я не делал, просто что-то одно с годами приживается, а что-то отмирает, или применяется в узких направлениях.

Клешня на node.js

теперь всё становится понятно)

Прелесть NeutralinoJS в том, что бекенд можно реализовать в том же числе и на питоне. хоть три разных - они там называются Extensions, и по сути расширениями фронта и являются. А так - это просто webkit, то есть фронт это просто хтмл, жс и одна библа для общения с экстеншнами.

Попробуйте, если где-то нужен GUI и нет проблем с хтмл+жс. Лучше, чем Electron который ест 2гб рам с рождения, и веселее, чем pyGTK или на чём там сейчас модно. Но, конечно, всё от требований и хотелок.

Потому что скорость и удобство прототипирования, единый стек и ЯП для всего - удобно. После того как лично мне всё понравится и достигнет какого-то логического чекпоинта - возможно, перепишу на Go "бекенд" часть.

OpenClaw лично по мне - свистоперделка, так что особо аналогию не понял.

А "объективные преимущества" япов это что то в сторону холивара - что больше в данной задаче понравилось, на том и пишу) нет никаких преимуществ и для такой поделки проводить сравнительное исследование это бессмысленная трата времени.

благодарю, рад если что подсказал полезного. по моему мнению - все ллм должны иметь бесплатный программный доступ, пусть и очень ограниченный, иначе - тормозят развитие собственных же опен сорц экосистем вокруг себя. вашего бота поглядел - процветания! тоже в ТГ проектец делаю. даст судьба - на хабре обо всём, включая балансер, расскажу подробнее чуть позже.

10-15% ошибок это много. У меня в среднем 2-3%, но бывают всплески до 8-10% на 15-20 минут.

не совсем) на годе и полутора - значения меняются. Рассчитывайте фоллбек на релизах новых моделей и изменениях в ai studio - студия, кстати, приоритетнее (по ощущениям) чем просто бесплатные ключи, что достаточно логично, и они оба живут с отдельным приоритетом (цод/очередь для "бесплатников"), - платные ключи так или иначе никогда не получают 503 (если получали раньше у кого-то буду рад послушать, не застал это время).

Если у вас стабильно 10-15%, возможно стоит посмотреть в сторону нескольких API-ключей с round-robin или fallback на вторую модель?

безусловно! и то, и другое - есть. round robin - редко достаточное решение в данном случае - у них лимитер достаточно простой по вышеупомянутым причинам (классификация по признаку денех) - все ключи начинают получать 503, редко когда кто-то по одиночке.

поделюсь тем, чем вообще нигде не делился:

балансировщик Gemini free tier API ключей
балансировщик Gemini free tier API ключей

и это не первая его итерация - суммарно "сэкономлено" более 2k$. в своё оправдание - плачу напрямую в нескольких проектах, это исключительно личная штука под баловство и инфру домашнюю. но как по мне - если сотне моих коллег гемини не нужен - что мне мешает одолжить у них доступ =))

Полноценный DLQ с отложенной обработкой тоже вариант, но для антиспама теряет смысл: если проверять сообщение через 5 минут, спам уже прочитали. Скорость реакции важнее 100% coverage.

есть такой момент - да. я из-за профдеформаций теряю интерес к бизнес логике и нахожу к архитектуре. если у вас действительно в первые пять минут, грубо говоря, среагировать важнее, чем вообще среагировать (поймите меня правильно, тут нет сарказма - просто логическое выражение) - то супер, DLQ тогда действительно будет овержинжиниринг.

Как решаете 503 This model is currently experiencing high demand. Spikes in demand are usually temporary. Please try again later. ?

Нужно DLQ с отлёжкой, бесплатно - не равно "можно некачественно".

Это, если что, не что-то узкое или специфичное, а 10-15% от всех сделанных лично у меня

кто сейчас, интересно, своего не пишет? =)) у меня, допустим, NeutralinoJS + NodeJS - https://habr.com/ru/articles/994454/comments/#comment_29504814

кому интересно - на олламе уже есть, но требует v0.20.0 который пока пре релиз
прямо сегодня потестить - собирать олламу из исходников

upd: https://github.com/ollama/ollama/releases/tag/v0.20.0-rc0

их и так делать проще некуда...

очень жду уже GLM-5-flash, ибо 4.7-flash единственное что пока из опен сорца прям более менее радует (лично меня)

ну, это я обобщил конечно, но способов проверить целостность распакованных данных - в целом полно. начиная от инъекции в бекап одного неизменного файла - шифровальщик же и его тоже зашифрует, заканчивая условным импортом .sql в бд и проверкой работоспособности автоматически. это специфично.

вот чего делать точно не стоит - это полагаться на соответствие первых N строк или общей структуры - типо head -n 15 - ибо как шифровальщики могут шифровать и небольшими блоками с расстоянием друг между другом - данные портятся, бекап бесполезен, а внешне будто всё ок - общеизвестная тоже практика.

В конце концов, бэкап - не средство защиты от рансома, а, максимум, средство смягчения последствий от него.

кстати, не так уж это и тяжело делается даже на автомате. рядом со средством бекапинга кладём баш скрипт, который вызовется самим средством бекапинга по завершению работы, скачает, разархивирует и проверит содержимое захардкоженными хеш суммами.

делайте 1 раз в день и спина даже не подумает болеть.

1
23 ...

Информация

В рейтинге
5 245-й
Зарегистрирован
Активность