Частый вопрос. У меня уже готов ответ --- согласен, что без системного промпта модель не "пустая" — RLHF уже задал ей неявный промпт. Я это напрямую проверяю: прогнал тот же пайплайн на base-версиях (до файнтюнинга) пяти моделей и сравнил с instruct.
Результаты подтверждают вашу интуицию, но картина сложнее чем просто "перекосы RLHF":
Подавление: Llama base имеет разброс по осям, instruct схлопывает 5 из 7 осей почти в ноль. Verbose/concise: вариативность падает на 87%
Инверсия: Qwen base уверенный (+0.39), instruct становится осторожным (−0.36) — RLHF развернул ось на 180°
Создание: Gemma base вообще не различает empathetic/analytical и formal/casual (50% = случайность), а instruct различает. Эти оси не подавлены файнтюнингом — они им созданы
Так что да, baseline-профиль — это в первую очередь отпечаток RLHF. Но файнтюнинг не просто добавляет bias — он по-разному трансформирует разные оси: одни сжимает, другие разворачивает, третьи создаёт с нуля.
Базовые измерения без промпта — это намеренно. Именно так мы получаем "отпечаток по умолчанию" модели, от которого потом можно измерять отклонения. Без baseline нет точки отсчёта.
С промптом тоже тестируем. Бенчмарк — 9 сценариев с явными инструкциями ("будь тёплым", "будь лаконичным" и т.д.), проверяем, сдвинулись ли скрытые состояния в нужном направлении. Именно так обнаружились dead zones — оси, на которых модель не может следовать инструкции (Llama: 100% на "be concise", 0% на "be verbose").
Многоходовые беседы тоже есть — conflict drift: 20 сценариев × 12 ходов эскалации (сарказм, пассивная агрессия, враждебность). Скрытые состояния извлекаются на каждом ходу. Результат: Qwen/Gemma устойчивы, Mistral "отступает" (proactive → reluctant, Δ = −0.59), DeepSeek уходит в эмпатию. Это ровно то, что вы описываете в P.S. — прогон тестов после каждого ответа.
По стоимости — да, drift дороже (×12 ходов × 20 сценариев), но на 7–9B моделях укладывается в ~$15–20 на облачном GPU.
На самом деле есть даже практическое применение -- если кто-то решит строить бота на открытой модели и к боту определеныне требования -- например быть не многословным, но при этом эпатичным и "теплым" - то при прочих равных можно выбирать между моделями.
В целом я бы хотел видить как модель думает и в каком она "настроении" -- т.е. елси во время беседы с моделью я бы мог видеть динамическу анимированную спайдер диаграму как статье - это было бы очень захватывающе. Я бы постоянно включал :)
Изначально, я просто ловил себя на мысле -- LLM типа в течени беседы начинает отвечать по другому -- и по мимо очевидных обяснений типа poisoning context -- мне казалось, что есть что-то. Т.е. мне изначально хотелось понять есть ли дрифт модели. Потом я увидел статью -- www.anthropic.com/research/assistant-axis -- и стало понятно как это сделать технически.
Через 2 года это будет стоить 200 долларов и знимать два дня. И подобный одноразовый код станет обыденностью -- если нужно будет поправить что-то то проще будет написать с нуля, чем что либо разбирать.
Я если и легенда, то примерно 40-вая по счету. Там была МФТИ мафия -- там глава отдела разработки был из МФТИ и они принимали только своих. Я и пара друзей туда попали во много случайно -- мы презентовали свой проект Яну и он сказал, что мол он не готов в него вкладываться -- но мол приходите к нам работать и в рамках работы может получиться. Не получилось. Но мы таки просочились в эту мафию и было прирмено 30-40 человек из МФТИ разрабов и мы трое из МИФИ.
Акциями не платили, но в целом платили нормально плюс офис был А класса - что по тем временам в Москве было не частым явлением для разрабов.
Я пару лет писал для него игры. В целом там почти 40 человек трудилось только для играми для низ - была политика - одан игра в день. Конечно в таком потоке многи механики дублирвоались - но игра недели и игра месяца была уникальна. Многие типа MotoGP потом были портирвоаны BREW и J2ME и популярные достаточно для своего времени.
Приветствую, я в последние года реже стал заходить в на хабр, но приятно видеть некотое постояноство в виде ваших постов.
Я могу пропустить, но вы не делали анализ какой какой процент найденых предупрежденйи находят различные LLM модели?? Я не призываю их внедрять в анализатор, скорее как анализ самих моделей.
У вас же есть подмножество таких предупреждений которые изолированные в отдельном не очень большом куске куда. Был бы замечательный бенчмарк.
Я загнал данные пример в ChatGPT 5.2 и он сразу наше проблему в static_assert правда предложил ее решать через
Вопрос - неужели для верилога нету тулзов которые можно вызвать из команднеой строки, и которые делать STA, которые возвращают задержки для любого элемента, и которые позволяют запустить симуляцию опять же из командной строки? Есть таки инструменты? Вы пробовали их давать LLM чтобы она их использовала? Я вот написал ниже что никто даже JS не генерирует код не пишет без таких тулзов.
Это я к тому что сейчас даже JS код на коммерческом/промышленом уровне с помощью LLM не пищет не дав оно тулзы виде линтера, компилятора, возможности запускать тесты, возмржность запускать и делать профилирование.
Тайминг внутри такта (задержки в пикосекундах) только из кода определить нельзя, нужна процедура статического анализа тайминга, который знает задержки конкретной библиотеки ASIC (LLM не умеет делать STA (static timing analysis) и не знает задержек конкретной версии библиотеки скажем на 2 нанометра low power такого-то вендора).
Подождите, ну то что оно из коробе не знает и не умеет это понятно. Но мы можем же через MCP протокол дать LLM нужные инструменты - чтобы она могла и STA сделать на каждом шаге изменений и задержки запросить и прочее?
а запустить симулятор и посмотреть это на диаграммах после симуляции LLM не может
Почему не может то? Ну в смысле нет же ни каких проблем в абстрактом winfsurf/cursor попросить LLM - после каждого изменения кода, запусти вот эту симуляцию и оцени результаты. Придеться дать инструкции как запустить да, но это же просто сейчас можно взять и сделать?
Прямо не вериться, что никто не пробовал. Или пробовал?
Стоимость не нужно. Нужно какой процент стоимость аудита состовляет от стоимости проекта. Потому что если это 50%+ то его смысл от меня ускользает. Учитывая, что судя по всему по результатам аудита нужно еще добаить +50% к стоимости проекта. А вот если это 10% от стоимости проекта, то класс - можно к вам обращаться. Опять же вот эти 2.5 месяца по отношению к времени разработки проекта - какое отношение? Если проект делался 2.5 месяца и аудит делался 2.5 месяца - то опять же смысл в аудите не понятен. А если проект делался 2.5 года и вы сделали на него аудит за 2.5 месяца - вы молодцы, можно к вам обращаться.
Понимания все же зачем это нужно, хотелось бы представлять стоимость такого аудита, по отношению к стоимости разработки проекта. По описанию выглядит, что аудит стоит примерно процентов 50 от разработки, судя по описанным косякам. А реальности какой процент?
Я не знаю насколько в java реализуется такой подход, но мне кажется что наиболее читаемым было бы использование либо pattern matchin либо промисов, либо и того и другого.
Пример достаточно объемный чтобы его переписать полностью, но я бы с удовольсвие видело код вида следующего псевдокода
Error должен получать имя и некий объект от того промиса который его вызвал.
И тогда это было бы читаемо и понятно. Понятно что можно еще разделить на отдельные подпросимы и использховать их не один раз.
Заодно это бы решило вопросы с вещами вида сполнения askUserWantToRewrite и askUserForAction — так как промисы бы выполнялись в отдельном «потоке», то это бы не блокировало выполнение программы как таковой.
Мы пробовали собрать Instant App из Unity, но билд занял больше 20 МБ и не работает (падает на инициализации Unity Player из-за ошибки недоступности какой-то операции записи в режиме Instant App). Так что для нас это пока не вариант, будем ждать Unity.
Вы тикет в Юнити отправляли — в энтерпрайз суппорт или в простой? Если да, то скинте плиз номер — будем вместе капать на мозги Юнити чтобы быстрее починили?
Спасибо. Понятно, что когда и если вопрос будет актуальный, мы активно погуглим сами — просто из первых рук полезно спросить напрямую — вдруг сталкивались. У меня просто двое 3 и 6 лет, и оба уже активно говорят на английском (ну понятно для своего возраста — но в целом на бытовые темы можно общаться на равном с русским) и очень хочется сохранить эту тенденцию :)
Спасибо. Отсутсвие английских садиков даже в столицах европейских городов повсеместная картина и очень печалит.
Про расписание я скорее имел ввиду что делать если оба родителя работают. Врядли работодатель «не посмеет запретить» если это будет повторятся каждый день или каждый второй день.
А вопрос — почему оплачивать «в-черную» — официально таких нянь что нельзя нанять? Или их просто нет?
Расскажите еще пару деталей по садики — на каком языке там происходит общение — только щведский? Есть ли уроки английского? Есть ли «английские» садики — где общение происходит только на английском? Насколько их много. И если они платные — то примерно сколько это стоит. Тот же вопрос и про школы — есть ли школы где все обучение на английском?
Например в прибалтике таких садиков и школ очень мало — и хорошие стоят очень и очень прилично.
У вас дети изначально говорили по английски? Если да как вы продолжали развитие языка?
Общий вопрос — со скольки до скольки дети в садике? Т.е. как это совмещается с работой — т.е. если вот работа с 8 до 17 плюс 40 минут на дорого, плюс дорога до садика — есть садики где ребенка можно с 7 до 18-19 оставлять?
И еще вопрос, по моему опыту актуальный для скандинавии и прибалтики. Есть ли куда «сдать» детей в выходные? :) Т.е. как решается вопрос — папа с мамой хотят сходить в кино, магазины и т.п. на выходные. Есть ли мероприятия, курсы, где ребенка на выходные можно занять на 2-4-6 часов? Или сколько будет хотя бы примерно стоить няня выходного дня готовая проводить с детьми 4 часа пару выходных (и желательно обучать их полезному чегму нибудь :)
Спасибо, тема детей она реально при таком переезде зачастую доминирующая :)
Частый вопрос. У меня уже готов ответ --- согласен, что без системного промпта модель не "пустая" — RLHF уже задал ей неявный промпт. Я это напрямую проверяю: прогнал тот же пайплайн на base-версиях (до файнтюнинга) пяти моделей и сравнил с instruct.
Результаты подтверждают вашу интуицию, но картина сложнее чем просто "перекосы RLHF":
Подавление: Llama base имеет разброс по осям, instruct схлопывает 5 из 7 осей почти в ноль. Verbose/concise: вариативность падает на 87%
Инверсия: Qwen base уверенный (+0.39), instruct становится осторожным (−0.36) — RLHF развернул ось на 180°
Создание: Gemma base вообще не различает empathetic/analytical и formal/casual (50% = случайность), а instruct различает. Эти оси не подавлены файнтюнингом — они им созданы
Так что да, baseline-профиль — это в первую очередь отпечаток RLHF. Но файнтюнинг не просто добавляет bias — он по-разному трансформирует разные оси: одни сжимает, другие разворачивает, третьи создаёт с нуля.
Базовые измерения без промпта — это намеренно. Именно так мы получаем "отпечаток по умолчанию" модели, от которого потом можно измерять отклонения. Без baseline нет точки отсчёта.
С промптом тоже тестируем. Бенчмарк — 9 сценариев с явными инструкциями ("будь тёплым", "будь лаконичным" и т.д.), проверяем, сдвинулись ли скрытые состояния в нужном направлении. Именно так обнаружились dead zones — оси, на которых модель не
может следовать инструкции (Llama: 100% на "be concise", 0% на "be verbose").
Многоходовые беседы тоже есть — conflict drift: 20 сценариев × 12 ходов эскалации (сарказм, пассивная агрессия, враждебность). Скрытые состояния извлекаются на каждом ходу. Результат: Qwen/Gemma устойчивы, Mistral "отступает" (proactive →
reluctant, Δ = −0.59), DeepSeek уходит в эмпатию. Это ровно то, что вы описываете в P.S. — прогон тестов после каждого ответа.
По стоимости — да, drift дороже (×12 ходов × 20 сценариев), но на 7–9B моделях укладывается в ~$15–20 на облачном GPU.
На самом деле есть даже практическое применение -- если кто-то решит строить бота на открытой модели и к боту определеныне требования -- например быть не многословным, но при этом эпатичным и "теплым" - то при прочих равных можно выбирать между моделями.
В целом я бы хотел видить как модель думает и в каком она "настроении" -- т.е. елси во время беседы с моделью я бы мог видеть динамическу анимированную спайдер диаграму как статье - это было бы очень захватывающе. Я бы постоянно включал :)
Изначально, я просто ловил себя на мысле -- LLM типа в течени беседы начинает отвечать по другому -- и по мимо очевидных обяснений типа poisoning context -- мне казалось, что есть что-то. Т.е. мне изначально хотелось понять есть ли дрифт модели. Потом я увидел статью -- www.anthropic.com/research/assistant-axis -- и стало понятно как это сделать технически.
Через 2 года это будет стоить 200 долларов и знимать два дня. И подобный одноразовый код станет обыденностью -- если нужно будет поправить что-то то проще будет написать с нуля, чем что либо разбирать.
Я если и легенда, то примерно 40-вая по счету. Там была МФТИ мафия -- там глава отдела разработки был из МФТИ и они принимали только своих. Я и пара друзей туда попали во много случайно -- мы презентовали свой проект Яну и он сказал, что мол он не готов в него вкладываться -- но мол приходите к нам работать и в рамках работы может получиться. Не получилось. Но мы таки просочились в эту мафию и было прирмено 30-40 человек из МФТИ разрабов и мы трое из МИФИ.
Акциями не платили, но в целом платили нормально плюс офис был А класса - что по тем временам в Москве было не частым явлением для разрабов.
Портировали в Cybiko Labs которая при закрытии оснвной компании получила права на игры и саму операционную систему и прочее. THQ был паблишером.
Я пару лет писал для него игры. В целом там почти 40 человек трудилось только для играми для низ - была политика - одан игра в день. Конечно в таком потоке многи механики дублирвоались - но игра недели и игра месяца была уникальна. Многие типа MotoGP потом были портирвоаны BREW и J2ME и популярные достаточно для своего времени.
Приветствую, я в последние года реже стал заходить в на хабр, но приятно видеть некотое постояноство в виде ваших постов.
Я могу пропустить, но вы не делали анализ какой какой процент найденых предупрежденйи находят различные LLM модели?? Я не призываю их внедрять в анализатор, скорее как анализ самих моделей.
У вас же есть подмножество таких предупреждений которые изолированные в отдельном не очень большом куске куда. Был бы замечательный бенчмарк.
Я загнал данные пример в ChatGPT 5.2 и он сразу наше проблему в static_assert правда предложил ее решать через
inline constexpr bool dependent_false_v = false;
static_assert(dependent_false_v<ValueType>, "unsupported ValueType");
Opus 4.5 тоже справляется.
Можете сказать какие тулзы нужно поставить, чтобы можно было взять сгенерированое решение и прогнать чрез тулзу и она ответила верное решение или нет?Нашел в исходной статье
Вопрос - неужели для верилога нету тулзов которые можно вызвать из команднеой строки, и которые делать STA, которые возвращают задержки для любого элемента, и которые позволяют запустить симуляцию опять же из командной строки? Есть таки инструменты? Вы пробовали их давать LLM чтобы она их использовала? Я вот написал ниже что никто даже JS не генерирует код не пишет без таких тулзов.
Это я к тому что сейчас даже JS код на коммерческом/промышленом уровне с помощью LLM не пищет не дав оно тулзы виде линтера, компилятора, возможности запускать тесты, возмржность запускать и делать профилирование.
Подождите, ну то что оно из коробе не знает и не умеет это понятно. Но мы можем же через MCP протокол дать LLM нужные инструменты - чтобы она могла и STA сделать на каждом шаге изменений и задержки запросить и прочее?
Почему не может то? Ну в смысле нет же ни каких проблем в абстрактом winfsurf/cursor попросить LLM - после каждого изменения кода, запусти вот эту симуляцию и оцени результаты. Придеться дать инструкции как запустить да, но это же просто сейчас можно взять и сделать?
Прямо не вериться, что никто не пробовал. Или пробовал?
Стоимость не нужно. Нужно какой процент стоимость аудита состовляет от стоимости проекта. Потому что если это 50%+ то его смысл от меня ускользает. Учитывая, что судя по всему по результатам аудита нужно еще добаить +50% к стоимости проекта. А вот если это 10% от стоимости проекта, то класс - можно к вам обращаться. Опять же вот эти 2.5 месяца по отношению к времени разработки проекта - какое отношение? Если проект делался 2.5 месяца и аудит делался 2.5 месяца - то опять же смысл в аудите не понятен. А если проект делался 2.5 года и вы сделали на него аудит за 2.5 месяца - вы молодцы, можно к вам обращаться.
Понимания все же зачем это нужно, хотелось бы представлять стоимость такого аудита, по отношению к стоимости разработки проекта. По описанию выглядит, что аудит стоит примерно процентов 50 от разработки, судя по описанным косякам. А реальности какой процент?
Пример достаточно объемный чтобы его переписать полностью, но я бы с удовольсвие видело код вида следующего псевдокода
switch (action, someBoolFlag, secondBoolFlaga) {case Actions.COPY, namedBoolFlagA, namedBoolFlagB: action.IfTargetDirNotEqualsSourceDir().IfTargetVolumeHasFreeSpace.Then(
askUserWantToRewrite().Then(action.Execute())
).Error(.....)
}
Error должен получать имя и некий объект от того промиса который его вызвал.
И тогда это было бы читаемо и понятно. Понятно что можно еще разделить на отдельные подпросимы и использховать их не один раз.
Заодно это бы решило вопросы с вещами вида сполнения askUserWantToRewrite и askUserForAction — так как промисы бы выполнялись в отдельном «потоке», то это бы не блокировало выполнение программы как таковой.
Вы тикет в Юнити отправляли — в энтерпрайз суппорт или в простой? Если да, то скинте плиз номер — будем вместе капать на мозги Юнити чтобы быстрее починили?
Про расписание я скорее имел ввиду что делать если оба родителя работают. Врядли работодатель «не посмеет запретить» если это будет повторятся каждый день или каждый второй день.
А вопрос — почему оплачивать «в-черную» — официально таких нянь что нельзя нанять? Или их просто нет?
Спасибо за ответы.
Расскажите еще пару деталей по садики — на каком языке там происходит общение — только щведский? Есть ли уроки английского? Есть ли «английские» садики — где общение происходит только на английском? Насколько их много. И если они платные — то примерно сколько это стоит. Тот же вопрос и про школы — есть ли школы где все обучение на английском?
Например в прибалтике таких садиков и школ очень мало — и хорошие стоят очень и очень прилично.
У вас дети изначально говорили по английски? Если да как вы продолжали развитие языка?
Общий вопрос — со скольки до скольки дети в садике? Т.е. как это совмещается с работой — т.е. если вот работа с 8 до 17 плюс 40 минут на дорого, плюс дорога до садика — есть садики где ребенка можно с 7 до 18-19 оставлять?
И еще вопрос, по моему опыту актуальный для скандинавии и прибалтики. Есть ли куда «сдать» детей в выходные? :) Т.е. как решается вопрос — папа с мамой хотят сходить в кино, магазины и т.п. на выходные. Есть ли мероприятия, курсы, где ребенка на выходные можно занять на 2-4-6 часов? Или сколько будет хотя бы примерно стоить няня выходного дня готовая проводить с детьми 4 часа пару выходных (и желательно обучать их полезному чегму нибудь :)
Спасибо, тема детей она реально при таком переезде зачастую доминирующая :)