Comments / Profile of YoungSkipper / Habr

Андрей Юношев@YoungSkipper

Делаю игры для мобильных. Изучаю ML.

Subscribers

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

Частый вопрос. У меня уже готов ответ --- согласен, что без системного промпта модель не "пустая" — RLHF уже задал ей неявный промпт. Я это напрямую проверяю: прогнал тот же пайплайн на base-версиях (до файнтюнинга) пяти моделей и сравнил с instruct.

Результаты подтверждают вашу интуицию, но картина сложнее чем просто "перекосы RLHF":

Подавление: Llama base имеет разброс по осям, instruct схлопывает 5 из 7 осей почти в ноль. Verbose/concise: вариативность падает на 87%
Инверсия: Qwen base уверенный (+0.39), instruct становится осторожным (−0.36) — RLHF развернул ось на 180°
Создание: Gemma base вообще не различает empathetic/analytical и formal/casual (50% = случайность), а instruct различает. Эти оси не подавлены файнтюнингом — они им созданы

Так что да, baseline-профиль — это в первую очередь отпечаток RLHF. Но файнтюнинг не просто добавляет bias — он по-разному трансформирует разные оси: одни сжимает, другие разворачивает, третьи создаёт с нуля.

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

YoungSkipper Feb 11 at 16:40

Базовые измерения без промпта — это намеренно. Именно так мы получаем "отпечаток по умолчанию" модели, от которого потом можно измерять отклонения. Без baseline нет точки отсчёта.

С промптом тоже тестируем. Бенчмарк — 9 сценариев с явными инструкциями ("будь тёплым", "будь лаконичным" и т.д.), проверяем, сдвинулись ли скрытые состояния в нужном направлении. Именно так обнаружились dead zones — оси, на которых модель не
может следовать инструкции (Llama: 100% на "be concise", 0% на "be verbose").

Многоходовые беседы тоже есть — conflict drift: 20 сценариев × 12 ходов эскалации (сарказм, пассивная агрессия, враждебность). Скрытые состояния извлекаются на каждом ходу. Результат: Qwen/Gemma устойчивы, Mistral "отступает" (proactive →
reluctant, Δ = −0.59), DeepSeek уходит в эмпатию. Это ровно то, что вы описываете в P.S. — прогон тестов после каждого ответа.

По стоимости — да, drift дороже (×12 ходов × 20 сценариев), но на 7–9B моделях укладывается в ~$15–20 на облачном GPU.

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

YoungSkipper Feb 10 at 21:49

На самом деле есть даже практическое применение -- если кто-то решит строить бота на открытой модели и к боту определеныне требования -- например быть не многословным, но при этом эпатичным и "теплым" - то при прочих равных можно выбирать между моделями.

В целом я бы хотел видить как модель думает и в каком она "настроении" -- т.е. елси во время беседы с моделью я бы мог видеть динамическу анимированную спайдер диаграму как статье - это было бы очень захватывающе. Я бы постоянно включал :)

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

YoungSkipper Feb 10 at 12:08

Изначально, я просто ловил себя на мысле -- LLM типа в течени беседы начинает отвечать по другому -- и по мимо очевидных обяснений типа poisoning context -- мне казалось, что есть что-то. Т.е. мне изначально хотелось понять есть ли дрифт модели. Потом я увидел статью -- www.anthropic.com/research/assistant-axis -- и стало понятно как это сделать технически.

Opus 4.6 и команда ИИ-агентов написала компилятор С за 2 недели

YoungSkipper Feb 5 at 22:18

Через 2 года это будет стоить 200 долларов и знимать два дня. И подобный одноразовый код станет обыденностью -- если нужно будет поправить что-то то проще будет написать с нуля, чем что либо разбирать.

Он умер… и его даже ни разу не включали :-(

YoungSkipper Feb 2 at 12:35

Я если и легенда, то примерно 40-вая по счету. Там была МФТИ мафия -- там глава отдела разработки был из МФТИ и они принимали только своих. Я и пара друзей туда попали во много случайно -- мы презентовали свой проект Яну и он сказал, что мол он не готов в него вкладываться -- но мол приходите к нам работать и в рамках работы может получиться. Не получилось. Но мы таки просочились в эту мафию и было прирмено 30-40 человек из МФТИ разрабов и мы трое из МИФИ.

Акциями не платили, но в целом платили нормально плюс офис был А класса - что по тем временам в Москве было не частым явлением для разрабов.

Он умер… и его даже ни разу не включали :-(

YoungSkipper Feb 1 at 23:21

Портировали в Cybiko Labs которая при закрытии оснвной компании получила права на игры и саму операционную систему и прочее. THQ был паблишером.

Он умер… и его даже ни разу не включали :-(

YoungSkipper Feb 1 at 22:53

Я пару лет писал для него игры. В целом там почти 40 человек трудилось только для играми для низ - была политика - одан игра в день. Конечно в таком потоке многи механики дублирвоались - но игра недели и игра месяца была уникальна. Многие типа MotoGP потом были портирвоаны BREW и J2ME и популярные достаточно для своего времени.

Мы иногда во внутреннем чате обмениваемся фрагментами кода...

YoungSkipper Jan 15 at 13:07

Приветствую, я в последние года реже стал заходить в на хабр, но приятно видеть некотое постояноство в виде ваших постов.

Я могу пропустить, но вы не делали анализ какой какой процент найденых предупрежденйи находят различные LLM модели?? Я не призываю их внедрять в анализатор, скорее как анализ самих моделей.

У вас же есть подмножество таких предупреждений которые изолированные в отдельном не очень большом куске куда. Был бы замечательный бенчмарк.

Я загнал данные пример в ChatGPT 5.2 и он сразу наше проблему в static_assert правда предложил ее решать через

inline constexpr bool dependent_false_v = false;

static_assert(dependent_false_v<ValueType>, "unsupported ValueType");

Opus 4.5 тоже справляется.

Некоторые товарищи, например Олег Чирухин на Фейсбуке...

YoungSkipper Jun 22 2025 at 17:16

Можете сказать какие тулзы нужно поставить, чтобы можно было взять сгенерированое решение и прогнать чрез тулзу и она ответила верное решение или нет?

Нашел в исходной статье

Некоторые товарищи, например Олег Чирухин на Фейсбуке...

YoungSkipper Jun 22 2025 at 17:08

Вопрос - неужели для верилога нету тулзов которые можно вызвать из команднеой строки, и которые делать STA, которые возвращают задержки для любого элемента, и которые позволяют запустить симуляцию опять же из командной строки? Есть таки инструменты? Вы пробовали их давать LLM чтобы она их использовала? Я вот написал ниже что никто даже JS не генерирует код не пишет без таких тулзов.

Некоторые товарищи, например Олег Чирухин на Фейсбуке...

YoungSkipper Jun 22 2025 at 16:23

Это я к тому что сейчас даже JS код на коммерческом/промышленом уровне с помощью LLM не пищет не дав оно тулзы виде линтера, компилятора, возможности запускать тесты, возмржность запускать и делать профилирование.

Некоторые товарищи, например Олег Чирухин на Фейсбуке...

YoungSkipper Jun 22 2025 at 16:21

Тайминг внутри такта (задержки в пикосекундах) только из кода определить нельзя, нужна процедура статического анализа тайминга, который знает задержки конкретной библиотеки ASIC (LLM не умеет делать STA (static timing analysis) и не знает задержек конкретной версии библиотеки скажем на 2 нанометра low power такого-то вендора).

Подождите, ну то что оно из коробе не знает и не умеет это понятно. Но мы можем же через MCP протокол дать LLM нужные инструменты - чтобы она могла и STA сделать на каждом шаге изменений и задержки запросить и прочее?

а запустить симулятор и посмотреть это на диаграммах после симуляции LLM не может

Почему не может то? Ну в смысле нет же ни каких проблем в абстрактом winfsurf/cursor попросить LLM - после каждого изменения кода, запусти вот эту симуляцию и оцени результаты. Придеться дать инструкции как запустить да, но это же просто сейчас можно взять и сделать?

Прямо не вериться, что никто не пробовал. Или пробовал?

Как мы заKISSили и заDRYили огромный аудит ?

YoungSkipper Aug 28 2023 at 15:02

Стоимость не нужно. Нужно какой процент стоимость аудита состовляет от стоимости проекта. Потому что если это 50%+ то его смысл от меня ускользает. Учитывая, что судя по всему по результатам аудита нужно еще добаить +50% к стоимости проекта. А вот если это 10% от стоимости проекта, то класс - можно к вам обращаться. Опять же вот эти 2.5 месяца по отношению к времени разработки проекта - какое отношение? Если проект делался 2.5 месяца и аудит делался 2.5 месяца - то опять же смысл в аудите не понятен. А если проект делался 2.5 года и вы сделали на него аудит за 2.5 месяца - вы молодцы, можно к вам обращаться.

Как мы заKISSили и заDRYили огромный аудит ?

YoungSkipper Aug 28 2023 at 14:33

Понимания все же зачем это нужно, хотелось бы представлять стоимость такого аудита, по отношению к стоимости разработки проекта. По описанию выглядит, что аудит стоит примерно процентов 50 от разработки, судя по описанным косякам. А реальности какой процент?

Code Review case 1

YoungSkipper Jul 23 2018 at 08:49

Я не знаю насколько в java реализуется такой подход, но мне кажется что наиболее читаемым было бы использование либо pattern matchin либо промисов, либо и того и другого.
Пример достаточно объемный чтобы его переписать полностью, но я бы с удовольсвие видело код вида следующего псевдокода

switch (action, someBoolFlag, secondBoolFlaga) {

 case Actions.COPY, namedBoolFlagA, namedBoolFlagB: action.IfTargetDirNotEqualsSourceDir().IfTargetVolumeHasFreeSpace.Then(

 askUserWantToRewrite().Then(action.Execute())

).Error(.....)

}

Error должен получать имя и некий объект от того промиса который его вызвал.
И тогда это было бы читаемо и понятно. Понятно что можно еще разделить на отдельные подпросимы и использховать их не один раз.

Заодно это бы решило вопросы с вещами вида сполнения askUserWantToRewrite и askUserForAction — так как промисы бы выполнялись в отдельном «потоке», то это бы не блокировало выполнение программы как таковой.

Google I/O 2018 глазами разработчика мобильных игр + рекомендации по итогам

YoungSkipper May 28 2018 at 09:34

Мы пробовали собрать Instant App из Unity, но билд занял больше 20 МБ и не работает (падает на инициализации Unity Player из-за ошибки недоступности какой-то операции записи в режиме Instant App). Так что для нас это пока не вариант, будем ждать Unity.

Вы тикет в Юнити отправляли — в энтерпрайз суппорт или в простой? Если да, то скинте плиз номер — будем вместе капать на мозги Юнити чтобы быстрее починили?

Поработать в Швеции

YoungSkipper Aug 19 2017 at 22:31

Спасибо. Понятно, что когда и если вопрос будет актуальный, мы активно погуглим сами — просто из первых рук полезно спросить напрямую — вдруг сталкивались. У меня просто двое 3 и 6 лет, и оба уже активно говорят на английском (ну понятно для своего возраста — но в целом на бытовые темы можно общаться на равном с русским) и очень хочется сохранить эту тенденцию :)

Поработать в Швеции

YoungSkipper Aug 19 2017 at 22:29

Спасибо. Отсутсвие английских садиков даже в столицах европейских городов повсеместная картина и очень печалит.

Про расписание я скорее имел ввиду что делать если оба родителя работают. Врядли работодатель «не посмеет запретить» если это будет повторятся каждый день или каждый второй день.

А вопрос — почему оплачивать «в-черную» — официально таких нянь что нельзя нанять? Или их просто нет?

Спасибо за ответы.

Поработать в Швеции

YoungSkipper Aug 19 2017 at 22:05

Спасибо за подробный рассказ.

Расскажите еще пару деталей по садики — на каком языке там происходит общение — только щведский? Есть ли уроки английского? Есть ли «английские» садики — где общение происходит только на английском? Насколько их много. И если они платные — то примерно сколько это стоит. Тот же вопрос и про школы — есть ли школы где все обучение на английском?

Например в прибалтике таких садиков и школ очень мало — и хорошие стоят очень и очень прилично.

У вас дети изначально говорили по английски? Если да как вы продолжали развитие языка?

Общий вопрос — со скольки до скольки дети в садике? Т.е. как это совмещается с работой — т.е. если вот работа с 8 до 17 плюс 40 минут на дорого, плюс дорога до садика — есть садики где ребенка можно с 7 до 18-19 оставлять?

И еще вопрос, по моему опыту актуальный для скандинавии и прибалтики. Есть ли куда «сдать» детей в выходные? :) Т.е. как решается вопрос — папа с мамой хотят сходить в кино, магазины и т.п. на выходные. Есть ли мероприятия, курсы, где ребенка на выходные можно занять на 2-4-6 часов? Или сколько будет хотя бы примерно стоить няня выходного дня готовая проводить с детьми 4 часа пару выходных (и желательно обучать их полезному чегму нибудь :)

Спасибо, тема детей она реально при таком переезде зачастую доминирующая :)

2 3 ...

40 41