Pull to refresh
54
0
Илья @proxy3d

нейробиология, нейронные сети, AR/VR

Send message

На самом деле это заметно снижается галлюцинации.

https://t.me/greenruff/1757

https://t.me/greenruff/1740

Смысл тут следующий. Случайный выбор токена с учётом top-k и температуры (ошибки в обучении мы не берём в расчет) влияет на предсказание цепочки в ответе. При чем правильный ответ не всегда может соответствовать самому обобщенному. Есть спорные ответы.

В свое время в чате сберкомьюнити разбирали это. Я тогда предложил подход описанный по ссылке и затем сделал проверку через код (народ проверял вручную). В моем случае, использовалась белуга 7b и спорные вопросы. Так вот, использование даже одной модели, но с разными параметрами существенно улучшает результат. Если в данных модели где то "запрятан" ответ, то его выдаст при определенных условиях.

Там главное было ещё в том, что правильность или не правильность оценивалось не только по ответу, но и по объяснению почему был дан такой ответ. Это позволяло отсеит слабые размытые ответы, не по теме.

Но тут важно было чтобы все модели были равные. Баланс. Иначе слабые модели могли просто "отсчюечь" ответ сильной модели, или другие критерии. Постепенно, цепочка оставляла только одного победителя и его ответ принимался.

Это чем то похоже на рассуждающие модели, но с той разницей что их много и оценка даётся не только ответу, но и аргументации ответа, создавая турнирную цепочку.

Проблема тут была в том, что это очень дорого и медленно. Для 10-и LLM время ответа могло быть 30 минут. Ресурсов это тоже съедало очень много. Поэтому для простых вопросов это очень дорогой подход.

Это работало, как своего рода метод Монте Карло. Когда мы считаем что ответу могут быть случайными, но с одной разницей - правильны ответы должны выдаваться чаще чем не правильные. Поэтому данный подход снижает вероятность получения неверного ответ, так как каждый раз мы выбираем наиболее "верный" (набравший больше всех подтверждений правильности).

Так что в целом подход к статье верный. Не знаю учитывает ли он нюансы описанные выше.

Я привел ссылки, исходники, результаты. Вы же просто порождаете бессмысленный флуд.

Вы не понимаете связь с Loss, даже на скриншоте вы увидели только часть смысла. Вам дают примеры где можно открыть исходники, запустить. Дают объяснение почему и как, как к этому пришли. Выстраивают на этом математически обоснованную математическую теорию, которую можно проверить. Проверяют каждый шаг на противоречия другим моделям, а так же на практических примерах.

Я не готов продолжать диалог, так как вы показали, что у вас нет компетенций ни в области нейронных сетях, ни достаточных знаний в математике. Вы нахватались каких-то поверхностных знаний. Поэтому с вами невозможно вести равный диалог из-за отсутствия у вас знаний в предметной области.

1) если бы вы зашли в комментарии по ссылке с арбитрами, то увидели бы что суть теста был не в том что модель становилась умнее, а задача была снизить галлюцинации моделей. Там есть примеры и результаты, есть исходный код который вы можете проверить.

2) Теперь про curriculum learning - дальше скриншота видимо не пошли, ну ок. curriculum learning лишь перекликается с этим. В данном случае это расширение подхода от эмпирического к математического, через расчет энтропии марковских цепей и постепенном усложнении структуры (за счет включения новых блоков при обучении). Скриншот был о другом - о том, что даже стандартные оценки порой не отражают правильно ошибки. И объяснил почему так.

Насчет выкладок, я делаю примеры и выкладываю, чтобы каждый мог проверить. В вашем случае, я пока не увидел того, что вы разбираетесь в теме и понимаете ее. Ваши рассуждения носят поверхностный характер и говорят о том, что в обучении моделей, в теории вероятности, теории информации и других разделах математики вы плохо разбираетесь. Иначе не несли бы чушь, которую написали выше.

Во первых, я привел вам пример с Loss для наглядности. Так как рассуждения и стиль моделей отражаются их Loss в обобщению данных на которых они были обучены. Поэтому, когда модель грубо сравнивает стиль со своим, это отражения сравнение Loss двух прогнозов токенов. Не 1 в 1, но отражает их сравнение. Поэтому, раз вы этого не поняли, я перешел на более понятный для вас подход.

Насчет конфигурации, то я не просто пробовал. А строил на этом подходе рассуждающую модель со множество арбитров, где судьями выступали сами LLM - с целью снижения галлюцинаций. Замечу, что это был ансамбль множества разных LLM. И даже выкладывал код (в комменатриях).

https://t.me/greenruff/1756

Сейчас у меня он переписанный под крупные модели включая ChatGPT, DeepSeek и другие. Поэтому да, я могу утверждать, что все что написано мной выше верно. Нельзя вот так в лоб делать сравнение на любой случай. Мы получаем мусорный бенчмарк. Максимум мы можем усреднить этот показатель, и сравнивать с усреднённым при условии равнозначных моделей в ансамбле при оценке.

https://t.me/greenruff/2457

К сожалению глобальный Loss и другие такие метрики, тоже не панацея.
На примере выше видно, что при правильном обучении модель начинает быстрее выделять структурные связи. Но Loss это не отражает, по той причине что стандартные критерии оценки Loss не умеют давать оценку иерархический моделей. А текст отражает именно иерархию признаков.
Поэтому высокочастотные слова дают меньше Loss, а более правильная структура построения выдает хуже Loss.
Это для наглядности, чтобы было понятно, что пограничные условия при сравнении равных моделей без правильного понимания, как это работает - бессмысленны.

Теперь что касается математической строгости. Это не нытье. В отличии от вас, я занимаюсь этим https://t.me/greenruff/2469

Поэтому могу сказать на основе доказанных теорем (которые можно легко проверить), что есть более точные критерии для сравнения моделей по энтропии. А не как в данном бенчмарке, который не имеет отношения к реальным данным. Любое действие должно быть обоснованным и доказанным. Я пока не увидел от вас ни одного обоснования, у вас все смешалось в кучу и синтетические данные, и экстраполяция бенчмарков и другие утверждения.

Вы понимаете, что все сильнее закапываете себя? Я привел Loss в качестве примера для наглядности и понимания в целом. Так как он отражает их обобщение между данными при обучении и обобщенными самой моделью.

Если на более поверхностном, то если одна модель выступает судьёй для другой, то её оценка неизбежно смещена в сторону её собственных представлений и формулировок. То есть она “выбирает” то, что похоже на её собственный стиль ответа. Получается не абсолютная оценка “качества”, а метрика “похожести на суждения судьи”.

Если мы сравниваем маленькую модель с большой, то в роли судьи можно взять большую модель. Тут предполагается, что она в среднем ближе к человеческим стандартам (лучше знает грамматику, логику, структуру).

Для варианта выше используют более строгие методы:

  • люди-эксперты или обычные пользователи дают оценки.

  • пользователям или “судье” показывают два ответа и они выбирают лучший - это уменьшает смещение.

  • несколько разных моделей оценивают и усредняют.

  • агрегированные метрики: например, измерение фактической точности (правильные факты против галлюцинаций), то что я написал на примере Loss (как одной из возможных оценок - и даже он не показатель)

Но что хуже, это то что строгих "теорем правильности" у этого подхода нет. Есть лишь эмпирические работы, показывающие, что оценки крупных моделей коррелируют с человеческими (есть исследования про корреляцию 80%). Но это всё статистика, а не строгая теория.

Так что судейство одной моделью — это в лучшем случае приближение. Более того, это не строгий критерий, а эвристика.

Для крупных моделей между собой — почти бессмысленно!!!

Видимо в танке именно вы, раз не понимает как происходит оценка при сравнении ошибки и что модели прогнозируют обобщенные данные на которых их обучали.

Иными словами, если одну модель вы научили обобщать Коты - это пушистые животные, а другую Коты - это домашние животные. То ваша попытка оценить обе модели через одну, приведет к некорректным результатам. Это значит, что вы не понимаете о чем пишете. И не важно, что сейчас наплодили кучу таких бенчмарков. Сейчас и статей сгенерированных сетками много.

Возвращаясь к пример. У нас есть

Модель 1: Коты - это пушистые животные

Модель 2: Коты - это домашние животные

Теперь мы с помощью Модели 1 сравниваем результат. Конечно модель 1 выдаст loss близкий к свои обученным данным, и безусловно будет более сильное расхождение с моделью 2 по Loss. Но это абсолютно не значит, что модель 2 проигрывает модели 1. В данном случае сравнение таким образом совершенно некорректно и неверно. То что подобные вещи плодят в интернете, не делает их ценными. А лишь говорит о том, что люди, которые их публикуют не понимают о чем пишут.

То о чем вы пишите, это когда разница между сетками огромная. Когда допустим у вас 70b модель и 7b модель, и вы путаетесь сравнить построение структуры и связанность данных в ответе.

Затем модель оценки ( gpt-5 ) анализирует каждый чат и регистрирует каждое проявление защитного и рискованного поведения, определённого в рубрике, присваивая каждому результату оценку интенсивности от 1 до 3.

Оценку делала GPT-5 и он выбрал лучшим GPT-5? Скажите, зачем делать публикацию бенчмарка, где оценка является мусором из-з необъективности.

Вас не смущается такой подход:

1) Обучили модели M1, M2, M3 определению, кто такой кот. У каждой определение немного отличалось.

2) с помощью модели K, мы задаем вопрос моделям M1, M2, M3 кто такой кот.

3) оценивать результат моделей M1, M2, M3 будет модуль M1 (судья).

Как вы думаете, где разница ответов между судьей M1 и ответами M1, M2, M3 будет минимальный? То что вы привели - это мусорный бенчмарк имеющий отрицательную пользу.

У вас он не теряет контекст? у меня он теряет контекст уже последних сообщений и суммирует только последнее, игнорируя вклад прежних (часто такое замечаю) у Gpt 5 Thinking и Gpt 5 Thinking-mini. При чем делает это рандомно, то захватывает (вроде), но чаще нет. Хуже еще то, что он порой игнорирует последнее сообщение и словно продолжает мысль предпоследнего (пока не понял как с этим бороться).
У меня получается каждый раз рандомный результат по качеству. Без Thinking вообще выдает ерунду полную, типа да это теорема без нормальных разборов доказательства, но иногда разбирает. Получается какая-то рулетка.

И еще, появились орфографические опечатки в словах, чего раньше не наблюдалось. И сокращения слов в перемешку с английскими словами.

Не знаю, мне не везёт на задачах или gpt-5 как комплекс заточен под житейские вопросы вроде как мне жить и в какой фазе луны воздействие Меркурия положительно скажется на финансах. В моих задачах gpt-5 на всех режимах (включая рассуждающие) превратился в какое-то дно. Стараюсь все реже его использовать теперь.

Это только у меня так (много математических задач, проверок теорем, нестандартные задачи для кода)? Или у кого то он тоже на задачах сильно просел? Приходится использовать deepseek, Gemini, qwen. (Grok 4 тоже делает то херово то средне).

У кого другая статистика, где у кого-то gpt-5 и grok показали наоборот более качественные результаты?

Я подозреваю, что это НИИ который вход в концерн роснано (или как написано Ростех). Если я прав, то это технология была разработана ещё в советское время (не знаю дорабатывали ли ее потом). Она основана на цианакрилатной основе с разными основами уф и другие. Когда искал пленку для проекта тянущиеся электроники, то общался с ними много раз. Они даже тех описание присылали. Они производили это для военки, чтобы изолировать плата от внешнего воздействия (например пленкой покрывается плата, чтобы быть защищённой). Но из-за их пофигизма образцы так и не получил, морозились то праздники, то отпуска, то болеют. Там была пожилая женщина, которой было фиолетово на все. Мне пленка была нужна как подложка. Но делают они не только в виде пленки. В итоге быстрее было договориться с китайцами и получить от них.

Так что как я понимаю, это Владикавказского НИИ (если я правильно написал по памяти), помню что с Кавказа чему очень тогда удивился. Но в РФ данным производством занимались именно они.

Хотя конечно может быть других, но пообщавшись со всеми НИИ в РФ насчёт клеев и плёнок, других нет.

Где здесь промпт вообще? промпт подается отдельно в начале и пишется, что вам нужно как раньше. А это микродиалоги, обычные диалоги, которые вставляются между вашими диалогами с моделью, с той лишь разницей, что они не видны вам (программно отсекаются). Их задача направить путь предсказание по другому маршруту.

Судить по скриншоту, когда по ссылке было описано более полно, были приложены примеры и был сделан разбор. И при этом делать выводы. Вы явно не понимаете, как работает усложнение предсказания вероятностей, не важно буквы, слогов, или математических вопросов.

Какая токенизация? Там написано выше, фразы тексты и так далее. токенизатор тоже указан. Даже детский лепет это не слоги, это слова. Вы вообще не поняли смысла того, что написано выше.

Бесплатные версии у ChatGPT сейчас сильно скатились вниз по качеству, рассуждающие и обычные. Либо просто у меня совершенно не справляются с проверкой готового решения математических задач. И заметно сильно уступает в этом Qwen.

Платная версия ChatGPT сейчас сильно отличается по качеству от бесплатной для рассуждений и без? Режим исследования не в счёт, хотя к нему тоже очень много вопросов. Хочется понять, есть ли смысл от платной подписки или качество будет таким же низким для математических задач.

Промпт вставляется в начале текста, за ним идут все диалоги. Поэтому это и называется промпт.
Микро-диалоги это не промпт. Это именно "фиктивные диалоги", которые вставляются между старым сообщениями и новым сообщением. Так как промпт быстро перестает оказывать влияние на диалог, когда диалог (текст) начинает расти.

Там же приведена ссылка https://t.me/greenruff/2232, на которой показана схема и больше описания. В комментариях там специально все разжёвано. Чтобы не дублировать сюда в комментарии все схемы и не захламлять их.

Микро диалоги вставляются на каждом шаге и не видны пользователю, но видны модели. Это подобно микро-рассуждениям модели, задача которых перенаправить маршрут предсказания токенов.

Кратко: миркодиалоги вставляются (добавляются к основному диалогу) каждый раз перед новым сообщением пользователя. Чтобы направить ответ генерации токенов модели по нужному нам маршруту.

Нет. Специально даже написано, что промпт в таких случаях практически бесполезен

Собственно они привели пример, который следовал и так из трактования прогнозирования маршрутов предсказания токенов.

Это можно обойти иначе https://t.me/greenruff/2232

если направить LLM по нужному нам маршруту предсказания в "реальном времени" (промпт тут малополезен). Там уже можно хоть психолога делать. который ни когда не грубит или маньяка для игровой ситуации. Я использовал данный подход для создания характеров разных персонажей.

Справедливости ради, надо отметить что Loss (другие метрики тоже опираются на стандартные методы минимизации ошибки) не всегда точно отражает качество.

Выше пример. Начало обучения, как видно во втором случае Loss для обучения и на тесте выше, но качество связей гораздо лучшем, чем в первом примере. Причина в том, что Loss и другие метрики не отражают структурные показатели. Например в примере выше, первая модель за счет того, что уловила частые символы и использует их имеет более низкий Loss. Вторая же, уже начала улавливать структуру и там цена ошибки выше (случайный токен "в", "и" приведет к меньшей ошибке, чем токены случайного слова "в Европе"). Так как Loss не может оценить связи, грамматику, семантику и другие верхне-уровневые ошибки.

Поэтому данные бенчмарки, особенно при маленьких отличиях от других моделей, не могут быть корректным показателем. Хотя других у пока тоже не знаю. Это не значит, что они бесполезны, просто надо держать в голове, что они могут не полностью отражать глобальную оценку.

кол-во эпох тут не показатель, так как верхняя часть училась на статьях википедии, а нижняя сначала на специальных данных (которые все поместятся по кол-ву токенов в 2-5 статей википедия) и лишь в конце 100 статей вики. Поэтому во втором случае пример может быть условно "ляля" 91-2 токена), а в первом случае это статья из википедии (много много токенов).
кол-во эпох тут не показатель, так как верхняя часть училась на статьях википедии, а нижняя сначала на специальных данных (которые все поместятся по кол-ву токенов в 2-5 статей википедия) и лишь в конце 100 статей вики. Поэтому во втором случае пример может быть условно "ляля" 91-2 токена), а в первом случае это статья из википедии (много много токенов).

На самом деле важно структурное обучение. Как его оценить? я пока вижу только один критерий, оценивать каждый блок архитектуры и сравнивать их ошибки между собой. Но тут проблема в том, что размеры архитектур у всех разные, сколько внутри блоков. И ни кто не будет раскрывать свои особенности архитектуры.

Тут можно проверить и убедиться, в описанном выше https://t.me/greenruff/2457 и там есть исходники и данные для проверки выше сказанного.

Смысл был в том, что необходимо при обучении постепенно изменять энтропию данных и сложность архитектуры, чтобы она не улавливала шум и мы впустую не тратили время на обучение, того что модель уловить еще не может из-за отсутствия связей на более низких уровнях признаков.

Сейчас как раз пробую автоматизировать этот процесс, чтобы сначала собранные данные были ранжированы правильно для обучения от простых к сложным (по уровню их энтропии) и затем постепенно уже обучаем от простых к сложным. Что-то вроде как учатся дети, когда сначала усваивают простые признаки (буквы, слоги), затем связывают эти признаки в новые слова и так далее. Энтропия, если адаптировать это понятие под речь, связана с расходом энергии на артикуляцию разных звуков и их сочетаний и дальше уже слов, синтагм, предложений и так далее.

Там выложен пример начала обучения LLM с исходниками и данными, чтобы можно было убедится и повторить.

Information

Rating
4,542-nd
Location
Москва, Москва и Московская обл., Россия
Registered
Activity