Обновить
60
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

0,1
Рейтинг
23
Подписчики
Отправить сообщение

Что касается описанного подхода ASD, то модель "учёный - испытуемый" в том виде, как сейчас имеет ряд серьезных проблем:

1) Слепота к собственным ошибкам:

Модель может некорректно оценивать свои ответы, если ошибка заложена в её внутренних паттернах. Например, если "испытуемый" неправильно выполняет арифметические операции, модель-оценщик (даже такой же версией) может не заметить ошибку из-за "слепых зон".

Тот же GPT-4 иногда ошибается в многошаговых вычислениях и рассуждениях, и если оценка проводится через него же, то ошибка может остаться незамеченной.

2) Предвзятость при генерации задач:

Модель-учёный может часто генерировать задачи, которые соответствуют её сильным данным, игнорируя слабые. Например, если модель хуже справляется с логическими задачами, она будет создавать меньше таких задач, что искажает оценку.

К примеру Claude, обученный на диалогах, будет генерировать больше задач на понимание текста и меньше на математику.

3) Циклическая ошибка:

Если учёный и испытуемый — одна модель, ошибки могут усиливаться. Например, систематическая ошибка в определении контекста будет продолжать воспроизводиться на всех этапах.

4) Проблемы с генерацией архива задач

Пример неудачной задачи: Задача "Назовите цвет неба" легко может быть добавлена в архив, хотя она не раскрывает реальных возможностей модели и по-сути будет мусором.

5) Ограничения метрик

Например задача "Сложите 2 и 3" и "Прибавьте 3 к 2" будут расценены как разные задачи, хотя проверяют один навык.

6) Игнорирование нюансов контекста

В какои то творческом задании модель может дать формально правильный, но бессмысленный ответ, который ACD пометит как "успешный". Тут на Хабре очень любят обсуждение таких ответов и определение верно или нет.

7) Риск переобучения

Если ASD генерирует задачи, похожие на обучающие данные. Это когда модель-учёный генерирует задачи, близкие к тем, что были в датасете испытуемого, оценка может быть завышена.

Для примера если Llama3 обучалась на GitHub-коде, задачи на генерацию кода будут для неё "лёгкими", но это не отразит её реальные способности решать новые проблемы.

То есть часть задач можно решить. Поэтому подход использовать много разных арбитров с разными LLM часть этих проблем решает.

https://t.me/greenruff/1756

Сейчас как раз для себя делаю другую модель, где сетки занимаются оценкой. Давно предложил и проверил ее, так как она уменьшает галлюцинации и позволяет находить более точный ответ. Там прикладывал исходники.

Когда несколько моделей выступают арбитрами и оценивают ответы других и так же дают оценку причинам их ответа. Где в итоге, побеждает та модель, которая набрала больше всего баллов.

То есть в отличие от данной модели "Учёный - испытуемый", в случае когда арбитры, нет конкретного ученого или испытуемого. Каждая является ученым по отношению к другим, и испытуемым для других. Это действительно сильно повышало качество, но требует значительных ресурсов по времени и запросам.

Собственно сейчас тоже ради этого, генерирую "виккипедию" данным образом, чтобы потом получить качественный датасет для обучения. А заодно проверить подход на крупных данных.
Так что для таких вещей, описанный метод очень не плох, но имеет некоторые проблемы собственной самооценкой (если используем только "Учёный - испытуемый").

Мы обсуждаем отсутствие в LLM аналогов биологических процессов (гистерезис, таламическая фильтрация). Если вы утверждаете, что это уже есть — назовите конкретные архитектурные решения или исследования.

Я не готов объяснять, вам то, что вы сами не желаете изучить. Ко мне периодически приходят и пытаются доказать свое субъективное мнение. Поэтому не готов тратить свое время на человека, который не удосужился хотя бы поверхностно изучить, то о чем пишет.

Недавно попытался подобным образом объяснить одному (как вы писал поток сознания), расписать исследования о связи искусственных нейронных сетей и живых нейронов. Но это просто пустая трата времени.

https://t.me/greenruff/2165?comment=7188

Скажите, сколько км может прилететь квадрокоптер на одном заряде? Птицы могут пролететь без остановке до 12000 км несколько суток.

Напомните мне: дальность полета, длительность полета и энергоэффективность квадрокоптера.

Может вы тогда сравните с гидрой по долгожительству? Закрыв глаза на все остальные факторы и влияние среды?

А как квадракоптер справляется в холодное время суток? Неужели перья птиц, кроме аэродинамики выполняют ещё роль терморегуляции? Не может быть, компромисс сочетания нескольких сложных функций, ради достижения максимальной эффективности энтропии.

Когда вы вырываете из контекста одну функцию, и затем сравнивает ее с более универсальный системой - это называется манипуляция.

Тут немного описал это. Так же описывал в комментариях на хабре

https://habr.com/ru/companies/wunderfund/articles/894100/comments/#comment_28086760

То есть это работа механизма нейронов, которая включает в себя

  • повторяет адаптацию нейронов к устойчивым стимулам.

  • подавление шума, случайные флуктуации гасятся быстрее, чем значимые сигналы.

В реальном мозге нейроны обладают инерцией. Их активность не меняется мгновенно, а зависит от истории входных сигналов. Например, длительная стимуляция приводит к адаптации (замедленной реакции), а внезапное исчезновение сигнала даёт быстрое торможение.

Биологический аналог — деполяризация и гиперполяризация

  • При стимуляции порог активации нейрона может меняться (например, в зрительной коре — эффект усталости нейрона).

  • Если стимул долго действует, нейрон теряет чувствительность (адаптация).

  • Если стимул исчезает, он быстро переходит в состояние покоя.

  • Это как раз и есть гистерезис: рост медленный, спад быстрый.

https://t.me/greenruff/2170?single

Но изначально, я опирался на работу глиальных клеток и гомеостаза в них. Но там он происходит более медленно. А вот на уровне нейронов гистерезис работает постоянно и быстро.

Это связано с динамикой ионных каналов, где работает быстрее, другие медленнее. Что приводит к петле гистерезис: когда скорость подъема и падения не симметричная. Данный механизм, позволяет фильтровать шумы хоть на уровне нейронов, хоть на уровне глиальных клеток, хоть на гормональном уровне. Так как присутствует везде, даже в от биологии до электроники.

Этого достаточно для частичной реализации. Но флуктуации в хаотичных системах не имеют нормального распределения, а описаны фазовым пространством системы (теория хаоса).

https://t.me/greenruff/2021

Для пример, анализ речи который я делал, на основе градиентов (колебания пиков и движений артикуляторное во время речи).

Визуально это похоже на нормальное распределение, но в реальности расчеты показывают, что фазовое пространство (в рамках которого мы и получаем эти флуктуации) речи не имеет нормального распределения. В первом приближении ГСПЧ конечно подойдет, но конечно он не даст такого результата, который могут дать квантовые компьютеры, где флуктуации это их основа.

Речь просто пример такой хаотической системы. Точно так же какой являются нейроны, и множество других биологических процессов как на низком уровне, так и на верхнем уровне абстракции (вплоть до предсказания погоды). И тут ГСПЧ бесполезен, так как дает нормальное распределение, в то время как флуктуации хоть и похожи на нормальное распределение, но ими не являются.

Постараюсь прояснить свою позицию:

Механизмы, о которых я говорил, включая гистерезис, — это не абстрактные идеи, а конкретные биологические процессы. Например, гистерезис в нейронах относится к асимметрии между скоростью активации (медленный рост сигнала) и деактивации (быстрый спад). Это физическое свойство помогает мозгу фильтровать шумы и выделять устойчивые паттерны. В текущих LLM такого механизма нет: обработка токенов не учитывает временную асимметрию сигналов, а предсказания строятся на статической трансформации входных данных.

Вы выражаете субъективные утверждения («специалисты уже не мыслят в категории ошибок», «всё это уже есть»), но не привели ни конкретных примеров, ни ссылок на архитектуры или исследования, которые реализуют упомянутые биологически механизмы.

  • Как в современных LLM эмулируется роль таламуса в фильтрации сигналов?

  • Где в трансформерах аналог динамического переноса контекста из кратковременной в долговременную память без перепрогона всей модели?

  • Какие компоненты LLM отвечают за асимметрию обработки сигналов (гистерезис) или модуляцию выходных данных через лимбическую «эмоциональную» систему?

Конструктивный диалог требует конкретики. Если вы утверждаете, что эти механизмы уже реализованы, было бы полезно услышать:

  • Ссылки на нейробиологические исследования.

  • Примеры искусственных сетей, где учтены, например, слои, аналогичные неокортексу (с предсказанием локальных ошибок) или таламусу (с динамической фильтрацией).

  • Как «самоконтроль» или «самоанализ» в LLM соотносятся с рекуррентной обратной связью мозга, где выход системы постоянно переоценивается на основе новых входных данных.

Поверхностные аналогии (вроде механизма внимания и состязательных сетей) не эквивалентны биологической сложности. Например, внимание в LLM работает с признаками, но не модулирует выходные сигналы через контекст, как это делает мозг. Если у вас есть данные, опровергающие это, давайте обсудим их предметно.

Не совсем, просто про них нет громких заявлений.

1) Ошибка предсказания нейронов - это основа всех исследований в нейробиологии как на живых клетках, так и искусственных. Тут как фундаментальные исследования, так и локальные. Так же как и разработка влияния аналога дофамина на каждый блок архитектуры. Но для конечного пользователя это проходит мимо, так как там преследуются академические задачи и их не сильно волнует, можно на этом построить LLM или нет. Но много важных работ (но все они от 1950 до 2018 года)

2) Работы над таламус я пока видел разве только у DeepMind и еще тут. Но у них костяк это нейробиологии и уже следом идут инженеры. Собственно один из основателей DeepMind и получил Нобелевскую по нейронкам. Именно они разработали в свое время AlphaGo и AlphaZero (которые победили гроссмейстера в шахматах). Как и сейчас их модели Flamingo и Perceiver IO, которые являются мультимодальными и пожалуй единственными в своем роде.

3) Динамические системы тоже есть, точнее над ними работают. Название по памяти не вспомню, так как там исследуют конкретно динамику моделей без особой привязки к остальному.

4) временные компоненты это спайковые сетки, ordinary differential equation (ODE) как более точные модели нейронов чем спайки используемые зарубежными нейробиологами. Ну и конечно State Space Models (SMM), более новые подходы хранящие временную составляющую в скрытых состояниях (S4D, Mamba, H3 и другие), которые только набирают обороты и получили большой скачек в 2024 году и постепенно идущие на замену трансформерам в качестве гибридов с ними.

И так по всем пунктам. Но подобным ни кто не интересуется, кроме очень редких и узких специалистов (в России я таких не встречал пока что). Так как людям гораздо интересней обсуждать что ответила новая модель, а не их фундаментальные проблемы и их решения.

Я не против бенчмарков. Проблема тут в том, что компании грешат тем, что просто тренируют свои модели на них. Это как обучить модель на датасете, а затем проверить как она с ним справиться. Для этого обычно делается тестовый датасет. Но в данном случае, данные из бенчмарков используются как те же датасеты. И таким образом мы не знаем, модель научилась обобщать эти данные и нашла важные признаки или же просто обучилась этим данным. Так как объем данных в таких бенчмарков не велик, то я сомневаюсь, что модели реально могут научиться обобщать сложные признаки в этих данных. Поэтому я с большим подозрением отношусь к этим оценках и предпочитаю проверять модели под свои задачи самостоятельно не опираясь на оценки, это более надежно.

Бенчмарки измеряют узкую специализацию моделей, а не общий интеллект или способность к абстракции. Это особенно актуально, если тестовые данные становятся частью обучающего набора (проблема "утечки данных"). Текущий подход напоминает оптимизацию под конкретные задачи, а не создание универсальных систем. Это может завести в тупик, если не сопровождается фундаментальными прорывами.

Но вы так же правы, что без стандартизированных тестов сравнение моделей превращается в субъективные споры. И безусловно не все новые подходы ведут к успеху, как к примеру тупиковые в свое время "Капсульная нейронная сеть".

Проблема в том, что погоня и засилие бенчмарками могут тормозить развитие. Новые подходы часто требуют времени для адаптации. Трансформеры тоже сначала уступали LSTM в некоторых задачах.

Вопрос: у нас есть матрица A размером [B, C, T], мы хотим сделать С = A@D, чтобы С была размером [B, C, T].
Вопрос: у нас есть матрица A размером [B, C, T], мы хотим сделать С = A@D, чтобы С была размером [B, C, T].

Для пример, Сбер "GigaChat-2 Max" выпустил недавно статью про свои бенчмарки, где они превзошли по каким-то пунктам другие.

https://habr.com/ru/companies/sberdevices/articles/890552/

А что толку? Первый же вопрос не по бенчмаркам, выдал полную ахинею. Так как в погоне за цифрами, они проигнорировали проблемы. И этим грешат все крупные модели, когда главным показателем является оценка по бенчмаркам.

Я хочу донести идею, что бенчмарков не достаточно для оценки. Охранник в магазине может быть очень эрудирован и превосходно разгадывать кроссворды, и возможно победит в бенчмарках по кроссвордам. Но этого не достаточно для оценки сложности его мышления. А дает лишь оценку его начитанности.

Чтобы постараться подробнее объяснить как это сделать, специально вчера после вашей статьи описал подробно данный метод, который позволяет переключить предсказание токенов LLM на нужный стиль.

https://t.me/greenruff/2232

Надеюсь это поможет в вам исследовать разное поведение в рамках ваших примеров. В основе лежит основа LLM учитывать прежние токены для предсказания следующих. За счет этого мы переключаем маршруты предсказания в нужное нам направление. В данном случае, расширяя это до возможности задания "характера" и стиля общения. Таким образом предсказания идет в рамках данного паттерна поведения, которые были извлечены моделью из текстов при ее обучении.

Хотите расширить ваш эксперимент? Можно придать ллм разный характер . Делается это через микродиалоги. Например, если вы хотите смоделировать агрессивное поведение, то вставляете перед вашим диалогом микродиалог. Например:

Предскажи бла бла бла

Ответ: выбор 1

В случае с микродиалоги:

Мы: ты сволочь тупая

Модель: ты сам тупой как пробка

Мы: предскажи бла бла бла

Ответ: выбор 67

Мы вставили микродиалог. Промпт тут не поможет. Проверено, модель потеряет суть требований. А так мы модулируем ее характер

Почему это работает? Дело в том, что тексты содержат результат реальной работы нашего мозга учитывающий борьбу за доминирование лобной доли и лимбической системы.

Мы таким образом настраиваем модель предсказывать именно данное поведение, на основе обученных данных для данного поведения, когда например лимбическая система взяла верх на лобной долей. И последующие предсказания будут нацелены на предсказание именно данного поведения.

Тем больше будет микродиалог, тем точнее модель сможет предсказать данное поведение.

Когда я делал, то такие микродиалоги были на каждом шаге диалога. Они не видны пользователю. По тексту мы предсказываем эмоциональный контекст. Затем у нас есть таблица с микродиалогами для каждой эмоции. И для каждого шага мы берём конкретный микродиалог прописанный для данной эмоции (он должен быть абстрактным).

В рамках вашей данной модели, где мы моделируем разные характеры участников интересно было бы увидеть, как измениться конечный результат эксперимента. Так как в реальности, мы прогнозируем поведение разнородной толпы. Это сделает эксперимент более чистым и правдоподобным.

Для этого они должны

1) уметь предсказывать не только глобальную ошибку на датасете (аналог базальных ганглий с подкреплением дофамина), но и локальные (у неокортекса есть в каждой области есть слой 6, отвечающий за предсказание и корректировку локальной ошибки)

2) учитывать модуляцию сигнала (в сетках называется механизм внимания) не только на связи признаков , но и на обращение результата (слой 5 и модуляция других зон мозга). Это значит, если контекст связан с эмоциями, то в результате лимбическая система усиливает сигналы эмоционального планка описывающие текст. Но если преобладает моторная область (двигает рукой), то упор будет на сигналы соответствующие моторному контексту. Если с телом, то теменная зона. Если зрение или слух то аналогично. Если мы голодные, то усилиться сигналы связанные с этим в контексте. А не как сейчас случайно выбираем токен в обобщенных признаках. Сейчас в llm за обобщение отвечает FFN, а он ни как не регулируется, тупо обобщает признаки.

3) нет учёта фильтрации сигналов, как в таламусе . У него есть релейные нейроны, задача которых фильтровать сигнал, чтобы усиливать только важные. Этого вообще нет в ллм.

4) нет динамических систем предсказания. После обучения система статическая. Поэтому не способна изменять состояние, в рамках контекста. И его надо прогонять весь целиком снова и снова. А это важно, так как у нас есть механизм переноса динамического контекста в статический (кратковременная и долговременная память).

5) нет ни какой реализации теменной зоны. Которая у человека отвечает за связь себя и тела и отделением от внешнего мира. Это позволяет нам производить внутренний анализ

6) нет обратной связи, то есть конечный сигнал потом идёт на вход. Что позволяет нам рефлексировать. В текущих llm это все ограничено текущим контекстным окном и мы каждый раз прогоняем всю цепочку снова и снова.

7) нет учёта временной компоненты в ллм, которая играет важную роль через ритмы. Разделяя на слоги, слова, связывая разные сенсорные сигналы зрения и текста через усиления важных в контексте. Когда амплитуда совпадает, это усиливает значимость данного сигнала

8) нет учёта гистерезиса, когда рост и падение сигнала ассиситричны. То есть спад идёт быстрее, а рост медленнее. Это позволяет отсеивать шумы в сигналах

9) нет внутренней флуктуации, важного свойства хаотичных систем. Которые так же играют важную роль в предсказаниях и обобщении признаков

Я могу долго перечислять этот список. А пока llm это отличный инструмент для обобщения данных и поиска связей в этих обобщенных данных. Но к ИИ это не имеет ни какого отношения, ник слабому ни к сильному.

Эти тесты показывают лишь одно. На сколько хорошо модель проходит эти тесты и как хорошо обучена им.

Сегодня это будет 90% успеха. Завтра 90% успехов успеха на новых, когда другие ниже. Все потому что в эти тестовые данные добавляются новые примеры. Это бесконечная гонка за фиктивными показателями. Которые указывают только то, на сколько хорошо модель справляется данным датасетом тестов. Завтра обучат на них и показатель вырастет.

Но это не меняет суть проблемы. Так как потом будут новые примеры и новые показатели.

Фундаментальной проблемы это не решает. Так как модель учиться обобщать эти данные, а не предсказывать их правильно. Без фундаментальных изменений архитектуры, это бесконечная гонка за неуловимым Джо.

Поэтому хочется больше статей не о бачмейках, а о фундаментальных работах о новых подходов. Как к примеру делал Deepseek с матрицами внимания, как продвигаются работы над спайковыми сетями, над ssm с их временными параметрами на примере s4d/h3/mamba, гибриды и так далее.

Вот таких статей чертовски не хватает на хватает на Хабре.

Я имею ввиду, что более подробно по ним. Так как сейчас в данных статьях все смешано и про все чуть чуть. Лучше было описано подробно с примерами. Например мы «волк», на сайт заходит «овцы» и мыс читаем овец. Проверим гипотезу что волк уснет на 10 овце на основе наших A/B тестов. Спрогнозируем результат, на какой овце уснет другой волк.

Понятно что я утрирую. Но я к тому, чтобы не мешать все в одну кучу. Убрать мат часть, а сделать именно понятный конкретный пример. Можно вместо волка и овец, клики на разные разделы страницы по ссылке или выбор товара или что угодно. Но по конкретным частям. Сейчас в тех статьях этого наглядного разбора очень не хватает. Там все сразу в одной куче. Сделайте прям отдельную статью по одному вашему примеру. Без лишнего матана (там проще ссылку дать на прежние статьи), без рисования матриц... вот задача, решаем ее через наше решение, и наглядное (не математическое) описание решения через фреймворк. Мы же не мат анализ изучаем тут.

https://youtu.be/zc5NTeJbk-k?si=YHUIwUGyVKjFubq_

Для примера, как чудесно тут объясняют авторегрессионные и диффузионные модели, при этом не используя кучу математики, которая в данном случае излишне. А именно наглядно. Так что надеюсь, что вы сделаете подобным образом разор и своих фреймворков.

Опишите про это в статье. Сейчас лезть и разбирать не хочется. Не потому, что там плохо или не нужно. А потому, что не понятно, что это даст и точно ли это нужно и облегчит какие-то задачи.

Напишите об этом статьи. Где раскройте потенциал данных репозиториев. Примеры, результаты, что это и для чего. А то получается, что вроде у компании есть какие-то репозитории. Но в блоге самой компании выходит такая статья, которая несет 0 ценности. А могла бы быть полезной, описав разбор ваших же репозиториев.

"если этот разброс обусловлен входными данными, то именно они являются причиной, воспроизводят вариативность на выходе. " - это так не работает. внутренние флуктуации - это одно свойство хаотичной системы, если их нет, то мы не можем назвать систему хаотичной. Входные данные так же вносят динамику, но внутренние флуктуации - это именно свойство хаотических системы в теории хаоса. Поэтому если мы обучаем на каком-то наборе данных, то при игнорировании внутренних флуктуаций любой хаотичной системы, мы приходим к переобучению. Переобучение в данном случае означает, что система научилась предсказывать конкретные данные, игнорируя вариативность. Поэтому всегда надо вводить флуктуации при обучении. И исследования выше говорят о том, что средняя ошибка была 18%. Другие похожие современные исследования, дают схожие результаты на примере исследований рака в доклинических исследованиях

https://pmc.ncbi.nlm.nih.gov/articles/PMC8168858/

Я утверждаю, что вариация это свойство системы и она остается всегда. Точно так же скачет выше или ниже, отсюда и получаем закон Вебера, когда биологическая система обучается считать шумом и обобщать, все что ниже уровня флуктуации.

От увеличения модели вариативность не падает. Вы путаете бред и галлюцинации. Это совершенно разные вещи. Вы можете хоть до триллиона увеличить размер модели, у вас не упадет вариативность. Она ни куда не денется. Причина? Причина в том, что трак устроен трансформер лежащий обычно в основе LLM. В нем головы находят признаки и связи между ними, связывая через модуляцию сигнала (Softmax), в то время как обобщение найденных признаков происходит в слое FFN. Это похоже на слой 5 неокортекса, где тоже происходит обобщение слоев 2 и 3, которые находят признаки. Только в реальном слое 5 он так же регулируется через модуляцию. А в случае трансформеров этого нет. Вы просто обобщили связи, правильный выбор зависит от контекста, который должен происходит через модуляцию. Условно говоря, что если вы движете рукой, то в обобщении будут выбраны слова связаны с моторикой (иметь больший вес), если эмоциональная часть то эмоциональные слова и так далее. Это вносит вариативность.

Не важна какая сейчас доминантная парадигма моделей. У вас же по вашей же ссылке даже написано "Неустранимая ошибка " как про один из параметров о котором я говорю.

Насчет про вариативность и глупость в корне не согласен. Насчет гипотезы масштабирования, тут опять же это теория хаоса. Но чем больше масштабирование, тем больше вариативность. Она просто увеличивается. Будет у вас модель на триллион, будет вариативность ошибка на условных 10%. Это никуда не денется, пока вы работаете с динамическими системами.

слева обучение без флуктуаций, справа обучение с флуктуациями
слева обучение без флуктуаций, справа обучение с флуктуациями

Вот вам наглядный пример, чтобы учесть вариативность и внутренние флуктуации системы, я переписал функции активации, нормализации, Softmax и другие. Чтобы они учитывали правильно внутреннюю флуктуацию системы. Как итог, слева обучение стандартными функциями, справа учитывающие флуктуацию. В случае учета флуктуации, система учится находит и обобщать, конкретные признаки (в данном случае гамматон фильтры). Внутренняя флуктуация имеет еще одно важное свойство, она не позволяет системе переобучиться, заставляя ее именно обобщать.

То что вы пишете про детализацию, тут смешано и выделение конкретных признаков (а это как раз то что вы описали в статье) и сложность системы. Но это два разных понятия. Сложность в данном случае - это набор признаков. Поэтому детализация в вашем описании приводящая к сложности, это как уточнение конкретного признака так расширение множества признаков. Например, вы учитесь распознавать уши - это выделение признака. А потом вы решили расширить, чтобы лучше определяла уши человека, животного, птицы - и таким образом расширили признаки, так как теперь вам надо учитывать еще и признак "человек", "животное", "птица" и так далее. Вы получили уже группу признаков. Но для каждого отдельно взятого признака необходимо учитывать хаотичность системы, о которой и приводил статьи выше и на чем строится теория хаоса. И как бы вы не поднимались или не опускали на уровни детализации (до типов объектов с ушами или просто всех ушей) - у вас ошибка все равно будет колебаться на описанном выше уровне. Это и есть неустранимая ошибка.

Не понимаю, написано что вы "Руководитель центра R&D Big Data в МТС Диджитал". При этом статья вообще ни о чем про "Мир во всем мире", высосана из пальца.

Не ужели нельзя написать о чем-то полезном? Что за R&D проводите, какие результаты. Что изменили? Или цель статьи - это KPI внутри компании?

У вас же есть репозитории МТС
https://github.com/MobileTeleSystems/RecTools
https://github.com/MobileTeleSystems/Ambrosia
https://github.com/MobileTeleSystems/CoolGraph

Почему не описать их? Сейчас они больше похожи на внутреннюю документацию, и не очень понятно для чего они нужны. Почему стоит использовать их, а не взять другие готовые вещи?
Я к тому, чтобы описать. Это реализации описанных решений или это лично МТС решения на основе ваших R&D.

А то вся эти общая мишура про дистилляцию имеет нулевую ценность.

Пример с гамматон фильтрами, сверху целевая и снизу полученная
Пример с гамматон фильтрами, сверху целевая и снизу полученная

Насчет выделения классов, они же признаки. Используйте петлю гистерезис, для усиления признаков и убирания шума.

  • Гистерезис может подавлять шум за счет инерционности (сглаживание резких изменений).

  • Усиление слабых признаков, где важна информация в зашумленных участках. Но не подавляет слабые признаки, а наоборот, подтягивает их до среднего уровня.

  • Выделяет и усиливает те признаки, которые уже были сильными.

Это ведёт к тому, что слабые признаки не исчезают, а становятся более заметными. При этом это не особо усиливает шум, так как из за колебаний, он будет всегда оставаться на низком уровне.

Данное регулирование достигается за счет регулирования скорости "роста" и "спада" сигнала, имитируя инерционность. Если это шум, то колебания будут постоянными и хаотичными, что приводит к тому, что сигнал всегда быстро спадает. В то время как для признаков, сигнал будет постепенно более медленно увеличиваться, подтверждая наличие признака, что приводит к его более сильному выделению на фоне шума. Достигается это введением разной скорости регулирования при росте и спаде сигнала, как в случае гомеостаза.

Вот такой разбор хотелось бы видеть в статье. А не просто. кусок кода, определение термина. Что я могу получить от такой подачи? Набор общих штампов и терминов, оторванные куски кода? Лучше оставьте какой то один пункт и подробно, наглядно разберите его даже ради рекламы, чем просто накидать гору текста.

Сид влияет на выбор выходного результата, а я имел ввиду про обнаружение признаков. Можете объяснить это утверждение " можно утверждать что данные воспроизводят вариативность инференса "? На чем вы строите это утверждение? Не очень пока понимаю.

"Сегодня почти все модели недоучены. " - так в динамической хаотичной среде не существует точки, когда мы можем считать, что полностью обучили процессу. Так как иначе это уже не хаотичная система. Но не понял как вы связали предвзятость и вариативность.

Про сложность модели и объема данных. Тоже не совсем понял, модель просто выделит признаки в нем. Она не должна уметь выделять все множество разнообразий признаков. Но она должна уметь обобщать конкретные признаки.

Не понял, что вы имеете ввиду, говоря что вариативность маскирует глупость? И почему принцип неопределенности считаете глупостью? Вариативность это часть динамических систем, и без нее вы просто не сможете качественно обучить систему. Сид это не про вариативность, это статическая величина (во время работы).

Информация

В рейтинге
4 563-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность