Комментарии / Профиль boygenius / Хабр

Олег Седухин@boygenius

Machine learning

Подписчики

GigaChat 3 Ultra Preview — тяжёлый open source

boygenius 22 ноя 2025 в 18:37

А ведь пермутации векторов состояний (и всех соответствующих матриц) дадут нулевую корреляцию, несмотря на заимствование весов?

Я не говорю про конкретную модель, интересен сам метод, можем ли мы отследить заимствование весов у чужой модели, если мы не считаем профиль std по слоям (что дает слишком грубый анализ)?

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

boygenius 28 июл 2025 в 05:03

Проект хороший, но пока выглядит так, что проект выложили на Гитхаб и сразу забыли о нем. На issues уже две недели никто не отвечает :(

Как «Писец» на Тотальный диктант ходил

boygenius 15 янв 2025 в 07:05

А какой конкретно алгоритм чанкинга и распознавания вы понимаете под whisper transcription?

Сэм Альтман знает, как достичь AGI. Я тоже, и сейчас расскажу как

boygenius 14 янв 2025 в 21:43

Что меня поражает и должно поражать вас: это очень ровная прямая. Я таких ровных прямых не видел, когда делал лабораторные по физике (возможно, конечно, дело во мне). Именно эта прямая вселяет уверенность, что мы понимаем, как двигаться в сторону AGI.

Сами авторы статьи говорят, что эти прямые должны выйти на плато, потому что loss не может падать бесконечно и ограничен энтропией текста. Самое интересное в статье - авторы сопоставили два закона масштабирования и поняли, что они противоречат друг другу. Где-то за правой границей графика две прямые пересекутся, и дальше качество расти не будет.

The most obvious interpretation is that our scaling laws break down at or before we reach this point, which is still many orders of magnitude away in both compute and model size. One might also conjecture that this intersection point has a deeper meaning. If we cannot increase the model size beyond N ∗ without qualitatively different data requirements, perhaps this means that ... we have extracted all of the reliable information available in natural language data

Это уже довольно противоречит утверждению в посте, что прямая вселяет уверенность в достижении AGI. А вдруг достигнув этой точки качество все еще будет недостаточным для AGI?

Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере

boygenius 28 окт 2024 в 07:59

В итоге моя модель продемонстрировала точность 90,07%

Насколько я помню, такая же точность достигается линейной моделью

Ежегодное исследование IT-брендов работодателей от Хабра и Экопси

boygenius 30 июл 2023 в 14:51

Опрос очень странный:

что значит "знаю компанию"? Если я один раз видел вывеску - знаю я ее или нет?
как можно выбрать лучшего и худшего работодателя? я во всех этих компаниях работал что ли?
как можно рекомендовать или нет? Компания где я работаю кому-то идеально подойдет, кому-то совсем не подойдет, в зависимости от предпочтений конкретного человека, а также отдела и позиции.

«Событие Кэррингтона» 1859 года разрушило телеграфные линии. «Событие Мияке» может стать намного хуже

boygenius 25 июл 2023 в 07:03

Что такое "антарктические ледяные ядра"?

Матирование изображений, или как получить фотореалистичный передний план

boygenius 25 июн 2023 в 15:07

Интересная работа. Вы случайно не занимаетесь few-shot детекцией или сегментацией?

CatBoost, XGBoost и выразительная способность решающих деревьев

boygenius 13 июн 2023 в 06:28

Добрый день, для картинок как раз применяются методы, учитывающие структуру. Можете привести какие-то примеры из табличных данных, где учитывание структуры как-то могло бы помочь модели обучиться лучше, чем на плоском векторе признаков?

Теория вероятностей в машинном обучении. Часть 2: модель классификации

boygenius 10 июн 2023 в 14:27

Добрый день, а в случае классификации вообще непонятно что понимать под дисперсией, это понятие определено для вещественной случайной переменной, а не категориальной.

Остап Бендер из мира нейросетей: как ChatGPT играет в шахматы

boygenius 11 фев 2023 в 16:06

Интересный эксперимент! Могу предложить гипотезу почему ChatGPT со временем начинает путать ходы. Сравним ChatGPT с человеком:

Человек имеет краткосрочную память. С ее помощью он держит в памяти текущую позицию в шахматах, даже если не видит доски.
ChatGPT же не имеет никакой другой памяти, кроме истории диалога (если конечно авторы не добавили в нее какие-то еще механизмы памяти, что маловероятно; с точностью этого сказать нельзя, так как научную статью о ChatGPT не публиковали).

Текущая позиция P_t на доске является функцией от предыдущей позиции P_{t-1} и сделанного хода M_t. Исходная позиция P_0 известна, поэтому $P_t = f(M_t, f(M_{t-1}, f(M_{t-2}, \dots)))$ . Все ходы M_i хранятся в истории диалога, а значит являются входными данными для модели при обдумывании следующего хода. Но, как видно из формулы, глубина графа вычислений, позволяющего вычислить P_t, неограниченно растет с ростом номера хода t. А знать позицию P_t необходимо для обдумывания следующего хода M_{t+1}.

Здесь и возникает принципиальная проблема: глубина графа вычислений в GPT конечна (ограничена числом слоев сети, поскольку GPT - это не рекуррентная сеть), а глубина графа вычислений, необходимого для вычисления текущей позиции P_t из истории ходов, растет неограниченно. Поэтому GPT с какого-то момента перестает понимать текущую позицию на доске, и поэтому делает неправильные ходы.

Возможно, в будущем в модели добавят механизм внутренней памяти, позволяющий держать в памяти результаты неограниченно длинных цепочек действий. Пока что можно попробовать после каждых нескольких ходов просить модель напечатать позицию на доске, это должно решить проблему, поскольку при обдумывании следующего хода модель будет видеть то, что напечатала ранее. Собственно, изначально модель так и предлагала вам играть.

Проблемы современного машинного обучения

boygenius 12 апр 2022 в 13:58

Недавно опубликовали статью о том, что биологическую эволюцию (в том числе эволюцию мозга) можно представить в терминах машинного обучения: https://pubmed.ncbi.nlm.nih.gov/35121666/

Если эволюция смогла что-то создать, то значит есть возможность это повторить, разве нет?

Структурная адаптация, brand-new самоорганизующаяся сеть на палочках и кружочках

boygenius 18 мар 2022 в 14:25

Есть похожая методология искусственного интеллекта - называется "биморф", возможно вас заинтересует.

Проблемы современного машинного обучения

boygenius 15 фев 2022 в 19:02

Звучит интересно, а есть статьи об этой проблеме? По ключевым словам не могу найти.

Как вариант, можно найти способ сделать первые слои нечувствительными к артефактам, возникающим при аугментациях, и затем заморозить эти слои и обучать остальную сеть.

Проблемы современного машинного обучения

boygenius 15 фев 2022 в 11:06

По рентгеновским снимкам взято отсюда (раздел 6), там в свою очередь дается ссылка на эту статью.

Проблемы современного машинного обучения

boygenius 15 фев 2022 в 06:42

Я не минусовал, но и вопроса не понял. Половина статьи посвящена тому, как можно было бы решить проблемы обобщения, и какие ведутся исследования в этом направлении

Проблемы современного машинного обучения

boygenius 14 фев 2022 в 15:47

Не знаю, чем в точности ограничиваются функции зрительной коры, но если под этим понимать встроенное, бессознательное распознавание образов (которое происходит еще до того, как включается логика), то современные системы компьютерного зрения еще не достигли уровня зрительной коры.

Например, мы можем бессознательно распознавать объект на основе его как текстуры, так и формы, и на распознавание очень слабо влияют посторонние объекты и фон. Примеры в статье показывают, что для сверточных нейронных сетей (наверное и для трансформеров) это пока не так.

CatBoost, XGBoost и выразительная способность решающих деревьев

boygenius 12 фев 2022 в 05:49

Каждому листу сопоставляется константный ответ, но в этот лист могут попасть примеры с разными ответами, поэтому в листе функция потерь как правило не нулевая

CatBoost, XGBoost и выразительная способность решающих деревьев

boygenius 22 янв 2022 в 10:30

Привет, полностью согласен, что логично использовать более сложные разделяющие правила. Но время обучения действительно может увеличиться очень сильно, потому что придется перебирать больше вариантв разделения. Как это повлияет на обобщающую способность - не знаю, вообще не встречал нигде обсуждения этого вопроса.

Inductive bias и нейронные сети

boygenius 9 янв 2022 в 08:28

Устоявшегося русского эквивалента по-моему нет. Я бы предложил переводить как "предпочтение индукции".