Как стать автором
Обновить
77
0
Олег Седухин @boygenius

Machine learning

Отправить сообщение

Опрос очень странный:

  1. что значит "знаю компанию"? Если я один раз видел вывеску - знаю я ее или нет?

  2. как можно выбрать лучшего и худшего работодателя? я во всех этих компаниях работал что ли?

  3. как можно рекомендовать или нет? Компания где я работаю кому-то идеально подойдет, кому-то совсем не подойдет, в зависимости от предпочтений конкретного человека, а также отдела и позиции.

Что такое "антарктические ледяные ядра"?

Интересная работа. Вы случайно не занимаетесь few-shot детекцией или сегментацией?

Добрый день, для картинок как раз применяются методы, учитывающие структуру. Можете привести какие-то примеры из табличных данных, где учитывание структуры как-то могло бы помочь модели обучиться лучше, чем на плоском векторе признаков?

Добрый день, а в случае классификации вообще непонятно что понимать под дисперсией, это понятие определено для вещественной случайной переменной, а не категориальной.

Интересный эксперимент! Могу предложить гипотезу почему ChatGPT со временем начинает путать ходы. Сравним ChatGPT с человеком:

  • Человек имеет краткосрочную память. С ее помощью он держит в памяти текущую позицию в шахматах, даже если не видит доски.

  • ChatGPT же не имеет никакой другой памяти, кроме истории диалога (если конечно авторы не добавили в нее какие-то еще механизмы памяти, что маловероятно; с точностью этого сказать нельзя, так как научную статью о ChatGPT не публиковали).

Текущая позиция P_t на доске является функцией от предыдущей позиции P_{t-1} и сделанного хода M_t. Исходная позиция P_0 известна, поэтому P_t = f(M_t, f(M_{t-1}, f(M_{t-2}, \dots))). Все ходы M_i хранятся в истории диалога, а значит являются входными данными для модели при обдумывании следующего хода. Но, как видно из формулы, глубина графа вычислений, позволяющего вычислить P_t, неограниченно растет с ростом номера хода t. А знать позицию P_t необходимо для обдумывания следующего хода M_{t+1}.

Здесь и возникает принципиальная проблема: глубина графа вычислений в GPT конечна (ограничена числом слоев сети, поскольку GPT - это не рекуррентная сеть), а глубина графа вычислений, необходимого для вычисления текущей позиции P_t из истории ходов, растет неограниченно. Поэтому GPT с какого-то момента перестает понимать текущую позицию на доске, и поэтому делает неправильные ходы.

Возможно, в будущем в модели добавят механизм внутренней памяти, позволяющий держать в памяти результаты неограниченно длинных цепочек действий. Пока что можно попробовать после каждых нескольких ходов просить модель напечатать позицию на доске, это должно решить проблему, поскольку при обдумывании следующего хода модель будет видеть то, что напечатала ранее. Собственно, изначально модель так и предлагала вам играть.

Недавно опубликовали статью о том, что биологическую эволюцию (в том числе эволюцию мозга) можно представить в терминах машинного обучения: https://pubmed.ncbi.nlm.nih.gov/35121666/

Если эволюция смогла что-то создать, то значит есть возможность это повторить, разве нет?

Есть похожая методология искусственного интеллекта - называется "биморф", возможно вас заинтересует.

Звучит интересно, а есть статьи об этой проблеме? По ключевым словам не могу найти.

Как вариант, можно найти способ сделать первые слои нечувствительными к артефактам, возникающим при аугментациях, и затем заморозить эти слои и обучать остальную сеть.

По рентгеновским снимкам взято отсюда (раздел 6), там в свою очередь дается ссылка на эту статью.

Я не минусовал, но и вопроса не понял. Половина статьи посвящена тому, как можно было бы решить проблемы обобщения, и какие ведутся исследования в этом направлении

Не знаю, чем в точности ограничиваются функции зрительной коры, но если под этим понимать встроенное, бессознательное распознавание образов (которое происходит еще до того, как включается логика), то современные системы компьютерного зрения еще не достигли уровня зрительной коры.

Например, мы можем бессознательно распознавать объект на основе его как текстуры, так и формы, и на распознавание очень слабо влияют посторонние объекты и фон. Примеры в статье показывают, что для сверточных нейронных сетей (наверное и для трансформеров) это пока не так.

Каждому листу сопоставляется константный ответ, но в этот лист могут попасть примеры с разными ответами, поэтому в листе функция потерь как правило не нулевая

Привет, полностью согласен, что логично использовать более сложные разделяющие правила. Но время обучения действительно может увеличиться очень сильно, потому что придется перебирать больше вариантв разделения. Как это повлияет на обобщающую способность - не знаю, вообще не встречал нигде обсуждения этого вопроса.

Устоявшегося русского эквивалента по-моему нет. Я бы предложил переводить как "предпочтение индукции".

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность