Restricted Boltzmann Machine — физика для рекомендательных систем / Комментарии / Хабр

al-petrushin 16 ноя 2021 в 22:06

Извиняюсь за задержку в ответе. Что касается вопросов:

Было бы здорово, если бы Автор добавил в статью результат использования описанной им сетки на каком-нибудь изученном с помощью других подходов примере (тот же нетфликс), а затем сравнил качество нового и старых методов.

Здесь, как и во многих других задачах машинного обучения, нет истинно верного или не верного подхода: нужно смотреть на разреженность матрицы оценок, тематику, наличие и количество скрытых факторов предпочтений пользователей. И уже после проведенного исследования над данными выбирать нужных подход. Кроме того, такие большие дяди как Netflix могут совмещать несколько подходов в одном, например сначала проходить ALS и вычленять поверхностные скрытые единицы и далее использовать deep dive и базы знаний для определения более глубоких предпочтений юзеров. Кроме того, целью данной работы была математика, а не практическая реализация. Надеюсь в будущем, я сделаю несколько статей о практике, но пока вы можете обратиться к репозиторию Microsoft, где представлено много подходов (в том числе и этот) и значения метрик качества ранжирования на одном датасете.

Для не физиков не совсем понятно место со свободной энергией. Почему минимизируют ее. Почему гамильтониан именно такой?

Свободная энергия касательно ИИ - это очень сложный вопрос, сказать честно, но ее минимизация формально связана с вариационными байесовскими методами и первоначально была введена Карлом Фристоном. Причем Фристон был неврологом и пытался описать исследования в своей области. А вот в физике это термодинамический потенциал и чем ее меньше, тем больше работы приложенной на тело. То есть очень грубо говоря, чем меньше свободной энергии, тем больше энергии в системе. Но, возвращаясь к ИИ и неврологии, когда система активно проводит исследование предметной области, чтобы минимизировать свободную энергию, она неявно выполняет активный вывод и максимизирует доказательства.
Что касается гамильнониана, то он такой, потому, что описывает поведение двух наборов стохастических векторов, плюс он принимает скрытые факторы, которые мы не просто хотим изучить, а для некоторых объектов их "включать-выключать". Мне кажется, авторы подхода пробовали большое количество вариаций и пришли к идеальной модели. То есть, отвечая на ваш вопрос, он такой, потому что включая все вводные он работал лучше других.

Комментарии 4

shok96 31 июл 2021 в 10:50

Сильно много Null получается

al-petrushin 31 июл 2021 в 11:50

Да, была небольшая проблема с формулами из-за чего они ломались. Сейчас вроде все исправил.

Sergey_Kovalenko 1 авг 2021 в 07:11

Все познается в сравнении. Было бы здорово, если бы Автор добавил в статью результат использования описанной им сетки на каком-нибудь изученном с помощью других подходов примере (тот же нетфликс), а затем сравнил качество нового и старых методов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий