Да, спасибо, изначально так и хотел сделать, но общее решение выглядит логичнее с точки зрения изложения. Имею ввиду, что странно получать общее решение с экспонентами из приближенного, а затем снова раскладывать экспоненту. Но как альтернативный способ добавил.
Здесь никакой ошибки нет. Я описал математическую модель в классическом виде, указав дефолтные размерности для понимания. Затем в новой главе обозначил переход к глубокому обучению, вводя уже параметры, действительно, под старыми обозначениями. В этом и смысл аналогии перехода. Это статья по DL, поэтому и контекст соответствующий. Подскажите, где вы в DL видели матричную экспоненту? :)
С экспонентой действительно можно запутаться, подправил. Хотя в контексте DL обычно ясно, что логарифмическая форма значений параметра используется для лучшей сходимости при обучении.
После параметризации - больше не матрица, а тензор параметров, который задают авторы по своему усмотрению. Идея квадратной матрицы заключалась в том, чтобы отображать скрытое состояние в него же обратно . Здесь логика сохраняется, но уже с дискретным параметром , который при поэлементном умножении в главном цикле Selective scan также сохраняет размерность для .
Сложнее, например, вопрос обстоит с вычислением , которое происходит так:, что не является ни поэлементным, ни матричным умножением. Однако загромождать эти моменты пояснениями не стал, так как это вопрос уже технический.
Это верно для , но для экспонента раскладывается.
Да, спасибо, изначально так и хотел сделать, но общее решение выглядит логичнее с точки
зрения изложения. Имею ввиду, что странно получать общее решение с экспонентами из
приближенного, а затем снова раскладывать экспоненту. Но как альтернативный способ добавил.
Обозначения не поплыли, а были явно переинициализированы в новом контексте с указанием новых размерностей. Словами также проговорено.
Как уже сказано здесь, индекс указывает на индекс элемента тензора вдоль оси :
Соответственно, имеет размерность .
Здесь никакой ошибки нет. Я описал математическую модель в классическом виде, указав дефолтные размерности для понимания. Затем в новой главе обозначил переход к глубокому обучению, вводя уже параметры, действительно, под старыми обозначениями. В этом и смысл аналогии перехода. Это статья по DL, поэтому и контекст соответствующий. Подскажите, где вы в DL видели матричную экспоненту? :)
С экспонентой действительно можно запутаться, подправил. Хотя в контексте DL обычно ясно, что логарифмическая форма значений параметра используется для лучшей сходимости при обучении.
После параметризации - больше не матрица, а тензор параметров, который задают авторы по своему усмотрению. Идея квадратной матрицы заключалась в том, чтобы отображать скрытое состояние в него же обратно . Здесь логика сохраняется, но уже с дискретным параметром , который при поэлементном умножении в главном цикле Selective scan также сохраняет размерность для .
Сложнее, например, вопрос обстоит с вычислением , которое происходит так:, что не является ни поэлементным, ни матричным умножением. Однако загромождать эти моменты пояснениями не стал, так как это вопрос уже технический.
Спасибо за обратную связь, подумаю как исправить. Про обозначения не совсем понял.
Уже в процессе, спасибо!
Действительно, спасибо!