Комментарии / Профиль kashokhin / Хабр

Кирилл Шохин @kashokhin

Computer Vision Engineer

ПрофильСтатьи1ПостыНовостиКомментарии9

Mamba. От начала до конца

kashokhin 18 янв 2024 в 20:00

Это верно для $\overline{\boldsymbol{A}}$ , но для $\overline{\boldsymbol{B}}$ экспонента раскладывается.

Посмотреть

Mamba. От начала до конца

kashokhin 18 янв 2024 в 11:59

Да, спасибо, изначально так и хотел сделать, но общее решение выглядит логичнее с точки
зрения изложения. Имею ввиду, что странно получать общее решение с экспонентами из
приближенного, а затем снова раскладывать экспоненту. Но как альтернативный способ добавил.

Посмотреть

Mamba. От начала до конца

kashokhin 15 янв 2024 в 19:13

Обозначения не поплыли, а были явно переинициализированы в новом контексте с указанием новых размерностей. Словами также проговорено.

Посмотреть

Mamba. От начала до конца

kashokhin 15 янв 2024 в 18:52

Как уже сказано здесь, индекс указывает на индекс элемента тензора вдоль оси :

В цикле по вдоль оси (по каждому токену) пересчет всех скрытых состояний $\boldsymbol{h}$ и соответствующих им выходов $\boldsymbol{y}$ :

Соответственно, $\overline{A_t}$ имеет размерность $(b, d_{in}, N)$ .

Посмотреть

Mamba. От начала до конца

kashokhin 15 янв 2024 в 18:43

Здесь никакой ошибки нет. Я описал математическую модель в классическом виде, указав дефолтные размерности для понимания. Затем в новой главе обозначил переход к глубокому обучению, вводя уже параметры, действительно, под старыми обозначениями. В этом и смысл аналогии перехода. Это статья по DL, поэтому и контекст соответствующий. Подскажите, где вы в DL видели матричную экспоненту? :)

Посмотреть

Mamba. От начала до конца

kashokhin 15 янв 2024 в 12:21

С экспонентой действительно можно запутаться, подправил. Хотя в контексте DL обычно ясно, что логарифмическая форма значений параметра используется для лучшей сходимости при обучении.

После параметризации - больше не матрица, а тензор параметров, который задают авторы по своему усмотрению. Идея квадратной матрицы заключалась в том, чтобы отображать скрытое состояние $\boldsymbol{h}$ в него же обратно . Здесь логика сохраняется, но уже с дискретным параметром $\overline{A_t}$ , который при поэлементном умножении в главном цикле Selective scan также сохраняет размерность для $\boldsymbol{h}$ .

Сложнее, например, вопрос обстоит с вычислением $\overline{A}$ , которое происходит так: $(b, L, d_{in})(d_{in}, N) \rightarrow (b, L, d_{in}, N)$ , что не является ни поэлементным, ни матричным умножением. Однако загромождать эти моменты пояснениями не стал, так как это вопрос уже технический.