anikengur Mar 19 2025 at 00:54

Пишем свой Transformer

12 min

7.2K

Machine learning * Mathematics * Artificial Intelligence

+20

Comments 18

MzMz Mar 19 2025 at 01:14

Отличная статья! Трансформер собрали, а обучить?

anikengur Mar 19 2025 at 01:16

Спасибо! Еще не обучала. Тестировала на случайных тезорах разных размерностей для того чтобы убедиться, что с размерностями на слоях все хорошо.

nikolz Mar 19 2025 at 02:18

Чем Ваша статья отличается от этой от 2023 года:

https://uproger.com/sozdajte-transformera-s-nulya-s-pomoshhyu-pytorch/

dan_sw Mar 19 2025 at 04:15

Может быть более подробным изложением? Или хотя бы программным кодом? Отличий здесь явно много. В данной статье есть математические пояснения и доработка изображений классического трансформера, которое где угодно сейчас можно уже найти. В приведённой Вами статье нет и этого. Просто "сухой гайд" с кодом и небольшими комментариями к нему.

nikolz Mar 19 2025 at 04:33

Полагаю будет хорошим тоном, если дать ссылку на указанный пост и Ваши пояснения в начале статьи.

dan_sw Mar 19 2025 at 05:53

Не думаю, что это хорошая идея. В этом был бы смысл, если бы я так называемую "рецензию" к этой статье написал в виде комментария или хотя бы более подробно указал на различия (или дополнил статью). Я просто на самых внешних различиях акцентировал внимание, не более.

Sanek000 Mar 19 2025 at 11:09

Я не понял, кто статью писал. Ты или автор.

dan_sw Mar 19 2025 at 21:19

Конечно же не я. Какие тут могут быть вообще сомнения? Достаточно посмотреть на шапку профиля, чтобы понять кто статью писал.

Статья интересная и классная, потому я решил, просто как читатель, написать свой комментарий к комментарию выше с целью ответа на вопрос "в чём же отличие этой статьи от другой", хоть и прошёлся по верхам.

Sanek000 Mar 19 2025 at 21:21

Ты просто от первого лица писал, будто бы ты автор. Ну мало ли, может зашел молодой человек этой дамы, помогавший писать статью

dan_sw Mar 19 2025 at 21:26

Я вообще не понимаю, как это всё связано. Я не писал от лица автора ни в коем случае, я всегда пишу конкретно от себя. Выражаю своё мнение, не более.

По-моему, так почти все комментарии пишут, разве нет? Ну, т.е. тебя заинтересовал какой-то вопрос в комментах, а ты решил на него ответить. От себя самого, а не автора.

Sanek000 Mar 19 2025 at 21:28

Перечитал, да все так. В первый раз неправильно понял

Jijiki Mar 19 2025 at 06:35

а на сколько быстро происходят эти вычисления?), какая нагрузка?

and-kushnir Mar 19 2025 at 08:34

Спасибо за статью, было очень интересно и понятно читать, много нового узнал! на канал подписался, там тоже очень интересно)

anikengur Mar 19 2025 at 10:03

❤️

naumtsevalex Jul 24 2025 at 20:32

балдеж! круто, очень редко вижу кто указывает названия входов QKV которые у енкодера и декодера разные, что в начале точно сбивает столку

anikengur Nov 5 2025 at 17:30

❤️

indlborm Dec 27 2025 at 10:36

Спасибо за статью!

Небольшой вопрос: в этой части все правильно?

        relevance = q @ k_T / math.sqrt(self.head_size)  
        # batch_size, num_heads, query_emb_len, emb_len

        if self.masked:
            mask = self.make_mask(key)
            relevance = relevance.masked_fill(~mask, -torch.inf)

Насколько я понимаю, предполагаются разные значения для query_emb_len и emb_len. То есть, в relevance не квадратная матрица, в общем случае.

А функция self.make_mask() создает квадратную матрицу по key_emb_len.

Есть некоторые сомнения, что код будет работать для разных shape у Q и K.

indlborm Dec 27 2025 at 12:22

Вот здесь явно опечатка. Т.к. не используется out_encoder_block.

class DecoderBlock(nn.Module):
  ...
        
    def forward(self, decoder_emb, encoder_output):
      ...
        
        out_norm_1 = self.norm_1(out_add_1)
      ...
        # переиспользуем часть Encoder-а
        out_encoder_block = self.encoder_block(
            query=out_norm_1, 
            key=encoder_output, 
            value=encoder_output
        )
        # batch_size, seq_len, out_size
        
        return  out_norm_1