Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать / Comments / Habr

Есть неточности в блоке про трансформеры.

Сети с архитектурой encoder+decoder не самые распространенные. И, в основном более распространены либо энкодеры, либо декодеры. Выбор архитектуры зависит от назначения сети. Энкодеры - компактны и точнее «понимают» текст (вариации BERT для задач классификации или кластеризации текста, RAG, рекомендательных систем, например). Декодеры - лучше генерируют текст (GPT, LLaMA, Mistral, например).

Связано это с ресурсными ограничениями. Сеть, анализируя слово может смотреть на соседние слова. В энкодерах сеть смотрит и на предыдущие, и на последующие слова. Это круто, но ресурсоемко. Из-за этого уменьшается контекстное окно (при тех же вычислительных ресурсах). Выдача относительно короткая, и короткий анализируемый фрагмент на входе. Но сеть относительно компактная. Большинство прикладных задач решается энкодерами.

В декодерах сеть смотрит только на предыдущее слово, расчетов получается меньше, за счет этого в ту же память влезает большее контекстное окно, что лучше для генерации текста, при тех же ресурсах. Минус в том, что точность «понимания» контекста падает. Но это можно компенсировать увеличениями числа слоев в модели. Но тогда растет размер модели. И ресурсоемкость обучения. Но в итоге мы получили возможность сравнительно быстро обрабатывать большие фрагменты на входе и выходе, при тех же ресурсах. Но заплатили за это размером. Большинство чатов сейчас - декодеры.

Архитектура энкодер+декодер объединяет достоинства и недостатки обеих архитектур. Средненькое контекстное окно, среднее потребление ресурсов. Средние размеры. Хорошая точность. Применяется в переводчиках, вроде google-translate, например.

Comments 8

@VadimTikhonov Jan 9 2024 at 10:33

Добрый день. Хорошая вводная статья в мир нейросетей и ссылками для более детального изучения.

@Frevv Jan 9 2024 at 17:22

Утомил уже этот ЧатГопоты

@bjl Jan 10 2024 at 07:07

Спасибо, было интересно почитать.

@i360u Jan 10 2024 at 22:27

Ошибочно расшифровывал для себя GPT как General Purpose Transformer. Спасибо за ликбез.

@Vlafy2 Jan 11 2024 at 12:54

Всё-таки к интеллекту нынешние поделки имеют мало отношения. Потому что они используют базу, наработанную людьми за многие годы. Без этой базы этот ваш ии ни на что не способен. Если бы он был действительно интеллектом, то мог бы обучаться с нуля.

А так это просто ещё один тип алгоритма компиляции исходных данных. Не интересно.

@therb1 Jan 16 2024 at 22:32

А что ты ты успел не твои данных накопленных годами эволюции?

@oleg_rico Jan 18 2024 at 01:28

То есть по вашему родившийся ребёнок должен сам собрать всю информацию без помощи других людей?