Comments 8
Добрый день. Хорошая вводная статья в мир нейросетей и ссылками для более детального изучения.
Утомил уже этот ЧатГопоты
Спасибо, было интересно почитать.
Ошибочно расшифровывал для себя GPT как General Purpose Transformer. Спасибо за ликбез.
Всё-таки к интеллекту нынешние поделки имеют мало отношения. Потому что они используют базу, наработанную людьми за многие годы. Без этой базы этот ваш ии ни на что не способен. Если бы он был действительно интеллектом, то мог бы обучаться с нуля.
А так это просто ещё один тип алгоритма компиляции исходных данных. Не интересно.
Есть неточности в блоке про трансформеры.
Сети с архитектурой encoder+decoder не самые распространенные. И, в основном более распространены либо энкодеры, либо декодеры. Выбор архитектуры зависит от назначения сети. Энкодеры - компактны и точнее «понимают» текст (вариации BERT для задач классификации или кластеризации текста, RAG, рекомендательных систем, например). Декодеры - лучше генерируют текст (GPT, LLaMA, Mistral, например).
Связано это с ресурсными ограничениями. Сеть, анализируя слово может смотреть на соседние слова. В энкодерах сеть смотрит и на предыдущие, и на последующие слова. Это круто, но ресурсоемко. Из-за этого уменьшается контекстное окно (при тех же вычислительных ресурсах). Выдача относительно короткая, и короткий анализируемый фрагмент на входе. Но сеть относительно компактная. Большинство прикладных задач решается энкодерами.
В декодерах сеть смотрит только на предыдущее слово, расчетов получается меньше, за счет этого в ту же память влезает большее контекстное окно, что лучше для генерации текста, при тех же ресурсах. Минус в том, что точность «понимания» контекста падает. Но это можно компенсировать увеличениями числа слоев в модели. Но тогда растет размер модели. И ресурсоемкость обучения. Но в итоге мы получили возможность сравнительно быстро обрабатывать большие фрагменты на входе и выходе, при тех же ресурсах. Но заплатили за это размером. Большинство чатов сейчас - декодеры.
Архитектура энкодер+декодер объединяет достоинства и недостатки обеих архитектур. Средненькое контекстное окно, среднее потребление ресурсов. Средние размеры. Хорошая точность. Применяется в переводчиках, вроде google-translate, например.
Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать