Обновить
1
Юрий@Millog

Пользователь

Отправить сообщение

Это вопрос не на математику, а на рекурсивную вложеность и правильное разложение. Любая ллм которая не видила такую задачу в обучающей выборки некогда не сможет её решить. Ибо это их слабое звено. Одако я, допускаю что в ближайшем будущем не на трансформерах появятся полноценные слои которые смогут качественно подобные кейсы разбирать. А пока просто берём слово "интерпритации" или похожие и просим посчитать буквы "и" в слове. И наслаждаемся своим приемуществом.

Эта статья вынудила меня зарегистрироваться. Я не понимаю, почему вы вступаете в дискуссию с автором. Он подменяет понятия на каждом шагу: называет LLM искусственным интеллектом, а нейросетями — только LLM, полностью игнорируя все остальные архитектуры: RNN, CNN и другие. Тем самым он формирует у читателя обывательское представление, будто LLM и есть весь ИИ.

Простите, но давайте начистоту. Если бы вы серьёзно занимались изучением хотя бы LLM, то удосужились бы ознакомиться с Long Range Arena и принципами работы трансформера и не делали бы поспешных выводов. В LRA достаточно эмпирически ясно показаны как сильные, так и слабые стороны трансформеров. В частности, бенчмарк выявил, что стандартные трансформеры плохо справляются даже с относительно простыми задачами на длинных последовательностях, а архитектуры вроде State Space Models (SSM) значительно их превосходят. Эти результаты были подтверждены и в более поздних исследованиях (см., например, работу «On the Long Range Abilities of Transformers», 2023).

Однако вы этот факт игнорируете и не пытаетесь ни показать существующие решения, ни хотя бы указать на уже известные проблемы. Если называть вещи своими именами — это неглубокая аналитика, которая скорее вредит индустрии, чем помогает.

Также необходимо упомянуть проблемы с рекуррентными связями в LLM. Сейчас они решаются лишь внешними системами и инженерными трюками, что лишний раз указывает на фундаментальные ограничения архитектуры, которые автор старательно обходит стороной. Называя тупиком.......

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Фулстек разработчик
Git
SQL
PostgreSQL
Python
Linux
Docker
PyTorch