Pull to refresh
1
Юрий@Millog

User

Send message

Это вопрос не на математику, а на рекурсивную вложеность и правильное разложение. Любая ллм которая не видила такую задачу в обучающей выборки некогда не сможет её решить. Ибо это их слабое звено. Одако я, допускаю что в ближайшем будущем не на трансформерах появятся полноценные слои которые смогут качественно подобные кейсы разбирать. А пока просто берём слово "интерпритации" или похожие и просим посчитать буквы "и" в слове. И наслаждаемся своим приемуществом.

Эта статья вынудила меня зарегистрироваться. Я не понимаю, почему вы вступаете в дискуссию с автором. Он подменяет понятия на каждом шагу: называет LLM искусственным интеллектом, а нейросетями — только LLM, полностью игнорируя все остальные архитектуры: RNN, CNN и другие. Тем самым он формирует у читателя обывательское представление, будто LLM и есть весь ИИ.

Простите, но давайте начистоту. Если бы вы серьёзно занимались изучением хотя бы LLM, то удосужились бы ознакомиться с Long Range Arena и принципами работы трансформера и не делали бы поспешных выводов. В LRA достаточно эмпирически ясно показаны как сильные, так и слабые стороны трансформеров. В частности, бенчмарк выявил, что стандартные трансформеры плохо справляются даже с относительно простыми задачами на длинных последовательностях, а архитектуры вроде State Space Models (SSM) значительно их превосходят. Эти результаты были подтверждены и в более поздних исследованиях (см., например, работу «On the Long Range Abilities of Transformers», 2023).

Однако вы этот факт игнорируете и не пытаетесь ни показать существующие решения, ни хотя бы указать на уже известные проблемы. Если называть вещи своими именами — это неглубокая аналитика, которая скорее вредит индустрии, чем помогает.

Также необходимо упомянуть проблемы с рекуррентными связями в LLM. Сейчас они решаются лишь внешними системами и инженерными трюками, что лишний раз указывает на фундаментальные ограничения архитектуры, которые автор старательно обходит стороной. Называя тупиком.......

Information

Rating
Does not participate
Registered
Activity

Specialization

Фулстек разработчик
Git
SQL
PostgreSQL
Python
Linux
Docker
PyTorch