Это вопрос не на математику, а на рекурсивную вложеность и правильное разложение. Любая ллм которая не видила такую задачу в обучающей выборки некогда не сможет её решить. Ибо это их слабое звено. Одако я, допускаю что в ближайшем будущем не на трансформерах появятся полноценные слои которые смогут качественно подобные кейсы разбирать. А пока просто берём слово "интерпритации" или похожие и просим посчитать буквы "и" в слове. И наслаждаемся своим приемуществом.
Эта статья вынудила меня зарегистрироваться. Я не понимаю, почему вы вступаете в дискуссию с автором. Он подменяет понятия на каждом шагу: называет LLM искусственным интеллектом, а нейросетями — только LLM, полностью игнорируя все остальные архитектуры: RNN, CNN и другие. Тем самым он формирует у читателя обывательское представление, будто LLM и есть весь ИИ.
Простите, но давайте начистоту. Если бы вы серьёзно занимались изучением хотя бы LLM, то удосужились бы ознакомиться с Long Range Arena и принципами работы трансформера и не делали бы поспешных выводов. В LRA достаточно эмпирически ясно показаны как сильные, так и слабые стороны трансформеров. В частности, бенчмарк выявил, что стандартные трансформеры плохо справляются даже с относительно простыми задачами на длинных последовательностях, а архитектуры вроде State Space Models (SSM) значительно их превосходят. Эти результаты были подтверждены и в более поздних исследованиях (см., например, работу «On the Long Range Abilities of Transformers», 2023).
Однако вы этот факт игнорируете и не пытаетесь ни показать существующие решения, ни хотя бы указать на уже известные проблемы. Если называть вещи своими именами — это неглубокая аналитика, которая скорее вредит индустрии, чем помогает.
Также необходимо упомянуть проблемы с рекуррентными связями в LLM. Сейчас они решаются лишь внешними системами и инженерными трюками, что лишний раз указывает на фундаментальные ограничения архитектуры, которые автор старательно обходит стороной. Называя тупиком.......
Это вопрос не на математику, а на рекурсивную вложеность и правильное разложение. Любая ллм которая не видила такую задачу в обучающей выборки некогда не сможет её решить. Ибо это их слабое звено. Одако я, допускаю что в ближайшем будущем не на трансформерах появятся полноценные слои которые смогут качественно подобные кейсы разбирать. А пока просто берём слово "интерпритации" или похожие и просим посчитать буквы "и" в слове. И наслаждаемся своим приемуществом.
Эта статья вынудила меня зарегистрироваться. Я не понимаю, почему вы вступаете в дискуссию с автором. Он подменяет понятия на каждом шагу: называет LLM искусственным интеллектом, а нейросетями — только LLM, полностью игнорируя все остальные архитектуры: RNN, CNN и другие. Тем самым он формирует у читателя обывательское представление, будто LLM и есть весь ИИ.
Простите, но давайте начистоту. Если бы вы серьёзно занимались изучением хотя бы LLM, то удосужились бы ознакомиться с Long Range Arena и принципами работы трансформера и не делали бы поспешных выводов. В LRA достаточно эмпирически ясно показаны как сильные, так и слабые стороны трансформеров. В частности, бенчмарк выявил, что стандартные трансформеры плохо справляются даже с относительно простыми задачами на длинных последовательностях, а архитектуры вроде State Space Models (SSM) значительно их превосходят. Эти результаты были подтверждены и в более поздних исследованиях (см., например, работу «On the Long Range Abilities of Transformers», 2023).
Однако вы этот факт игнорируете и не пытаетесь ни показать существующие решения, ни хотя бы указать на уже известные проблемы. Если называть вещи своими именами — это неглубокая аналитика, которая скорее вредит индустрии, чем помогает.
Также необходимо упомянуть проблемы с рекуррентными связями в LLM. Сейчас они решаются лишь внешними системами и инженерными трюками, что лишний раз указывает на фундаментальные ограничения архитектуры, которые автор старательно обходит стороной. Называя тупиком.......