Pull to refresh
9
0
Сергей Якубсон @syakubson

ML Engineer at SberDevices

Send message

State Space Models. Mamba

Level of difficultyHard
Reading time15 min
Views8.2K

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

Читать далее

Information

Rating
Does not participate
Registered
Activity

Specialization

ML Engineer, Computer Vision Engineer
Git
Linux
MySQL
English
Python
Docker