Мультимодальная модель от Mistral?

Сегодня на платформе X Mistral опубликовала пост с magnet-ссылкой на новую небольшую модель Pixtral-12b-240910 размером около 24 гб.
Pixtral получила поддержку изображений: теперь она умеет обрабатывать изображения наряду с текстом. Передавать изображение можно тремя способами: как объект ImageChunk, URL-адрес ImageURLChunk с автоматической загрузкой или в формате base64.
Если говорить об изменениях, то также модели увеличили словарь до 131072 токенов; в токенизатор Mistral были добавлены три новых токена для работы с изображениями; а еще для обработки изображений используется vision adapter, основанный на функции активации GeLU и 2D RoPE
По этой ссылке можно найти PR с использованием.