ML-исследователи Apple представили FastVLM — быструю и точную визуально-языковую модель машинного обучения, которую можно запустить на смартфоне.

Авторы проекта отмечают, что визуально-языковые модели объединяют в себе возможности обработки визуальной и текстовой информации. Такие модели распознают сложные изображения и понимают контекст. Главная их проблема в том, что для высокой точности на вход надо подавать изображение в высоком разрешении. Чем выше разрешение, тем больше нужно вычислительных ресурсов. Это мешает запускать VLM локально, особенно на мобильных устройствах.
Для решения проблемы инженеры Apple разработали свою архитектуру VLM. В основе лежит энкодер FastViT‑HD, которая во время анализа изображений в высоком разрешении генерирует меньше токенов. Сами токены при этом более качественные и точные. Кроме того, FastViT‑HD работает быстрее аналогов.

В тестах FastVLM быстрее и точнее аналогов одинакового размера. Также для демонстрации возможностей Apple собрала тестовое приложение для iPhone 16 Pro. В нём использовали модель FastVLM 0.5B, запущенную с помощью нативного фреймворка MLX, адаптированного для работы с объединённой памятью устройств Apple.
Более подробно про архитектуру и технические решения можно прочитать в публикации инженеров Apple. Код и ссылки на модели разных размеров доступны в репозитории.