Mozilla объявила о том, что Firefox будет использовать искусственный интеллект для улучшения доступности браузера. В грядущей версии Firefox 130, которая уже доступна в бета-версии Nightly, появится новая функция: автоматическая генерация текстовых описаний для изображений с помощью ИИ.
Текстовые описания изображений (или "альтернативный текст") помогают пользователям скринридеров понимать контекст изображений. Однако многие веб-сайты не предоставляют такие описания, делая контент недоступным для значительной части пользователей. Согласно Web Almanac 2022, почти половина изображений в интернете не имеет альтернативного текста.
Как работает?
Mozilla интегрировала в Firefox локальную модель машинного обучения, которая генерирует описания изображений, не отправляя данные на внешние серверы. Модель основана на архитектуре трансформеров, которая демонстрирует высокую точность в обработке изображений и доступна для различных типов устройств.
Модель, генерирующая текстовые описания, занимает около 200 МБ дискового пространства. Она обучена на основе данных модели DistilGPT2 и включает в себя 182 миллиона параметров. Для анализа изображений используется декодировщик, построенный на базе модели Vision Transformer (ViT).
Для эффективной работы модели в браузер интегрированы ONNX Runtime (скомпилированный в формате WASM) и библиотека Transformers.js. Модель загружается только при первом использовании, что оптимизирует расход ресурсов.
В первом релизе функция будет генерировать описания только для изображений в файлах PDF. В будущем Mozilla планирует расширить функциональность, чтобы сделать доступными описания изображений на всех веб-страницах.