
Компания Илона Маска представила Grok Imagine — инструмент для image-to-video и text-to-image генерации. Функция доступна платным подписчикам SuperGrok и Premium Plus в приложении X для iOS.
Работаем с фото и видео
Компания Илона Маска представила Grok Imagine — инструмент для image-to-video и text-to-image генерации. Функция доступна платным подписчикам SuperGrok и Premium Plus в приложении X для iOS.
Ученые Smart Engines первыми в России перенесли передовые технологии распознавания штрихкодов, паспортов и других документов на микропроцессоры архитектуры RISC-V. Теперь системы компьютерного зрения доступны на всех без исключения отечественных и основных международных аппаратных платформах: Elbrus, RISC-V, MIPS (КОМДИВ), SPARC, х86, ARM. Это позволяет внедрить распознавание в различных областях – от интернета вещей до ракетостроения – и осуществлять его фактически на любом микроконтроллере, без необходимости в видеокартах и мощных процессорах.
Alibaba представила новую модель генерации изображений Qwen‑Image с открытым исходным кодом. Она доступна в чат-боте Qwen, а также на GitHub, Hugging Face и ModelScope.
В начале августа 2025 года состоялся выпуск кроссплатформенного инструмента с открытым исходным кодом для создания скриншотов Flameshot 13.0. Исходный код проекта написан на C++ и опубликован на GitHub под лицензией GNU General Public License v3.0. Предыдущая стабильная версия Flameshot 12.1.0 вышла в июле 2022 года. Выпуск Flameshot 0.1.0 произошёл в июне 2017 года.
X-Omni — методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.
Command A Vision предназначена для анализа изображений, диаграмм, PDF-файлов и других визуальных данных. По заявлению разработчиков, на стандартных бенчмарках для компьютерного зрения она превосходит GPT-4.1, Llama 4 и Mistral Medium 3.
Состоялся релиз открытого проекта Mass Image Compressor 4.1.0 для Windows, который помогает сжимать, изменять размер и конвертировать большие наборы изображений. Исходный код решения написан на C# и Perl и опубликован на GitHub под лицензией GNU Affero General Public License v3.0.
Компания Adobe запустила новые функции генеративного ИИ для Photoshop, упрощающие добавление и удаление людей и объектов на фотографиях. Обновление включает функции масштабирования изображений с помощью ИИ, улучшенный инструмент удаления объектов, а также средства автоматической композиции, которые позволяют плавно вписывать новые элементы в изображения всего за несколько кликов.
В бета-версии Adobe Photoshop появилась функция Harmonize на базе нейросети Firefly. Она автоматически адаптирует добавляемые к фотографии объекты к окружающей среде, корректируя освещение, цветовую палитру, тени и общую тональность.
Ideogram запустила новую функцию под названием Ideogram Character, которая позволяет создавать целые серии изображений с одним и тем же персонажем — по одной-единственной фотографии.
Компания Hertz начала использовать ИИ-систему UVeye для определения повреждений на арендованных автомобилях. Предполагается, что это повысит точность и скорость проверки транспортных средств. Однако, как показала практика, система находит значительно больше повреждений, чем традиционный человеческий осмотр, а порой даже «придумывает» несуществующие дефекты, сообщает The Drive.
ИИ-система UVeye, основанная на камерах и алгоритмах машинного обучения, работает в нескольких автосалонах Hertz в США, включая салон в аэропорту Хартсфилд-Джексон в Атланте. Она автоматически сканирует автомобиль перед сдачей в аренду и после возвращения и фиксирует царапины, вмятины, повреждения шин и другие дефекты.
Энтузиаст, любитель птиц и музыкант Бенн Джордан рассказал про свой удачный опыт преобразования PNG-файла (размером 176 КБ несжатых данных) в звуковой сигнал и обучения молодого скворца запоминать и почти точно воспроизводить такую звуковую информацию для последующего преобразования в исходный файл. Эксперимент показал, что скворцы могут теоретически «передавать» данные с помощью своего пения со скоростью до 2 МБ в секунду (в сжатом виде).
Компания Google представила новую функцию для ИИ-модели Gemini 2.5. Теперь пользователи могут анализировать и выделять объекты на изображениях с помощью запросов на естественном языке.
Браузер DuckDuckGo представляет новую настройку, позволяющую пользователям отфильтровывать в результатах поиска изображения, созданные с помощью ИИ. Функцию запустили в ответ на отзывы пользователей, которые жаловались на проблемы с поиском реальных картинок.
Модель для создания видео Veo 3 от Google теперь доступна через Gemini API. По цене она относится к наиболее дорогим вариантам в сфере ИИ-инструментов для создания видео.
Спустя почти десятилетие Sony анонсировала новую версию своей компактной камеры RX1R с фиксированным объективом. RX1R III третьего поколения оснащена той же 35-мм полнокадровой матрицей Exmor R, что и предыдущая модель, но с увеличенным с 42,4 до 61 мегапикселя разрешением.
В четверг компания Google заявила, что добавляет функцию преобразования изображений в видео в свой ИИ-генератор видео Veo 3 через приложение Gemini.
В начале июля 2025 года состоялся релиз открытого мультиплатформенного растрового графического редактора Krita 5.2.10, предназначенного для художников и иллюстраторов. Редактор поддерживает многослойную обработку изображений, предоставляет средства для работы с различными цветовыми моделями и обладает большим набором средств для цифровой живописи, создания скетчей и формирования текстур.
Китайский технологический гигант Alibaba представил Qwen VLo — мультимодальную модель искусственного интеллекта, предназначенную для анализа, создания и редактирования изображений.
Apple запатентовала новый тип датчика для камер, который позволяет снимать фото и видео с динамическим диапазоном, близким к тому, как видит человеческий глаз.