Все потоки
Поиск
Написать публикацию
Обновить
46.99

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как устроены 4.6-битные сети: обучение

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.7K

Мы уже писали о том, что предложили новую модель квантования нейронных сетей, позволяющую ускорить их на 40% на центральных процессорах, а также о том, как она устроена тут. Сегодня мы расскажем о том, как мы в Smart Engines обучали 4.6-битные сети.

Читать далее

ИИ Яндекс пытается переплюнуть Тинькофф?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.2K

В своё время читал, как голосовой консультант "Олег" от компании Тинькофф рекомендовал пользователю совершить 'Роскомнадзор' в качестве решения проблемы.
Думал - шутка.

Недавно решил потрогать Яндекс360 в варианте Премиум. В ответ Yandex решил потрогать меня сделать мне приятное своими нейросетевыми алгоритмами, о чём известил меня ненавязчивым пушем - Цветочное настроение.
Миниатюра фото уже намекает, да?

Хватит ли Диска для всех букетов...

Глубокое обучение для деформируемой регистрации медицинских изображений

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.1K

В этой статье я расскажу о применении регистрации изображений в медицине, а также рассмотрю современные подходы к решению этой задачи.

Читать далее

Сравнение сервисов для анализа документов AWS Textract, Azure Document Intelligence и Ripper Service от Технологики

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.5K

Бизнес все чаще и чаще предпочитают отдать искусственному интеллекту извлечение данных из документов: при таком подходе меньше ошибок и выше скорость обработки документов. И все чаще звучит вопрос — каким решением пользоваться и к какому подрядчику пойти за оказанием услуги?

Поэтому мы сделали сравнительный обзор двух популярных решений от лидеров рынка по обработке документов — AWS Textract, Microsoft Azure Document Intelligence и собственного решения Ripper Service. Сравнивали решения по нескольким основаниям: по производительности, по результатам извлечения значений из форм, а также по стоимости.

Надеемся, что данная статья будет полезна руководителям компаний, которые уже задумались о применении ИИ для массовой обработки документов.

Читать далее

Ваш путеводитель по дипфейкам: осведомлён — значит вооружён

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.4K

Даже если вы не знаете, что такое дипфейки, вы наверняка с ними сталкивались. Хотя изменённые и поддельные медиа не являются чем-то новым, дипфейки выводят их на совершенно новый уровень, используя искусственный интеллект для создания изображений, видео и аудио, которые кажутся реальными, но на самом деле таковыми не являются. Дипфейки (DeepFake) — это синтетические медиа, в которых человек на существующем изображении, видео или записи заменяется чьим-либо подобием. Технология DeepFake представляет собой одно из самых интригующих и противоречивых достижений в сфере ИИ. Поскольку дипфейки становятся всё доступнее, а их качество растёт, они создают серьёзные проблемы и в то же время дают новые возможности развития в различных сферах жизни человека.

Читать далее

В листах правды нет: как вузам быстро и безопасно ввести данные абитуриентов?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров900

Через неделю вузы начнут принимать документы абитуриентов на все формы обучения. Собрать и направить все необходимые бумаги в институты для будущих студентов – тот еще челлендж. Таким же малоприятным является процесс обработки этих документов и для сотрудников приемных комиссий, которым – когда абитуриенты выстроятся в очереди с оригиналами документов – придется перелопатить кипы бумаг.

Мы в Smart Engines нашли способ, как ускорить и упростить этот процесс для всех его участников. 

Читать далее

Умная стройка как (микро)сервис: следим за возведением зданий

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.4K

В России наблюдается интерес к комплексным системам автоматизации строительства, но их внедрение — долгий и сложный процесс. Поэтому чаще застройщики предпочитают точечные решения. Появился спрос на специализированные нейросетевые микросервисы для подключения к готовым системам заказчика. 

Мы отметили эту тенденцию после одного примечательного проекта по мониторингу процесса строительства. Фактически сначала нас попросили сделать «‎то, не знаю что»‎, причем в очень сжатые сроки. Ситуация могла обернуться провалом, но мы справились и нашли новую перспективную нишу для разработки новых продуктов. Сейчас расскажу, как это было.

Читать далее

Максимально точное увеличение разрешения изображений: билинейная аппроксимация

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров6.1K

В этом выпуске: улучшение билинейной интерполяции, больше методов апскейлинга, второй этап сравнения методов с точки зрения наименьшей ошибки, как применять шейдеры к отдельным изображениям, как уменьшить звон на изображении и многое другое...

Продолжаем увеличивать апскейл...

Как обезопасить себя при приеме на работу мигрантов, чтобы не получить штраф или дисквалификацию

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Для компаний трудоустройство сотрудника из‑за рубежа — не самая простая процедура. К тому же она сопровождается риском найма нелегальных мигрантов, что может аукнуться работодателю многотысячными штрафами и другими неприятным последствиям. Как избежать таких проблем при оформлении иностранного гражданина? И причем тут искусственный интеллект? Разбираемся в статье.

Читать далее

ML в OCR: зачем и как

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.9K

Привет, меня зовут Георгий Гончаров, я инженер‑консультант OCR‑платформы SOICA, предназначенной для распознавания и обработки текстовых и графических данных. Поскольку это собственная разработка, то мы постоянно внедряем новые фичи. Недавно появилась еще одна — мы назвали ее ML‑локатор. В статье расскажу, почему и как мы реализовали эту функциональность и каких результатов удалось достичь.

Читать далее

Tech4Art: как дроны и VR помогают рисовать граффити и муралы

Время на прочтение10 мин
Количество просмотров2.4K

Привет, Хабр! Меня зовут Миша Most, я художник, который начинал как граффити-райтер. Сегодня расскажу о том, как технологии помогают нам, представителям искусства, творить, создавая необычные проекты. Сначала — немного о своих работах, которые находятся на стыке искусства и технологий. А потом вместе с моим коллегой расскажу о самих технологиях.

В статье кроме информации о моем творчестве немало технических подробностей, которые помогают понять, как работает симбиоз современного искусства и технологий. Всё самое интересное — под катом.

Этот пост — переработанная версия доклада с True Tech Day 2.0.

Читать далее

“Семь раз отмерь, один раз сшей” или совмещение 3D изображений в компьютерной томографии

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров822

Привет, Хабр! 

Мудрая пословица гласит: «Семь раз отмерь, один – отрежь». Эта пословица применима и к томографии, так как в случае проведения томографических экспериментов при классическом подходе для каждого объекта составляется сначала план измерений, а потом уже выполняются сами измерения. Если объект протяженный или помещается в поле вида детектора впритык, то часто принимается решение сделать два измерения: верхней части объекта и нижней. В этом случае в программе обработки данных томографических измерений необходима дополнительная функциональность, а именно, совмещение и сшивка трехмерных изображений. О том, как мы добавили такую функциональность в Smart Tomo Engine, наш продукт для томографической реконструкции и анализа, мы расскажем в сегодняшней статье.

Читать далее

Как мы собираем данные для обучения Kandinsky

Уровень сложностиСложный
Время на прочтение14 мин
Количество просмотров3.3K

Всем привет! Наша команда в Sber AI занимается генеративными моделями и сегодня мы расскажем про очень важный этап разработки моделей для генерации фотореалистичных изображений и видео — процесс сбора и фильтрации данных. Про этот этап очень редко подробно рассказывают разработчики и исследователи таких известных генеративных моделей как DALL-E 3, Stable Diffusion, MidJourney или SORA. Генеративные модели уже многих впечатлили своими возможностями создавать максимально реалистичные изображения и видеоролики, а качественные данные — далеко не последняя причина, по которой такого качества генераций удалось достичь.

Читать далее

Ближайшие события

Kandinsky Video 1.1: обновленная модель генерации видео

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров7.3K

В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.

Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

Читать далее

Чем новый ChatGPT-4o отличается от GPT-4, что умеет и почему это супер-важно

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров90K

В середине мая компания OpenAI представила новую версию самой популярной и хайповой нейросети в мире. Продукт получил название ChatGPT-4o, сохранив порядковый номер своего предшественника. Несмотря на это, чат-бот не только стал быстрее обрабатывать информацию, но и получил поддержку мультимодальности, и это буквально все изменило.

Читать далее

Delta-Rle-Huffman (DRH) Texture Format

Время на прочтение8 мин
Количество просмотров4.2K

Всем привет! В этой статье я опишу алгоритм работы формата сжатия изображений без потерь. Сжатие использует известные методики, которые и дали ему название. Проект начинался с простых экспериментов, которые вышли из под контроля. Не смотря на то, что формат чаще сжимает лучше чем png, никакого практического применения этот формат не имеет, оставаясь чисто академическим.

Внимание! В статье много картинок.

Кому интересно, добро пожаловать под кат!

Магия музеев или что могут технологии

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.7K

Привет! На Хабре рассказывают про технологии, поэтому я выбрала подходящую и красивую тему. В этом посте рассказ пойдет об онлайн-музеях — какие из них стоит посмотреть, где искать ссылки, как и почему музеи оцифровывают коллекции.

Я, riaria — специалист по арткрайму и OSINT энтузиаст, расскажу, что остается за кадром. Кстати, 18 мая Международный день музеев и узнать побольше о том, что обычно скрывается от посетителей — отличный способ его отметить!

Вперед по музеям →

Копаемся в встроенном приложении камеры старого Xiaomi. Часть 2

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров4.9K

Попытаемся отреверсить и заглянуть в реализацию фото-эффектов приложения камеры Xiaomi 8 летней давности

[Начать реверс!]

Архитектура Stable Diffusion: Face ID, Lighting

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.8K

Это перевод моей статьи на medium.com.

Год назад я провёл краткий обзор по теме переноса стиля. Пару месяцев назад я решил вернуться к этому вопросу и исследовать прогресс за последний год. За это время случилось много значимых изменений: архитектура open-source модели Stable Diffusion стала, лидирующей среди моделей для задач генерации изображений. Особенно её модификация SDXL [1]. Hugging Face превратился в лидирующую платформу для запуска модели Stable Diffusion с помощью библиотеки diffusers [2].

Читать далее

Точное увеличение растровых изображений

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров7.2K

Как красиво в фильмах увеличивают изображения с дешёвой видеокамеры, да так, что чётко видно лицо в отражении зрачка человека, находящегося за километр. Я тоже так хочу. А что мы имеем по факту? На какой максимальный результат можно рассчитывать хотя бы теоретически? А оказывается можно сделать чуть лучше, чем размазню...

Увеличим апскейл до максимума!

Вклад авторов