Привет, меня зовут Георгий Гончаров, я инженер‑консультант OCR‑платформы SOICA, предназначенной для распознавания и обработки текстовых и графических данных. Поскольку это собственная разработка, то мы постоянно внедряем новые фичи. Недавно появилась еще одна — мы назвали ее ML‑локатор. В статье расскажу, почему и как мы реализовали эту функциональность и каких результатов удалось достичь.
Обработка изображений *
Работаем с фото и видео
Новости
Tech4Art: как дроны и VR помогают рисовать граффити и муралы
Привет, Хабр! Меня зовут Миша Most, я художник, который начинал как граффити-райтер. Сегодня расскажу о том, как технологии помогают нам, представителям искусства, творить, создавая необычные проекты. Сначала — немного о своих работах, которые находятся на стыке искусства и технологий. А потом вместе с моим коллегой расскажу о самих технологиях.
В статье кроме информации о моем творчестве немало технических подробностей, которые помогают понять, как работает симбиоз современного искусства и технологий. Всё самое интересное — под катом.
Этот пост — переработанная версия доклада с True Tech Day 2.0.
“Семь раз отмерь, один раз сшей” или совмещение 3D изображений в компьютерной томографии
Привет, Хабр!
Мудрая пословица гласит: «Семь раз отмерь, один – отрежь». Эта пословица применима и к томографии, так как в случае проведения томографических экспериментов при классическом подходе для каждого объекта составляется сначала план измерений, а потом уже выполняются сами измерения. Если объект протяженный или помещается в поле вида детектора впритык, то часто принимается решение сделать два измерения: верхней части объекта и нижней. В этом случае в программе обработки данных томографических измерений необходима дополнительная функциональность, а именно, совмещение и сшивка трехмерных изображений. О том, как мы добавили такую функциональность в Smart Tomo Engine, наш продукт для томографической реконструкции и анализа, мы расскажем в сегодняшней статье.
Как мы собираем данные для обучения Kandinsky
Всем привет! Наша команда в Sber AI занимается генеративными моделями и сегодня мы расскажем про очень важный этап разработки моделей для генерации фотореалистичных изображений и видео — процесс сбора и фильтрации данных. Про этот этап очень редко подробно рассказывают разработчики и исследователи таких известных генеративных моделей как DALL-E 3, Stable Diffusion, MidJourney или SORA. Генеративные модели уже многих впечатлили своими возможностями создавать максимально реалистичные изображения и видеоролики, а качественные данные — далеко не последняя причина, по которой такого качества генераций удалось достичь.
Истории
Kandinsky Video 1.1: обновленная модель генерации видео
В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.
Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.
Чем новый ChatGPT-4o отличается от GPT-4, что умеет и почему это супер-важно
В середине мая компания OpenAI представила новую версию самой популярной и хайповой нейросети в мире. Продукт получил название ChatGPT-4o, сохранив порядковый номер своего предшественника. Несмотря на это, чат-бот не только стал быстрее обрабатывать информацию, но и получил поддержку мультимодальности, и это буквально все изменило.
Delta-Rle-Huffman (DRH) Texture Format
Всем привет! В этой статье я опишу алгоритм работы формата сжатия изображений без потерь. Сжатие использует известные методики, которые и дали ему название. Проект начинался с простых экспериментов, которые вышли из под контроля. Не смотря на то, что формат чаще сжимает лучше чем png, никакого практического применения этот формат не имеет, оставаясь чисто академическим.
Внимание! В статье много картинок.
Магия музеев или что могут технологии
Привет! На Хабре рассказывают про технологии, поэтому я выбрала подходящую и красивую тему. В этом посте рассказ пойдет об онлайн-музеях — какие из них стоит посмотреть, где искать ссылки, как и почему музеи оцифровывают коллекции.
Я, riaria — специалист по арткрайму и OSINT энтузиаст, расскажу, что остается за кадром. Кстати, 18 мая Международный день музеев и узнать побольше о том, что обычно скрывается от посетителей — отличный способ его отметить!
Копаемся в встроенном приложении камеры старого Xiaomi. Часть 2
Попытаемся отреверсить и заглянуть в реализацию фото-эффектов приложения камеры Xiaomi 8 летней давности
Архитектура Stable Diffusion: Face ID, Lighting
Это перевод моей статьи на medium.com.
Год назад я провёл краткий обзор по теме переноса стиля. Пару месяцев назад я решил вернуться к этому вопросу и исследовать прогресс за последний год. За это время случилось много значимых изменений: архитектура open-source модели Stable Diffusion стала, лидирующей среди моделей для задач генерации изображений. Особенно её модификация SDXL [1]. Hugging Face превратился в лидирующую платформу для запуска модели Stable Diffusion с помощью библиотеки diffusers [2].
Точное увеличение растровых изображений
Как красиво в фильмах увеличивают изображения с дешёвой видеокамеры, да так, что чётко видно лицо в отражении зрачка человека, находящегося за километр. Я тоже так хочу. А что мы имеем по факту? На какой максимальный результат можно рассчитывать хотя бы теоретически? А оказывается можно сделать чуть лучше, чем размазню...
История технологий отображения: от камеры-обскуры до OLED-дисплея
Сотни лет назад методы отображения графики и текста были далеки от современных разработок. Как правило, использовались простые устройства с механическим принципом действия. Впоследствии вывод графики претерпевал изменения и эволюционировал. Механические детали, крутящиеся и трущиеся, заменялись электронными компонентами — тихими, точными и относительно долговечными.
Дисплеи, возникшие на заре технологий XX века и представлявшие собой не иначе как инженерную эвристику, превратились в сложные системы с просчитанной до «нулей и единиц» логикой. Поэтому довольствуясь яркостью и точностью OLED-дисплеев сегодня, можно повспоминать бледность и смазанность ЭЛТ-дисплеев, бывших еще «вчера».
А можно пойти дальше и узнать, как люди из XX века смотрели передачи на вращающемся диске с дюжиной дырок. А может, и еще чего страшнее...
Как я тестировал российские фоторедакторы, полжизни проработав в Фотошопе
Оказывается, пока мы решаем вопросы с продлением подписки через зарубежных друзей или вспоминаем опыт пиратства, наши разработчики вовсю занимаются импортозамещением. Я решил узнать, а какие вообще сегодня есть российские фоторедакторы, способные стать если не полной заменой, то хотя бы достойной альтернативой Фотошопу.
Почитав отзывы и посоветовавшись с друзьями и коллегами, выбрал 3 программы, которые мне показались наиболее интересными и решил их протестировать. Для проверки взял вот такой портрет кота. Фото сделано случайно — я еще не успел выставить свет, да и снимать пришлось без долгой пристрелки. Так что тут понадобится продвинутая техническая ретушь.
Ближайшие события
Паразитные оттенки в фотографии: причины и способы удаления
В свое время мне часто приходилось сталкиваться с такими проблемами, как некорректная цветопередача, цветовые шумы и артефакты, портящие кадр. Поэтому решил, что начинающим фотографам будет полезно знать, в чем причина появления паразитных оттенков в фотографии и как с ними можно бороться — в процессе съемки и при постобработке.
Решение проблемы дымки на изображениях с использованием .NET: Простой и эффективный подход
Простое .NET решение для четких фото: избавьтесь от дымки или тумана на изображениях всего за несколько шагов!
ViT для новичков: как нейросети научились определять зависимости в изображениях
В этой статье мы попытаемся рассказать про трансформерную архитектуру VIT и предысторию его формирования. Сегодня не совсем понятно, почему этот "формат" нейронок настолько эффективен. Некоторые говорят механизм внимания, но некоторые практики делают больше ставок в области Computer Vision на MetaFormer. https://github.com/sail-sg/poolformer
Нейросети остаются для нас “теневым” процессом, подобным черному ящику. И изучение Deep Learning уже напоминает больше не математику, а биологию, где мы следим за поведением нашего детища.
Локальная REST-служба, или как за 5 минут интегрировать Smart ID Engine
Сегодня мы расскажем, как встроить нашу систему распознавания документов, удостоверяющих личность, Smart ID Engine в виде локально работающей службы с интерфейсом REST API.
Векторизация амебы
Этот текст написан для владеющих минимальными навыками работы в Матлаб. Из математики нам потребуются некоторые материалы из учебников по Информатике для 10 и 11 классов. Мы попытаемся совместно написать программу векторизации некоторых изображений.
/
1. Предварительная обработка.
Мы будем векторизовать вот это изображение амебы:
Как я написал свой первый классификатор эмоций
Всем привет! Немного о себе. Меня зовут Максим, я работаю специалистом по Machine Learning в компании SimbirSoft. Последние два года я углубленно изучал область машинного обучения и компьютерного зрения и сегодня с удовольствием поделюсь с вами опытом разработки личного пет-проекта.
В этой статье я расскажу о своем пути от идеи до реализации своего первого классификатора эмоций. Мы обсудим с вами методы, инструменты и техники, которые я применял в процессе создания своего проекта. Анализ данных, выбор модели, обучение и оценка результатов – каждый этап разработки имеет свои особенности и трудности, о чем я с удовольствием поделюсь с вами.
Почему меня привлекла именно эта тема? Во-первых, я уже решал аналогичную задачу на коммерческом проекте, которая включала распознавание и идентификацию лиц. Кроме того, меня заинтересовала эта задача тем, что она состоит из двух этапов: сначала детекция лица на изображении, а затем классификация эмоций, которые испытывает человек.
Статья будет полезна начинающим разработчикам в области Computer Vision, а также всем, кому интересна тема машинного обучения. Вы узнаете, с какой стороны подходить к решению задач с распознаванием лиц и что можно для этого использовать (подходы, инструменты и технологии).
Невероятный уровень «галлюцинирования» и проявление эмпатии от ChatGPT
Я много раз слышал о том, что ChatGPT галлюцинирует, то есть придумывает то, чего в реальности нет, но никогда с этим не сталкивался. Были какие-то неточности, но я их списывал на неактуальность базы данных или не замечал.
Или как-то попросил его исправить грамматические ошибки, он их исправил, только зачем-то еще и текст в 2 раза сократил.
На днях дочке задали выучить слова. Текст был написан от руки, и ей было трудно читать. Я подумал, что надо бы сделать печатные быквы и распечатать, переписывать не хотелось, решил использовать ChatGPT.
Вклад авторов
alizar 5415.6marks 2439.9ZlodeiBaal 2343.0Fil 1355.0YUVladimir 1324.0SmartEngines 1095.8Weilard 970.0jeston 744.0homm 674.2