Все потоки
Поиск
Написать публикацию
Обновить
51.1

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Самый быстрый и безопасный PNG декодер в мире

Уровень сложностиСложный
Время на прочтение16 мин
Количество просмотров8.8K

Декодер изображений PNG из стандартной библиотеки языка программирования Wuffs работает в 1.22–2.75 раза быстрее, чем libpng (широко используемая реализация PNG декодера на C с открытым исходным кодом), C-библиотеки libspng, lodepng и stb_image, а также самые популярные библиотеки для работы с PNG на Go и Rust.
Статья рассказывает о том, как именно достигается такая производительность.

Читать далее

15 несложных видеоредакторов, доступных из России

Время на прочтение12 мин
Количество просмотров391K

Если вам нужно быстро смонтировать видеоролик для рекламной кампании или других целей, совсем не обязательно изучать сложные программы. Собрали 15 простых инструментов, с которыми справится даже новичок в видеомонтаже. Все они бесплатные, имеют бесплатную версию или их можно оплатить из России. Читайте новую подборку от редакции click.ru.

Читать далее

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.2K

В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее.

В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений.

Читать далее

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.8K

Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики.

Организаторы поставили простую, казалось бы, задачу — точно определить, в каких случаях игроки сталкиваются друг с другом во время матча по американскому футболу. Мы с коллегами приняли участие, но не успели реализовать все свои идеи. Зато изучили подходы других команд и поняли, что были на верном пути. В этой статье я рассмотрю некоторые из решений, которые принесли денежное вознаграждение и золотые медали участникам этого челленджа. 

Читать далее

Обнаружение изменений сцены в аудиовизуальном контенте

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров873

При просмотре фильма или эпизода телешоу мы воспринимаем связное повествование, которое разворачивается перед нами, часто не задумываясь о лежащей в его основе структуре, которая делает все это возможным. Однако фильмы и эпизоды не являются атомарными единицами, а скорее состоят из более мелких элементов, таких как кадры, отснятые кадры, сцены, последовательности и действия.

Читать далее

Как изменится проверка паспорта в банках после отключения сервиса МВД

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров13K

С июля российские банки лишились возможности использовать решение МВД для проверки подлинности паспорта РФ. Отключение сервиса, работавшего более 7 лет, стало неприятным сюрпризом для банкиров. ЦБ напомнил им о возможности использования прочих информационных систем, как предполагает 115-ФЗ. На этом фоне AI-компания Smart Engines заметила рост интереса к собственной системе распознавания и проверки подлинности паспорта Smart ID Engine 2.0. В нашей статье мы расскажем о вариантах идентификации клиентов, и о том, какие преимущества дает банкам Smart ID Engine 2.0 в цифровых каналах и офисах.

Читать далее

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров1.8K

Цифровой бум в поисках золота продолжается.

Мы активно стали применять метод обработки первичных растровых данных для последующего применения методов ML с целью индикации вероятной локализации оруденения. И даже есть отличные результаты.

История индикатора уходит в недалекий 2018 год, когда с развитием цифровых технологий многие разочаровались в этом, ожидая что‑то грандиозного, когда система сама покажет, где искать, где копать. Тогда и зародилась идея о том, что нужна не просто «указка», где искать, а индикатор, чтобы он как бы подсвечивал вероятные участки оруденения. В данной статье разберу пару успешных кейсов как следствие применения данной разработки.

Но сначала о самом методе...

Читать далее

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2.3K

В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.

Читать далее

Как мы разрабатывали игры для xkcd

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.5K

20 апреля xkcd опубликовал Escape Speed — четырнадцатый ежегодный комикс к Дню смеха, который мы разработали вместе. Escape Seed — это большая игра про исследование космоса, нарисованная Рэндалом Манро. Я писал код движка и редактора, а игровой логикой и обработкой ресурсов занимался davean. Карту игры редактировали Патрик КлэпЭмберКевинБенджамин Стаффин и Дженел Шейн.

Это был один из самых амбициозных (и самых запоздавших) комиксов к Дню смеха, выпущенных нами. Чтобы реализовать его, необходимо было добиться баланса графики, физики, сюжета, игровой логики и скорости рендеринга. Мы решили, что стоит потратить больше времени, чтобы сделать всё правильно.

Игра стала духовным наследником прошлогоднего комикса Gravity про исследование космоса. Наша цель заключалась в том, чтобы углубить игру, увеличив карту и добавив новые сложности с орбитальной механикой.

В статье мы расскажем несколько историй о разработке этих двух игр.

Читать далее

Как аннотировать документы для обучения ИИ распознавания текста

Время на прочтение6 мин
Количество просмотров2.7K

Введение в ИИ для распознавания текста



Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.

Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.

По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать дальше →

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 1

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.7K

Этот материал начинает серию из трех постов о том, как объяснить проблемы дата-сайентистов сотрудникам вашей компании, которые ничего не понимают в data science. В первой части я доступно расскажу о нынешнем положении специалистов, их проблемах и типичных запросах, с которыми они сталкиваются.

Читать далее

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Время на прочтение6 мин
Количество просмотров47K

Технологии распознавания печатного текста появились около 30 лет назад, существенно облегчив жизнь и ускорив многие бизнес-процессы. В то же время распознавание курсива оказалось куда более сложной задачей, которую удалось решить лишь благодаря развитию нейросетей.

В этом посте рассказываем о собственной технологии Content AI — распознавании русского рукописного текста, которая уже вошла в новую версию нашего продукта ContentCapture — универсальную платформу для интеллектуальной обработки информации.

Читать далее

Генерация персонализированных стикеров на основе DreamBooth

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5K

Привет, Хабр! Меня зовут Саша Рогачёв, я старший программист-исследователь в команде компьютерного зрения в VK. Перенос стиля — одна из самых интересных задач в генеративном компьютерном зрении. Не каждый может создавать изображения в определённом стиле, как это реализовано во множестве фоторедакторов с открытым и закрытым кодом, которые позволяют сделать картинку в жанре импрессионизма, ретро, кубизма и т. д. Самая частая проблема, с которой можно столкнуться при реализации таких приложений – это дообучение больших моделей. Решить её можно при помощи разных методов: например, DreamBooth, LoRA и т. д. 

С этой задачей я и моя команда столкнулись в школе по практическому программированию и анализу данных от Питерской Вышки, генеральным партнером которого выступила компания VK. В рамках образовательной программы от экспертов VK Education мы решали задачу по генерации стикеров с использованием диффузионных моделей. В этой статье мы расскажем о нашем подходе к её решению, с какими трудностями встретились и к каким выводам пришли.

Читать далее

Ближайшие события

Не ешь просрочку: Как Go и Tesseract помогают распознавать срок годности продуктов

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.7K

Привет, Хабр!

На связи участник профессионального сообщества NTA Кравчук Роман.

Распознавание дат с изображений сроков годности продукции является актуальной проблемой в сфере производства и потребления. Даты сроков годности являются важной информацией для потребителей, так как позволяют определить, безопасно ли употребление продукта после определенного периода времени. Однако, распознавание и правильная интерпретация этих дат могут быть сложными задачами для многих людей.

В посте я исследую возможности распознавания срока годности с использованием языка программирования Go и Tesseract OCR.

Как распознать срок годности?

ИИ в сердце Африки. Как мы съездили в Руанду на крупнейшую конференцию по машинному обучению ICLR 2023

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.5K

Привет! Меня зовут Александр Коротин. Я — научный сотрудник AIRI и руководитель исследовательской группы Сколтеха. Область моих интересов — генеративные модели для переноса данных между доменами. Мы с моими коллегами добились больших успехов в повышении эффективности таких алгоритмов и представили наши результаты на ICLR 2023 — престижной конференции по искусственному интеллекту, которая проходила этой весной в Руанде (соответствующие статьи можно почитать здесь и здесь). О том, как прошло это мероприятие в самом центре Африки, рассказываю в тексте ниже.

Читать далее

Вышел Savant 0.2.4: компьютерное зрение на базе глубокого обучения для Nvidia Jetson и dGPU

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.9K

После месяца напряженной работы мы выпустили новую версию Savant (0.2.4), с новыми функциями и примерами использования.

Savant — это фреймворк компьютерного зрения с открытым исходным кодом для создания приложений компьютерного зрения на базе нейронных сетей, работающий на стеке Nvidia. Он упрощает разработку динамических, отказоустойчивых конвейеров видео‑аналитики, использующих рекомендованные Nvidia инструменты для центров обработки данных и граничных ускорителей.

Savant построен на базе DeepStream и предоставляет высокоуровневый уровень абстракции для быстрой разработки конвейеров компьютерного зрения на базе Nvidia DeepStream.

Читать далее

Синтез обучения с подкреплением и классического планирования: как выиграть соревнование CVPR Habitat Challenge 2023

Уровень сложностиСложный
Время на прочтение16 мин
Количество просмотров2.8K

Всем привет! Меня зовут Алексей Староверов, работаю научным сотрудником в AIRI и в составе нашей команды (вместе с Кириллом Муравьевым, Татьяной Земсковой, Дмитрием Юдиным и Александром Пановым) мы выиграли соревнование Habitat Challenge, которое проводилось в рамках крупнейшей конференции по компьютерному зрению CVPR 2023. Мы смогли эффективнее других команд научить робота навигироваться до целевых объектов в новых помещениях с использованием только RGB-D камеры, датчика GPS и компаса. Сейчас это является очень важной задачей при создании роботов-помощников, выполняющих задачи по инструкциям на естественном языке. В этой заметке я расскажу, как это у нас получилось.

Читать далее

Аннотирование повреждений автомобилей для обучения искусственного интеллекта

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2K

Благодаря доступности систем компьютерного зрения на основе ИИ, способных автоматизировать большую часть процессов, в последние годы активно развивается сфера визуального контроля, связанного с технологиями страхования. При помощи мобильных приложений или веб-сайтов пользователи могут выполнять удалённую оценку повреждений и мгновенно получать расчёт цены, что упрощает процесс и сильно снижает стресс пользователей. Эта сфера уже охватила не только оценку повреждений транспорта, но и другие виды собственности, например, недвижимость.

Однако обучение систем визуального контроля при помощи ИИ имеет свои сложности, поскольку требует постоянного наполнения высококачественными и разнообразными данными. Из-за расширения области действия таких сервисов на разные регионы стало необходимым получение из каждого региона данных, аннотированных в точности согласно таксономии каждой страховой компании.
Читать дальше →

Мнение большинства для разметки данных в задачах компьютерного зрения

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.5K

Многие прикладные задачи из области компьютерного зрения требуют от разработчиков создания собственных наборов данных, которые можно своевременно обновлять и адаптировать: увеличивать количество классов и сэмплов или делать сэмплы более разнородными по тем или иным признакам. Кроме того, для некоторых задач необходимы доменные и достаточно специфичные данные. Например в SberDevices, для реализации управления умными устройствами с помощью жестов, необходим датасет, на изображениях которого люди показывают жесты перед камерой; для бьютификации в Jazz — фотографии людей на веб-камеру или селфи. Необходимость постоянно создавать и поддерживать собственные наборы данных требует автоматизации их сбора и разметки.

Читать далее

Kandinsky 2.2 — новый шаг в направлении фотореализма

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров56K

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, LLaMA, Falcon и др.), и даже модальности видео (GEN-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешении, а также новых возможностях синтеза изображений.

Читать далее

Вклад авторов