Pull to refresh
  • by relevance
  • by date
  • by rating

Эволюция нейросетей для распознавания изображений в Google: GoogLeNet

Image processing *Machine learning *

У меня тут синхронизируется VM надолго, поэтому есть время рассказать про то, что я недавно читал.
Например, про GoogLeNet.
GoogLeNet — это первая инкарнация так называемой Inception architecture, которая референс всем понятно на что:


image
(кстати, ссылка на него идет первой в списке референсов статьи, чуваки жгут)


Она выиграла ImageNet recognition challenge в 2014-м году с результатом 6.67% top 5 error. Напомню, top 5 error — метрика, в которой алгоритм может выдать 5 вариантов класса картинки и ошибка засчитывается, если среди всех этих вариантов нет правильного. Всего в тестовом датасете 150K картинок и 1000 категорий, то есть задача крайне нетривиальна.


Чтобы понять зачем, как и почему устроен GoogLeNet, как обычно, немного контекста.

Читать дальше →
Total votes 35: ↑30 and ↓5 +25
Views 34K
Comments 15

Эволюция нейросетей для распознавания изображений в Google: Inception-v3

Image processing *Machine learning *

Продолжаю рассказывать про жизнь Inception architecture — архитеткуры Гугла для convnets.
(первая часть — вот тут)
Итак, проходит год, мужики публикуют успехи развития со времени GoogLeNet.
Вот страшная картинка как выглядит финальная сеть:
image
Что же за ужас там происходит?

Читать дальше →
Total votes 23: ↑22 and ↓1 +21
Views 34K
Comments 9

Эволюция нейросетей для распознавания изображений в Google: Inception-ResNet

Image processing *Machine learning *
Буду потихоньку дорассказывать про Inception.
Предыдущая часть здесь — https://habrahabr.ru/post/302242/.
Мы остановились на том, Inception-v3 не выиграл Imagenet Recognition Challange в 2015-м, потому что появились ResNets (Residual Networks).

Что такое вообще ResNets?


Читать дальше →
Total votes 30: ↑26 and ↓4 +22
Views 40K
Comments 18

Deep Learning: Transfer learning и тонкая настройка глубоких сверточных нейронных сетей

Microsoft corporate blog Algorithms *Image processing *Machine learning *
Translation
В предыдущей статье из цикла «Deep Learning» вы узнали о сравнении фреймворков для символьного глубокого обучения. В этом материале речь пойдет о глубокой настройке сверточных нейронных сетей для повышения средней точности и эффективности классификации медицинских изображений.


Читать дальше →
Total votes 25: ↑23 and ↓2 +21
Views 25K
Comments 0

Deep Learning: Cочетание глубокой сверточной нейронной сети с рекуррентной нейронной сетью

Microsoft corporate blog Algorithms *Image processing *Machine learning *
Translation
Представляем вам завершающую статью из цикла по Deep Learning, в которой отражены итоги работы по обучению ГСНС для изображений из определенных областей на примере распознавания и тегирования элементов одежды. Предыдущие части вы найдете под катом.


Читать дальше →
Total votes 29: ↑27 and ↓2 +25
Views 21K
Comments 3

Создаём нейронную сеть InceptionV3 для распознавания изображений

Python *Algorithms *Image processing *Machine learning *
Sandbox


Привет, Хабр! Под катом пойдёт речь о реализации свёрточной нейронной сети архитектуры InceptionV3 с использованием фреймворка Keras. Статью я решил написать после ознакомления с туториалом "Построение мощных моделей классификации с использованием небольшого количества данных". С одобрения автора туториала я немного изменил содержание своей статьи. В отличие от предложенной автором нейронной сети VGG16, мы будем обучать гугловскую глубокую нейронную сеть Inception V3, которая уже предустановлена в Keras.

Вы научитесь:

  1. Импортировать нейронную сеть Inception V3 из библиотеки Keras;
  2. Настраивать сеть: загружать веса, изменять верхнюю часть модели (fc-layers), таким образом, приспосабливая модель под бинарную классификацию;
  3. Проводить тонкую настройку нижнего свёрточного слоя нейронной сети;
  4. Применять аугментацию данных при помощи ImageDataGenerator;
  5. Обучать сеть по частям для экономии ресурсов и времени;
  6. Оценивать работу модели.

При написании статьи я ставил перед собой задачу представить максимально практичный материал, который раскроет некоторые интересные возможности фреймворка Keras.
Читать дальше →
Total votes 39: ↑39 and ↓0 +39
Views 104K
Comments 27

Распознавание образов и научное знание

Image processing *Data visualization Machine learning *
Последние достижения в распознавании образов впечатляют. Достаточно вспомнить результаты соревнований на базе ImageNet. Сразу же возникает вопрос, что дальше? Как мы можем использовать полученные достижения?

Что-то важное началось, когда Fei-Fei стартовала ImageNet проект. Похоже на революцию.
Читать дальше →
Total votes 24: ↑16 and ↓8 +8
Views 11K
Comments 12

Распознавание объектов с помощью PowerAI Vision

IBM corporate blog Cloud computing *Image processing *Machine learning *
Tutorial


Разработчики программного обеспечения уже несколько лет активно работают с библиотеками машинного обучения, решая задачи компьютерного зрения и обнаружения объектов. Но реализация таких задач (а каждую модель машинного обучения необходимо спроектировать, развернуть, собственно обучить, настроить и установить) обычно требует глубоких знаний и навыков. С новым продуктом IBM PowerAI Vision Вы можете этого избежать. Этот продукт предоставляет интерфейс, в котором можно обучать, настраивать и тестировать свою собственную модель, не углубляясь в детали реализации машинного обучения.

В этой инструкции я расскажу как использовать PowerAI Vision, чтобы обучить систему и создать готовый к использованию сервис REST API, который можно использовать для обнаружения и распознавания объектов в Ваших приложениях.
Подробная инструкция
Total votes 11: ↑11 and ↓0 +11
Views 6.9K
Comments 3

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

Open Data Science corporate blog Image processing *Database Administration *R *Machine learning *


Привет, Хабр!

Осенью прошлого года на Kaggle проходил конкурс по классификации нарисованных от руки картинок Quick Draw Doodle Recognition, в котором среди прочих поучаствовала команда R-щиков в составе Артема Клевцова, Филиппа Управителева и Андрея Огурцова. Подробно описывать соревнование не будем, это уже сделано в недавней публикации.

С фармом медалек в этот раз не сложилось, но было получено много ценного опыта, поэтому о ряде наиболее интересных и полезных на Кагле и в повседневной работе вещей хотелось бы рассказать сообществу. Среди рассмотренных тем: нелегкая жизнь без OpenCV, парсинг JSON-ов (на этих примерах рассматривается интеграция кода на С++ в скрипты или пакеты на R посредством Rcpp), параметризация скриптов и докеризация итогового решения. Весь код из сообщения в пригодном для запуска виде доступен в репозитории.

Содержание:


  1. Эффективная загрузка данных из CSV в базу MonetDB
  2. Подготовка батчей
  3. Итераторы для выгрузки батчей из БД
  4. Выбор архитектуры модели
  5. Параметризация скриптов
  6. Докеризация скриптов
  7. Использование нескольких GPU в облаке Google Cloud
  8. Вместо заключения
Читать дальше →
Total votes 48: ↑48 and ↓0 +48
Views 5.8K
Comments 7

Нейронные сети предпочитают текстуры и как с этим бороться

Open Data Science corporate blog Image processing *Machine learning *Artificial Intelligence Brain


В последнее время вышло несколько статей с критикой ImageNet, пожалуй самого известного набора изображений, использующегося для обучения нейронных сетей.


В первой статье Approximating CNNs with bag-of-local features models works surprisingly well on ImageNet авторы берут модель, похожую на bag-of-words, и в качестве "слов" используют фрагменты из изображения. Эти фрагменты могут быть вплоть до 9х9 пикселей. И при этом, на такой модели, где полностью отсутствует какая-либо информация о пространственном расположении этих фрагментов, авторы получают точность от 70 до 86% (для примера, точность обычной ResNet-50 составляет ~93%).


Во второй статье ImageNet-trained CNNs are biased towards texture авторы приходят к выводу, что виной всему сам набор данных ImageNet и то, как изображения воспринимают люди и нейронные сети, и предлагают использовать новый датасет – Stylized-ImageNet.


Более подробно о том, что на картинках видят люди, а что нейронные сети

Читать дальше →
Total votes 100: ↑100 and ↓0 +100
Views 28K
Comments 68

CLIP from OpenAI: what is it and how you can try it out yourself

Machine learning *

Neural networks (NN) and computer vision models in particular are known to perform well in specific tasks, but often fail to generalize to tasks they have not been trained on. A model that performs well on a food data may perform poorly on satellite images. 

A new model from OpenAI named CLIP claims to close this gap by a large margin. The paper Open AI wrote presenting CLIP demonstrates how the model may be used on a various classification datasets in a zero-shot manner. 

In this article, I will explain the key ideas of the model they proposed and show you the code to use it. 

Read more
Total votes 3: ↑3 and ↓0 +3
Views 5K
Comments 4

Обзор статьи — AdderNet: Действительно ли нам нужно умножение в глубоком обучении? (Классификация изображений)

OTUS corporate blog Big Data *Machine learning *Artificial Intelligence
Translation

Вашему вниманию представлен обзор статьи AdderNet: действительно ли нам нужно умножение в глубоком обучении?,

Ключевые моменты статьи:

AdderNet, использующая сложение, в качестве выходного результата берет l1-меру стандартного отклонения между фильтрами и входным признаком.

По сравнению с умножением сложение намного дешевле и снижает затраты на вычисления.

Это статья CVPR 2020 года с более чем 20 упоминаниями в других источниках. (Sik-Ho Tsang @ Medium)

Читать далее
Total votes 10: ↑8 and ↓2 +6
Views 1.4K
Comments 0

ruCLIP — мультимодальная модель для русского языка

SberDevices corporate blog Image processing *Machine learning *Artificial Intelligence Natural Language Processing *

Известно, что глубокие нейронные сети (DNN) и модели компьютерного зрения, в частности, хорошо справляются с конкретными задачами, но зачастую не могут сделать обобщение при работе с новыми. Так, модель, которая хорошо работает с данными о продуктах питания, может показать себя не очень хорошо на спутниковых изображениях и т. д..

В начале этого года OpenAI опубликовала модель под названием CLIP (Contrastive Language–Image Pre-training). В статье авторы модели привели потрясающие результаты по точности zero-shot-классификации изображений, а также сопоставили тексты и картинки в рамках одной системы. Однако модель OpenAI работает только с английским языком. Можно ли быстро адаптировать её для работы с русским?

Команды R&D SberDevices и Sber AI увлеклись этим вопросом. В этой статье мы расскажем про первые результаты наших исследований CLIP для русского языка, опишем ключевые идеи предложенной модели и поделимся с вами кодом для её использования — решения задач zero-shot image classification.

Что же можно сделать с помощью ruCLIP?

Читать далее
Total votes 29: ↑29 and ↓0 +29
Views 3K
Comments 3