Обновить
14.8

Терминология IT

Термины, понятия, аббревиатуры

Сначала показывать
Порог рейтинга

Что такое GoogLeNet?

Рассказывают наши эксперты из лаборатории больших данных.

GoogLeNet — глубокая свёрточная нейросеть, разработанная командой исследователей из Google в 2014 году для классификации изображений. «Le» в её названии — это отсылка к нейросети LeNet 5, одной из первых свёрточных нейросетей, способствовавшей развитию идеи глубокого обучения с 1988 года.

Главным отличием архитектуры GoogLeNet от других свёрточных нейросетей (CNN) является использование дополнительного модуля начальной обработки данных — Inception. Он параллельно применяет свёртки с разными размерами ядра (1x1, 3x3, 5x5), а затем объединяет вектора признаков. Это позволяет эффективнее выделять локальные и глобальные признаки анализируемого изображения.

Несмотря на глубокую архитектуру сети, состоящую из 22 слоёв, количество используемых параметров GoogLeNet остаётся относительно небольшим. Это достигается благодаря использованию свёртки 1x1, которая по сути работает как линейный фильтр и уменьшает размерность следующего слоя. Поэтому GoogLeNet менее требовательна к объёму памяти видеокарты, чем AlexNet и другие архитектуры без модуля Inception.

За счёт своей сбалансированности GoogLeNet показывает высокую точность классификации на изображениях различного размера. В 2014-м году она победила в соревновании ImageNet. С тех пор на её основе разрабатываются более современные нейросети, также использующие глубокую свёрточную архитектуру и концепцию модуля Inception.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Что такое YOLO?

Разбираемся вместе с нашими экспертами из лаборатории больших данных.

YOLO (you only look once) — это архитектура детектора по распознаванию объектов в реальном времени. YOLO состоит из двух частей: encoder (свёрточные слои) и head (классификационный слой).

Энкодер выполняет роль первичной обработки изображений и извлечения признаков объектов. Обычно для этого используется Darknet или другая предобученная CNN.

Затем head принимает от энкодера признаки объектов и выполняет классификацию, после чего применяет пороговую фильтрацию и оставляет на выходе наиболее вероятные результаты.

Благодаря своей способности анализировать объекты одновременно на всём изображении, YOLO обеспечивает высокую скорость и точность распознавания объектов.

Также YOLO отличается хорошей обобщающей способностью. Он уверенно работает в различных условиях освещения и с разными типами камер (хотя и требует для этого большого количества обучающих данных, покрывающих различные условия). Это делает его востребованным в алгоритмах машинного зрения для роботов, дронов и автономного транспорта.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Что такое "пирамида признаков"?

Рассказываем в рубрике #нейрословарь вместе с нашими экспертами из лаборатории больших данных.

Пирамида признаков (FPN, Feature Pyramid Net) — это вычислительная архитектура, используемая в машинном зрении для обработки изображений без привязки к их разрешению. Она позволяет обнаруживать объекты на изображениях различных размеров, масштабировать их и автоматически подстраиваться под меняющиеся условия.

Для анализа изображения FPN объединяет информацию из разных слоёв нейронной сети, после чего создаёт «пирамиду» — иерархическую структуру признаков. Если на изображении есть сравнительно большой объект, то FPN обрабатывает его на более высоком уровне пирамиды, а мелкую деталь — на более низком.

FPN широко используется во всех сферах, применяющих машинное зрение. Например, пирамида признаков используется для автоматического диагностирования рака груди по маммограммам и в системах помощи водителю для распознавания участников дорожного движения.

Основные конкурирующие архитектуры для FPN — U-Net и SegNet. Они менее требовательны к ресурсам, но работают только с изображениями фиксированного разрешения и распознают объекты определённого размера. FPN лишена этих ограничений, поэтому в условиях меняющегося окружения показывает более стабильные результаты.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Однажды наши эксперты из лаборатории больших данных вдруг заговорили о трансформерах (transformers). Оказалось, что это не только роботы, но и прогрессивное семейство архитектур нейросетей от Google. Оно появилось в 2017 году и совершило настоящую революцию во многих областях машинного обучения, особенно в обработке естественной речи (NLP).

Ключевые элементы трансформеров — это энкодер и декодер. Первый выполняет преобразование входных данных в векторы, а второй генерирует ответ после ряда операций с векторами.

Это может быть текстовый ответ чат-бота, или озвученный с помощью синтеза речи ответ голосового ассистента. Если ответ формируется на другом языке, то мы получаем систему машинного перевода, вроде Google Translate.

За исключением вычисления средневзвешенного значения, все операции в трансформерах выполняются над отдельными векторами входной последовательности. Поэтому трансформеры можно эффективнее распараллелить и быстрее обучить, чем используемые до их появления рекуррентные нейронные сети (RNN).

Напишите, какие ещё термины из сферы машинного обучения вам хотелось бы разобрать в нашей рубрике #нейрословарь.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Что такое многослойный перцептрон (MLP)? Рассказывают эксперты из лаборатории больших данных компании "Криптонит".

Многослойный перцептрон (MLP) — это одна из элементарных архитектур, с которой часто начинают освоение нейронных сетей и принципов их обучения. Обычно его сравнивают с такими типами моделей машинного обучения, как опорно-векторная машина и сети Кохонена. По сравнению с ними, MLP предоставляет более точные результаты, особенно в задачах классификации.

Для обучения MLP используется принцип обратного распространения ошибки. Одно из преимуществ MLP — способность обучаться на наборах данных любого размера.

В чистом виде MLP уже не используется для решения практических задач в области ML, но применяется в составе более сложных нейросетей.

Исторически MLP применялся для анализа самых разных типов данных — медицинских, финансовых, технических и других, позволяя прогнозировать состояние сложных систем. Кроме того, MLP даже использовали в ранних версиях таких приложений ИИ, как виртуальные помощники, сервисы распознавания рукописного текста и транскрибации речи.

Сейчас для каждого из этих направлений разработаны более продвинутые архитектуры, о которых мы расскажем в следующих выпусках нашей рубрики #нейрословарь.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0