Oksumoron 18 фев 2020 в 13:19

Настройка функции потерь для нейронной сети на данных сейсморазведки

13 мин

29K

Блог компании Open Data SciencePython*Геоинформационные сервисы*Машинное обучение*Искусственный интеллект

В прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.

Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.

Спойлер: удалось существенно улучшить качество прогноза сети.

Бизнес-цели исследования

Не будем повторять описание специфики проведения сейсморазведки, получаемых данных и задачи их интерпретации. Все это описано в нашей предыдущей статье.

На идею данного исследования нас натолкнули результаты соревнования по поиску солевых отложений на 2D-срезах. По отзывам участников соревнования, при решении этой задачи использовался целый зоопарк различных функций потерь, причем, с разным успехом.

Поэтому мы и задались вопросом – действительно ли для подобных задач на таких данных подбор функции потерь может дать существенный выигрыш в качестве? Или это характерно только для условий соревнования, когда идет борьба за четвертый-пятый знак после запятой для заранее определенной организаторами метрики?

Обычно в задачах, решаемых с помощью нейронных сетей, настройка процесса обучения основывается большей частью на опыте исследователя и некоторых эвристиках. Например, для задач сегментации изображений чаще всего применяются функции потерь, основанные на оценке совпадения форм распознанных зон, так называемые Intersection over Union.

Интуитивно, основываясь на понимании поведения и результатах исследований, такого рода функции дадут лучший результат, чем те, которые не заточены под изображения, как например кросс-энтропийные. Тем не менее, эксперименты в поисках оптимального варианта для такого типа задач в целом и каждой задачи индивидуально продолжаются.

Данные сейсморазведки, подготовленные для интерпретации, обладают рядом особенностей, которые могут оказать существенное влияние на поведение функции потерь. Например, горизонты, разделяющие геологические слои, плавные, более резко изменяющиеся только в местах разломов. Кроме того, выделяемые зоны имеют достаточно большую относительно изображения площадь, т.е. маленькие пятна на результатах интерпретации чаще всего считаются ошибкой распознавания.

В рамках данного эксперимента мы попытались найти ответы на следующие локальные вопросы:

Действительно ли для рассмотренной ниже задачи наилучший результат даст функция потерь класса Intersection over Union? Вроде ответ очевиден, но какая именно? И насколько лучший с точки зрения бизнеса?
Можно ли еще улучшить результаты, комбинируя функции различных классов? Например, Intersection over Union и кросс-энтропийную с разными весами.
Можно ли еще улучшить результаты, добавляя к функции потерь разные дополнения, разработанные специально для сейсмических данных?

И на более глобальный вопрос:

А стоит ли заморачиваться подбором функции потерь для задач интерпретации сейсмических данных, или полученный выигрыш в качестве не сопоставим с потерями времени на проведение таких исследований? Может, стоит интуитивно выбрать любую функцию и потратить силы на подбор более значимых параметров обучения?

Общее описание эксперимента и использованных данных

Для эксперимента мы взяли все ту же задачу выделения геологических слоев на 2D-срезах сейсмического куба (см. рисунок 1).

Рисунок 1. Пример 2D-среза (слева) и результата разметки соответствующих ему геологических слоев (справа) (источник)

И тот же набор полностью размеченных данных из голландского сектора акватории Северного моря. Исходные сейсмические данные представлены на сайте Open Seismic Repository: Project Netherlands Offshore F3 Block. Их краткое описание можно найти в статье Silva et al. «Netherlands Dataset: A New Public Dataset for Machine Learning in Seismic Interpretation».

Поскольку в нашем случае речь идет о 2D-срезах, мы использовали не исходный 3D-куб, а уже сделанную «нарезку», доступную здесь: Netherlands F3 Interpretation Dataset.

В процессе эксперимента мы решили следующие задачи:

Просмотрели исходные данные и отобрали срезы, которые по качеству ближе всего к ручной разметке (аналогично предыдущему эксперименту).
Зафиксировали архитектуру нейронной сети, методику и параметры обучения и принцип выбора срезов для обучения и валидации (аналогично предыдущему эксперименту).
Выбрали исследуемые функции потерь.
Выбрали наилучшие параметры для параметризованных функций потерь.
Обучили нейронные сети с разными функциями на одном и том же объеме данных и выбрали наилучшую функцию.
Обучили нейронные сети с разными комбинациями выбранной функции с функциями другого класса на том же объеме данных.
Обучили нейронные сети с регуляризацией выбранной функции на том же объеме данных.

Для сравнения мы использовали результаты предыдущего эксперимента, в котором функция потерь была выбрана исключительно интуитивно и представляла собой комбинацию функций разных классов с коэффициентами, так же выбранными «на глаз».

Результаты данного эксперимента в виде оценочных метрик и предсказанных сетями масок срезов представлены далее.

Задача 1. Отбор данных

В качестве исходных данных мы использовали готовые инлайны и кросслайны сейсмического куба из голландского сектора акватории Северного моря. Как и в предыдущем эксперименте, имитируя работу интерпретатора, для обучения сети мы выбрали только чистые маски, просмотрев все срезы. В результате было отобрано 700 кросслайнов и 400 инлайнов из ~1600 исходных изображений.

Задача 2. Фиксирование параметров эксперимента

Данный и следующий разделы представляют интерес, в первую очередь, для специалистов по Data Science, поэтому будет использоваться соответствующая терминология.

Для обучения мы выбрали 5% от общего количества срезов, причем, инлайны и кросслайны в равных долях, т.е. 40 + 40. Срезы выбирались равномерно по всему кубу. Для валидации использовалось по 1 срезу между соседними изображениями тренировочной выборки. Таким образом, валидационная выборка состояла из 39 инлайнов и 39 кросслайнов.

В отложенную выборку, на которой и проводилось сравнение результатов, попали 321 инлайн и 621 кросслайн.

Аналогично предыдущему эксперименту, предобработка изображений не проводилась, и использовалась та же архитектура UNet с теми же параметрами обучения.

Целевые маски срезов были представлены как бинарные кубы размерностью HxWx10, где последнее измерение соответствует количеству классов, а каждое значение куба равно 0 или 1 в зависимости от того, принадлежит ли данный пиксель изображения классу соответствующего слоя или нет.

Каждый прогноз сети представлял собой аналогичный куб, каждое значение которого имеет отношение к вероятности принадлежности данного пикселя изображения классу соответствующего слоя. В большинстве случаев это значение преобразовывалось в собственно вероятность применением сигмоиды. Однако не для всех функций потерь это нужно делать, поэтому для последнего слоя сети активация не использовалась. Вместо этого соответствующие преобразования выполнялись в самих функциях.

Для уменьшения влияния произвольности выбора начальных весов на результаты, сеть была обучена в течение 1 эпохи с бинарной кросс-энтропией в качестве функции потерь. Все остальные обучения стартовали с этих полученных весов.

Задача 3. Выбор функций потерь

Для эксперимента были выбраны 2 базовых класса функций в 6-ти вариантах:

Binary cross entropy:

binary cross entropy;
weighted binary cross entropy;
balanced binary cross entropy.

Intersection over Union:

Jaccard loss;
Tversky loss;
Lovász loss.

Краткое описание перечисленных функций с кодом для Keras даны в статье. Здесь представим самое важное со ссылками (где это возможно) на детальное описание каждой функции.

Для нашего эксперимента важна согласованность функции, используемой во время обучения, с метрикой, по которой мы оцениваем результат прогноза сети на отложенной выборке. Поэтому мы использовали свой код, реализованный на TensorFlow и Numpy, написанный непосредственно по приведенным ниже формулам.

В формулах далее используются обозначения:

pt – для бинарной целевой маски (Ground Truth);
pp – для маски прогноза сети.

Для всех функций, если это не оговорено особо, предполагается, что маска прогноза сети содержит вероятности для каждого пикселя изображения, т.е. значения в интервале (0, 1).

Binary cross entropy

Описание: https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a.

Данная функция стремится приблизить распределение прогноза сети к целевому, штрафуя не только за ошибочные предсказания, но и за неуверенные.

Weighted binary cross entropy

Данная функция совпадает с бинарной кросс-энтропией при значении коэффициента beta = 1. Рекомендуется при сильном дисбалансе классов. При beta > 1 уменьшается количество ложно отрицательных прогнозов (False Negative) и увеличивается полнота (Recall), при beta < 1 уменьшается количество ложно положительных прогнозов (False Positive) и увеличивается точность (Precision).

Balanced binary cross entropy

Данная функция похожа на взвешенную кросс-энтропию, но корректирует вклад не только единичных, но и нулевых значений целевой маски. Совпадает (с точностью до константы) с бинарной кросс-энтропией при значении коэффициента beta = 0.5.

Jaccard loss

Коэффициент Жаккарда (он же Intersection over Union, IoU) определяет меру «похожести» двух областей. То же самое делает Dice index:

Рассматривать обе эти функции смысла нет. Мы выбрали Жаккард.

Для случая, когда обе области задаются с помощью бинарных масок, представленная выше формула легко переписывается в терминах значений масок:

Для небинарных прогнозов оптимизация коэффициента Жаккарда является нетривиальной задачей. Мы будем использовать эту же формулу и для вероятностей в маске прогноза как некую имитацию исходного коэффициента и, соответственно, следующую функцию потерь:

Tversky loss

Описание: https://arxiv.org/pdf/1706.05721.pdf

Данная функция является параметризованным вариантом оптимизации коэффициента Жаккарда совпадает с ним при значениях alpha = beta = 1 и с Dice-индексом при alpha = beta = 0.5. При иных ненулевых и несовпадающих значениях мы можем смещать акценты в сторону точности или полноты аналогично тому, как это делалось в функциях взвешенной и сбалансированной кросс-энтропии.

Задача смещения акцентов может быть переписана с помощью одного коэффициента, лежащего в интервале (0, 1). Итоговая функция потерь будет выглядеть следующим образом:

Lovász loss

Для данной функции затруднительно привести формулу, поскольку она представляет собой вариант оптимизации коэффициента Жаккарда по алгоритму, основанному на отсортированных ошибках.

Описание функции можно посмотреть здесь, один из вариантов кода – здесь.

Важное пояснение!

Для упрощения сравнения значений и графиков далее под термином «коэффициент Жаккарда» далее мы будем понимать единицу минус собственно коэффициент. Jaccard loss – это один из способов оптимизации такого коэффициента, наряду с Tversky loss и Lovász loss.

Задача 4. Выбор наилучших параметров для параметризованных функций потерь

Для выбора наилучшей функции потерь на одном и том же наборе данных нужен критерий оценки. В его качестве мы выбрали среднее/медианное количество компонент связности на получающихся масках. Дополнительно мы использовали коэффициент Жаккарда для прогнозных масок, преобразованных в однослойные по argmax и вновь разделенные уже на бинаризованные слои.

Количество компонент связности (т.е. сплошных пятен одного цвета) на каждом полученном прогнозе является косвенным критерием оценки объема его последующей доработки интерпретатором. Если это значение равно 10, то слои выделены правильно и речь идет максимум о незначительной коррекции горизонтов. Если их ненамного больше, то потребуется лишь «чистка» небольших зон изображения. Если их существенно больше, то все плохо и может даже понадобится полная переразметка.

Коэффициент Жаккарда, в свою очередь, характеризует совпадение зон изображения, отнесенных к одному классу, и их границ.