Как стать автором
Обновить
662.55
Яндекс
Как мы делаем Яндекс

«Чистый берег»: как нейросеть в облаке помогает с уборкой побережья Камчатки и Арктики

Время на прочтение13 мин
Количество просмотров1.1K

Ежегодно в Мировой океан попадает более 11 млн тонн пластика — его накопление в водоёмах угрожает не только отдельным видам птиц и животных, но и целым природным экосистемам. В России эта проблема проявляется не столь остро, как, например, в странах Юго‑Восточной Азии, но тем не менее морской мусор встречается регулярно.

В 2024 году команда специалистов Дальневосточного федерального университета (ДВФУ), Кроноцкого заповедника, Центра технологий для общества Yandex Cloud и Школы анализа данных Яндекса (ШАД) запустила проект «Чистый берег», результатом которого стала разработка нейросети, обученной распознавать определённые виды мусора на побережье, что, в свою очередь, позволяет определить его массу и объём.

Меня зовут Дмитрий Сошников, и в этом проекте я выступил в качестве научного руководителя студентов ШАД. В статье расскажем, как готовили данные и обучали нейросеть, какие технологии для этого использовали и как приложения на основе ML помогают планировать работу исследователей и волонтёров.

В чём проблема и как её решали раньше

Ещё не так давно было популярным мнение о длительном периоде разложения пластика, занимающем сотни лет. Но исследования, проведённые, например, японскими учеными, показали, что жизненный цикл пластика существенно короче, чем предполагалось. Под действием солнечных лучей, гидродинамических и физико‑химических процессов, происходящих в морской воде и береговой зоне, пластик становится хрупким и разрушается, превращаясь в так называемый микропластик. Эти мелкие частицы морские обитатели могут принимать за пищу. Накапливаясь в желудочно‑кишечном тракте животных, микропластик способен привести к их гибели. Но главная опасность пластикового мусора — в очень быстрой скорости его накопления. Всё это привело к формированию множества экологических инициатив, в том числе международных, по борьбе с морским мусором. Так, под эгидой ЮНЕП в настоящее время обсуждается международный договор по борьбе с загрязнением окружающей среды, в том числе морской, пластиковым мусором.

В океане существуют и менее очевидные для обывателя угрозы морским экосистемам, например рыболовные сети. Существует такое понятие, как Ghost net, или призрачная сеть, — сеть, которая была потеряна рыбаками, но которая, находясь в толще морской воды, продолжает ловить рыбу и морских животных. По оценкам экспертов, орудия рыболовства составляют до 60% всего океанского мусора.

Часто уборка мусора на побережьях организуется избирательно: например, волонтёры могут в большей степени обращать внимание на пластик среднего размера, который проще собрать, но на берегу остаётся лежать большое количество довольно тяжёлых рыболовных сетей или обломков строительных конструкций, которые сложны для сбора и утилизации. Или, напротив, в береговой черте может быть множество слишком мелкого мусора, сбор которого трудоёмок. При этом много отходов может скапливаться в труднодоступных местах, куда самоорганизованная команда добровольцев просто не может добраться без спецтехники.

Так обычно выглядит сбор мусора в волонтёрских проектах
Так обычно выглядит сбор мусора в волонтёрских проектах

Ещё одна проблема уборки труднодоступных территорий заключается в том, что даже если волонтёры добрались туда и очистили побережье, то вывезти мусор не представляется возможным либо технически, либо экономически.

Очень важно при осуществлении уборки заранее планировать необходимую в экспедиции технику и снаряжение. Один из способов, который позволит снизить затраты на вывоз мусора из труднодоступных мест, — создавать пункты переработки непосредственно на местах, что, к сожалению, не всегда целесообразно. Для этого также необходима оценка накопленного мусора на той или иной территории.

Изучением проблемы мусора и оценкой объёма отходов занимаются междисциплинарные команды исследователей. В ДВФУ эту тему исследуют с 1999 года. Ещё в 90-х годах прошлого столетия под эгидой ООН была инициирована программа NOWPAP (Northwest Pacific Action Plan), которая объединила Китай, Республику Корею, Россию и Японию и позволила специалистам стран обмениваться информацией, совершенствовать методы исследования загрязнения и координировать усилия по сокращению последствий. В рамках NOWPAP Россия стала проводить активные мероприятия с 2005 года.

В Кроноцком заповеднике в 2021 году также начали изучать происхождение мусора по единой международной методике. Для этого выбирают пробные площади, на которых ежегодно оценивают накопление мусора в динамике, а также проводят регулярные кампании по уборке. Так учёные могут оценивать антропогенное воздействие и количество пластиковых ресурсов. Для исследовательских целей особенно интересны шесть классов мусора: железо, пластик, дерево, бетон, резина, рыболовные сети.

Волонтёры очищают берег от рыболовных сетей
Волонтёры очищают берег от рыболовных сетей

Исследователи в своей работе нередко используют различные геоинформационные сервисы, где могут отмечать на карте места скопления мусора, например по результатам экспедиций или осмотров территорий. Теоретически, зная координаты, можно вычислить площадь загрязнения и оценить объём отходов. Но стандартные методы потребуют большого количества ручной работы для точной разметки территории на карте. И здесь как раз могут пригодиться методы машинного обучения.

Как сформулировали задачу в мире ML

Избавиться от ручного труда и автоматизировать такую работу помогают технологии компьютерного зрения, и в частности, семантической сегментации изображений. Это фундаментальная задача CV, при решении которой изображение делится на отдельные группы пикселей и каждый такой сегмент изображения соотносится с определённым классом. По сути такая задача является задачей классификации отдельных пикселей.

Методы семантической сегментации часто используются в связке с геоинформационными системами для распознавания объектов на снимках и нанесения их на карту. Например, в заповедниках так могут отслеживать перемещения определённых видов животных и моделировать их местообитание. В задаче с распознаванием мусора таким образом можно не только классифицировать отходы по видам, но и вычислить их объём и вес.

Одна из главных сложностей при семантической сегментации состоит в том, что для обучения модели нужны качественно размеченные данные. Нейросеть должна научиться хорошо отделять искомый объект от фона и определять его границы. При этом если размечать данные для семантической сегментации вручную, получится неоправданно дорого, поскольку необходимо не только указать класс объекта, но и «обкликать» все объекты по контуру.

Соответственно перед нашей командой в первую очередь стояла задача собрать качественный размеченный датасет для обучения. И уже после этого — обучить модель сегментации на полученных изображениях, интегрировать её в приложения для анализа накопления мусора и визуализировать полученный результат.

Соответственно роли в междисциплинарной команде распределились так:

  • Эксперты ДВФУ выступили как консультанты по проблемам мусора в регионе и предоставили первоначальные данные для обучения.

  • Студенты ШАДа занимались обучением нейросети и параллельно решали задачи разметки данных и расширения датасета.

  • Центр технологий для общества помог с разработкой архитектуры проекта с использованием облачных сервисов: объектного хранилища для размещения данных, Yandex DataSphere для обучения и инференса моделей, Yandex DataLens для визуализации данных.

  • Специалисты Кроноцкого заповедника первыми протестировали технологию, разметили фотографии и стали первыми пользователями приложения на основе обученной нейросети. С помощью полученного решения была организована первая экспедиция, в процессе которой с побережья Южно‑Камчатского заказника убрали 5 тонн мусора.

Как выглядел итоговый пайплайн решения:

  • Эксперт Кроноцкого заповедника с помощью специально разработанного приложения в облаке помог разметить первоначальный датасет.

  • С использованием генеративной модели команда ШАДа расширила обучающий датасет.

  • Параллельно с этим решили задачу улучшения разметки в датасете.

  • Итоговую модель обучили на обогащённом датасете.

  • Для исследователей и интересующихся экологией создали дашборд в Yandex DataLens, в котором можно отслеживать перемещение отходов, оценивать объёмы разных видов мусора.

  • Результаты сегментации также нанесли на карту с помощью опенсорс‑решения QGIS, которое уже использовалось в Кроноцком заповеднике.

В приложении также рассчитывается масса обнаруженного мусора: это позволяет планировать заказ спецтехники для уборки
В приложении также рассчитывается масса обнаруженного мусора: это позволяет планировать заказ спецтехники для уборки

Расскажем подробнее о том, как решались ключевые задачи подготовки данных для машинного обучения.

Что делать, если данных мало

В 2024 году в Кроноцком заповеднике для целей проекта провели съёмку территории с помощью квадрокоптера и получили около 400 фотографий береговой зоны с высоким разрешением. Сперва команда ШАДа решила попробовать zero‑shot‑подход и протестировала модель Segment Anything (SAM) c энкодером текстовой подсказки (LangSAM).

«Теоретически нашу задачу можно попробовать решать и без дообучения.
Модель SAM из коробки уже довольно неплохо определяет границы объектов. Но она не обладает необходимой стабильностью. Были примеры, когда самая уверенная маска не являлась нужным объектом. С детализацией текстовой подсказки качество модели росло. Но для более узких запросов пришлось бы создавать отдельную модель, которая могла бы писать такие текстовые подсказки.

Помимо этого, SAM — довольно тяжёлая и дорогая с точки зрения затрат на обучение с большим количеством параметров. С точки зрения нашей задачи предсказания это не очень оправданно. Поэтому было решено собирать датасет».

Артём Нургалиев

Школа анализа данных

Чтобы превратить полученные снимки в датасет, нужно было разметить на них участки с мусором, не требуя от экспертов большого количества ручной работы и не отдавая данные в сторонние сервисы.

В ШАДе создали приложение для разметки, в котором эксперт может просматривать загруженные фотографии, кликать на области с мусором и указывать класс по предложенной учёными классификации. Затем эти данные отправляются на бэкенд, где работает модель кликовой сегментации. Как при этом создаётся разметка:

  • пользователь кликает на мусор, который он видит;

  • модель сегментации по кликам прикидывает примерные границы объекта;

  • если границы определились точно, эксперт переходит к следующей фотографии;

  • если нужно уточнить границы, пользователь может добавить клики, а также указать негативные клики — сообщить модели, что часть фотографии относится к фону. Обычно хватает пары кликов.

Интерфейс приложения для разметки
Интерфейс приложения для разметки

В результате работы модели‑разметчика были получены изображения с масками шести классов. Маска содержит уверенность модели в границах от 0 до 255. Чем выше уверенность, тем ýже получается маска и тем меньшую часть объекта и фона затрагивает.

Таким образом, на первом этапе ML‑специалисты получили 132 снимка с размеченным мусором и ещё 246 фото без мусора. Для качественного обучения этих данных недостаточно. Например, были опасения, что качество распознавания полученной модели будет сильно зависеть от ландшафта. Поэтому следующим шагом стала аугментация данных.

Первоначальный датасет разбили на тренировочный и валидационный и на основе тренировочной части сгенерировали данные двумя способами: эвристическим (с помощью преобразований Фурье) и StarGAN.

«Сначала мы создали так называемый лапласов генератор — на основе гистограммы цветов и лапласовой пирамиды. Как это работает: раз у нас на снимках есть примеры мусора, то мы можем их вклеить на фон с другим ландшафтом. Сделать эту вклейку более реалистичной можно с помощью преобразований Фурье. Таким способом можно склеивать фотографии и получить больше разнообразных изображений с мусором, которые выглядят довольно правдоподобно».

Эдуард Аллахвердов

Школа анализа данных

Поскольку при «вклеивании» мусора мы знаем его расположение, то можем автоматически сгенерировать маску для такого синтетического изображения. Таким способом удалось ещё больше расширить наш датасет.

В качестве второго способа использовались генеративно‑состязательные сети (GAN) — в данном случае StarGAN‑v2 — для трансформации и редактирования существующих изображений.

Как работает StarGAN
Как работает StarGAN

Генерация новых изображений этим способом требует предварительной разметки. Для этого команда применила алгоритм UMAP на гистограмме цветов, которая используется как решающее дерево.

Такая авторазметка используется для обучения StarGAN. Затем из масок генерируются изображения, соответствующие разным комбинациям мусора и окружающего фона, например бетонный блок в песчаном ландшафте и так далее. Это позволит обученной модели распознавать мусор в разных условиях.

В результате всех преобразований получился набор из более чем 400 000 изображений. Пропорции выглядели так:

  • реальные фото 1824 × 1216 — 132 с мусором и 246 без мусора;

  • эвристически сгенерированные изображения 1824 × 1216 — 1500 с мусором;

  • сгенерированные с помощью StarGAN изображения 256 × 256 — 451 000.

При подготовке датасета все крупные фотографии также подверглись обрезке до квадратов 512 × 512 или 1024 × 1024 со страйдом (наложением) в 512 пикселей. Так количество изображений в наборе довели до 500 000.

Как показало последующее сравнение метрик обучения, уже с применением лапласовой пирамиды качество сильно улучшается. С использованием двух способов генерации метрики удаётся улучшить ещё сильнее.

Датасет

MeanIOU

IOU

Фон

Железо

Снасти

Пластик

Дерево

Бетон

Резина

Реальный

0,409

0,99

0,40

0,26

0,10

0,36

0,06

0,69

Сгенерированный эвристически

0,458

0,99

0,57

0,37

0,17

0,42

0,13

0,56

StarGAN + эвристический + реальный

0,489

0,99

0,60

0,37

0,21

0,44

0,13

0,68

StarGAN + эвристический + реальный, 1024 × 1024 (stride: 512)

0,487

0,99

0,55

0,37

0,24

0,41

0,13

0,72

В направлении улучшения разметки также ещё было куда стремиться — здесь провели ещё несколько экспериментов.

Как улучшить саму разметку

Для дообучения на полученных размеченных данных брались модели, предобученные на ImageNet. Рассматривались архитектуры U‑Net, DeepLab V-3 + Resnet-34 и SеgFormer. Последняя визуально показала наилучшее качество, поэтому остановились на ней.

Маски разметки отсекались по «границе уверенности», которую определяли эмпирически. Но полученные таким образом границы объектов не позволяли точно оценивать площадь и объём мусора. Для уточнения разметки протестировали несколько подходов.

Алгоритм GrabCut. На вход алгоритм ожидает маску, где каждый пиксель имеет одно из четырёх значений: «точно фон», «точно объект», «возможно, фон» и «возможно, объект».

«Алгоритм основан на графовой модели, которая ищет минимальный разрез в графе на основании энергии, учитывающей информацию о цветах и границах.

Я подавал на вход маску, в которой все пиксели внутри маски с отсечением по границе 50 помечены как «возможный объект», а все пиксели вне маски помечены как «точно объект». В результате получилось неплохое качество улучшения границ, однако объект нередко распадался на части, а фон был помечен как объект».

Артём Нургалиев

Школа анализа данных

Кластеризация. Для группировки использовалось пространство L*a*b, которое работает лучше для поставленной задачи, хоть и не соответствует человеческому восприятию цветов. На выходе получается два кластера, из которых необходимо выбрать один в качестве объекта одним из двух способов:

  • по относительной площади пересечения кластера с более уверенной маской. Берётся более уверенная маска и выбирается тот кластер, который больше с ней пересекается;

  • по различию среднего цвета в кластере с цветом в границе маски. Берётся некоторая граница вокруг маски, и цвет в этой границе должен больше соответствовать цвету фона, чем цвету объекта.

Минус в том, что к каждому способу можно придумать контрпример. Такая кластеризация хорошо работает только в случае, если объект в среднем одного цвета.

Модели глубокого обучения. Здесь уже выбирали модели, которые заранее обладают информацией об объектах и о фоне. Команда снова обратилась к модели сегментации SAM, но уже не с текстовой подсказкой, а с подсказкой в виде набора позитивных и негативных точек.

«Позитивные маски выбирались с отсечением по высокому порогу уверенности, а негативные точки — с маской с низким порогом уверенности. Дополнительные негативные точки выбирались в границе.

Качество обнаружения объектов уступает методу кластеризации, однако на большинстве примеров, которые были в обучающем датасете, качество получилось очень высоким — нам важно, что это не требует участия человека».

Артём Нургалиев

Школа анализа данных

Так по итогам всех экспериментов разметку в датасете улучшили с помощью модели SAM (Segment Anything).

Где ещё можно использовать решение 

Дообученную модель внедрили в приложение QGIS, где результат обработки показывается пользователю на карте в виде отдельного картографического слоя. В QGIS происходит вклейка фотографий на спутниковую карту по геоданным, данным о высоте полёта, разрешению камеры и другой информации. Также на бэкенде рассчитываются площадь, объём и масса распознанного мусора. Как этим пользуются волонтёры:

  1. Во время подготовки к экспедиции добровольческие бригады заранее запрашивают разрешение на аэрофотосъёмку дроном той территории, где планируется уборка.

  2. Полученные с дрона снимки загружаются в приложение, где из объектного хранилища отправляются в нейросеть на анализ.

  3. По результатам анализа в приложении строится карта, где мусор классифицирован по шести видам и размечен по весу.

  4. Волонтёры изучают эту информацию и определяют, сколько людей потребуется, какие нужны инструменты для сбора мусора на конкретном участке, сколько техники необходимо.

  5. После этого начинается уборка. По принятой методике начинают с пробного участка на 100 метров. Волонтёры находят на нём все элементы мусора, определяют кому он принадлежит, взвешивают и описывают.

  6. Затем мусор собирают в специальные мешки на участке побережья в 5–10 км. Собирать крупный и тяжёлый мусор также помогают промышленные предприятия, которые присылают свою технику. Собранные мешки взвешивают уже на кране — так собирается статистика фактически обнаруженного мусора, которую можно сравнить с прогнозами нейросети.

Точность распознавания различных видов мусора сейчас — примерно 80%. В ходе первой экспедиции в 2024 году собрать 5 тонн мусора удалось силами 20 волонтёров, в помощь которым также выделили два самосвала, два квадроцикла и фронтальный погрузчик.

В дальнейшем эту технологию можно использовать и в других регионах. Например, сейчас идут программы по очистке Арктики и Дальнего Востока от железа. Уже есть аэрофотоснимки берегов Камчатки, Ненецкого заповедника, Земли Франца‑Иосифа, и нейросеть умеет распознавать железо на таких фотографиях. По результатам сезона весны‑лета 2025-го к проекту подключатся особо охраняемые природные территории Дальнего Востока, а также к проекту планируют подключить охраняемые территории юга и северо‑запада России. В дальнейшем также можно использовать нейросеть для крупных берегов рек.

Все использованные инструменты выложены в опенсорс: https://github.com/yandex‑datasphere/garbage‑detection

А значит, воспользоваться их возможностями могут учёные, экоактивисты и все заинтересованные в исследовании проблем мусора.

Теги:
Хабы:
+25
Комментарии2

Полезные ссылки

Как нейросети помогают изучать снежных барсов: о проекте Сайлюгемского парка и Yandex Cloud

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров5.8K
Всего голосов 35: ↑35 и ↓0+35
Комментарии9

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

Время на прочтение17 мин
Количество просмотров17K
Всего голосов 36: ↑36 и ↓0+36
Комментарии5

Исследуем микроорганизмы Байкала. Открытый проект MaritimeAI и Yandex Cloud

Время на прочтение9 мин
Количество просмотров5.7K
Всего голосов 20: ↑20 и ↓0+20
Комментарии14

Информация

Сайт
www.ya.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия