spiralis Sep 23 2022 at 10:45

Исследуем микроорганизмы Байкала. Открытый проект MaritimeAI и Yandex Cloud

9 min

5.5K

Яндекс corporate blogOpen source*Machine learning*Open data*Ecology

+20

Comments 14

PereslavlFoto Sep 23 2022 at 22:06

1) Вы опубликовали датасет при помощи инструмента Creative Commons CC0, то есть объявили, что все права на этот датасет перестали существовать, датасет перешёл в общественное достояние.

Такой поступок очень редко встречается в российских НИИ, вузах и академических институтах. Что привело вас к такой щедрости, к такому благородству? Почему вы, в отличие от «Яндекса», не стали продавать права на фотографии?

2) Рассказывая про датасет, вы написали: «a specialist now takes photographs by saving frames from the microscope’s camera». Снимки делает специалист вашей компании? Или специалист из университета?

Спасибо.

spiralis Sep 24 2022 at 12:28

Это решение НИИ. Им к научным статьям нужно прикладывать данные, к тому же есть желание наладить взаимодействие с другими научными организациями, выполняющими похожие работы. Мы будем постепенно открывать всё больше данных, добавляя новые атрибуты к объектам и расширяя выборку за счет новых фотографий.
Съемку делает специалист НИИ. Хотя сейчас это уже может быть не только специалист по планктону, но и, к примеру, студент, который уже освоил использование микроскопа. Со своей стороны мы смотрим, как можно автоматизировать и эту часть процесса.

PereslavlFoto Sep 24 2022 at 18:07

1. Спасибо. Из ваших слов я понял, что решение принимали в НИИ и вы не знаете подробностей об их мотивах. Собственно, причина моего вопроса в том, что на своём сайте НИИ не даёт никаких разрешений, не позволяет никому использовать свой контент. Вот отсюда и появляются подозрения.

2. Если это специалист НИИ, тогда разрешение CC0 должно быть опубликовано не от вашего имени, а от имени самого НИИ. Если же это делает студент, который не работает в НИИ и в обязанности которого нет этой работы, тогда разрешение CC0 должно быть опубликовано от имени конкретного студента.

krox Sep 24 2022 at 15:57

А изображений на текущий момент в гитхабе то нет....

spiralis Sep 25 2022 at 02:24

Но в json-файле есть ссылки на скачивание этих изображений.

С учетом количества изображений нам никакого git lfs не хватит уже сейчас, не говоря уже о пополнении датасета, поэтому сами изображения мы храним вне гитхаба.

Akr0n Sep 24 2022 at 17:25

Можно ли сотрудникам других научных учреждений получить тестовый доступ системе распознавания? Например, для ознакомления студентов и аспирантов с новым технологиям в этой сфере.
Как думаете, можно ли применить систему к микробиму других озер региона? Если кто-то из научного сообщества вызовется добавить фото других озер?

spiralis Sep 25 2022 at 02:45

Это прямо один из наших планов на будущее - попробовать подключить другие водоемы. Что касается доступа к технологиям - есть планы открыть исходный код и модели.

Akr0n Sep 25 2022 at 03:08

Для других водоемов нужны данные из других регионов, планируется ли для этого подключать научные организации из других субъектов РФ?

PereslavlFoto Sep 25 2022 at 03:14

Что же мешает их открыть? Почему только планы?

spiralis Sep 26 2022 at 01:55

За время разработки и эксплуатации мы несколько раз встречали нюансы, из-за которых достаточно сильно меняли архитектуру решения и мы считаем, что если дойдем до зимнего сезона без дополнительных сюрпризов, то в принципе можно начинать делиться наработками.
Также у нас еще есть несколько подходов к валидации распознанных изображений, которые мы бы хотели сначала протестировать и только потом выложить наиболее подходящий.
Ну и самое главное - наш full-stack хочет сделать рефакторинг перед релизом :)

ruslantum Sep 28 2022 at 18:54

было около полчаса на одну пробу, а стало то сколько? что то не смог найти эту инфу. статья классная, пишите еще. за датасет спасибо большое, будет интересно с ним поиграться на досуге, как раз сейчас учусь на магистратуре по специальности AI :)

spiralis Sep 29 2022 at 18:00

Пока мы знакомим алгоритмы с разнообразием изображений, случается разное. Иногда удается распознать всё и сразу, иногда приходится всю пробу обрабатывать вручную - например с наступлением лета водоросли из отдельных объектов превратились в сплошной фон и до сих пор мешают распознаванию.

Само фотографирование по нашим замерам занимает ~20-25 минут, т.е. получается быстрее, чем проход по пробе, но самое главное - это можно поручить студенту, тогда экономия времени заведующего лабораторией получается стопроцентной при условии 100% распознавания.

PereslavlFoto Sep 30 2022 at 00:36

Студент не работник вуза. Студент не выполняет служебное задание по трудовому соглашению. Фотографии, сделанные студентом, являются только его собственностью, а не собственностью вуза.

И это — очень опасное место вашей технологии.

evg_voronov Aug 18 2023 at 10:59

У вас очень интересная сфера работы. Не нашел страницу вакансий на вашем сайте. Они у вас есть?