Коллектив специалистов из Института AIRI, компании Sber AI, МГУ и Минералогического музея им. А.Е. Ферсмана создал базу данных из тысяч изображений образцов горных пород. База должна помочь в обучении искусственного интеллекта классифицировать минералы, определять их размер и оценивать качество работы алгоритмов компьютерного зрения для задач геологии. Исследования опубликованы в журнале Computers & Geosciences. Об этом рассказали информационной службе Хабра в пресс‑службе Института AIRI.
Для анализа минерала может потребоваться от 30 минут до нескольких дней, и не все минералы изучены одинаково хорошо. В природе существует около 6 тысяч минералов — из них описано несколько сотен породообразующих и представляющих интерес для промышленности типов.
Визуальная диагностика — это первый и самый распространённый метод анализа горных пород и минералов. С её помощью можно отделить образцы под автоматическую обработку и под ручную. Однако этот подход больше всего подвержен человеческому фактору. Научные группы по всему миру работают над изучением методик визуальной диагностики с помощью ИИ для уменьшения процента ошибок при внешней оценке образцов. Диагностика с помощью ИИ поможет сэкономить время на рутинных задачах, позволит исключить из процесса дорогостоящие методы, например спектроскопию или химический анализ, особенно в случаях, когда они выполняются для подстраховки.
Существует и другая проблема. В литературе отсутствуют чёткие определения для анализа изображений минералов и общепринятая система сравнительного анализа. Для решения этой проблемы научные группы Fusion Brain и «Глубокое обучение в науках о жизни» Института искусственного интеллекта AIRI создали проект MineralImage5k. Вместе со специалистами из Sber AI и МГУ имени Ломоносова была собрана база данных из 44 тысяч изображений более чем 5 тысяч видов минералов. Эта база содержит подмножества данных для классификации, сегментации и оценки размера образцов. Работа была проведена при поддержке Минералогического музея им. А.Е. Ферсмана, в фондах которого хранится более 170 тысяч образцов горных пород и минералов. В будущем коллектив планирует расширять набор данных.