
Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям).
Однако если вы проделаете кропотливую работу по анализу чужой опубликованной работы и обнаружите, что она полна серьёзных ошибок, в том числе сотнями некорректных прогнозов, то можете опубликовать на bioRxiv препринт, который не получит и доли цитат и просмотров исходного исследования. На самом деле, именно это и произошло в случае двух статей:
Эта пара статей о функциях ферментов стала прекрасным примером для изучения границ применения ИИ в биологии и неправильно расставленных акцентов в современной публикации результатов. В этом посте я расскажу о некоторых подробностях, однако призываю вас изучить статьи самостоятельно. Этот контраст станет ярким напоминанием о том, как сложно бывает оценить правдивость результатов ИИ без глубокого знания предметной области.