Комментарии 19
Нужно бороться с системой мотивации, непропорционально перекошенной в сторону громких ИИ-решений ценой качества результатов. Увы, эта проблема в науке возникла задолго до ИИ.
То есть я правильно понимаю - вместо литературных текстов, системе глубокого обучения дали на вход 22 миллиона спецификаций ферментов и описания их свойств, а далее - для спецификации фермента предложили описать его свойства?
Охренительно. То есть модель никакого физического представляения о самом ферменте (и том, как он работает в огранизме) не имеет, но выдаёт "похожие на настоящие" описания?
Хайпожоры, что тут сказать.
Да, именно охренительно...
Забавно, но в этот момент на тысячах компов генерятся «похожие на настоящие» куски кода, которые покрываются «похожими на настоящие» тестами, а потом собираются в «похожие на настоящие» системы и продукты.
Впору вводить лейбл «Без ИИ», аналог надписи на пачке халвы «Без ГМО».
В первой статье не нашел как был поделен датасет на обучающую и тестовую выборки.
Если все 22 миллиона обучающих данных были спущены на обучение модели, а тестирование проводилось на трех(!) экспериментальных - какая гадость....
Строго говоря, публикация этой статьи это и ошибка редактора: так как он не привлёк к редактированию профильных специалистов по ферментам (а они узнали об этом исследовании только после печати).
И если авторы назвали цифру в 450 ферментов, то пускай и подтверждают все их свойства in vitro, а не "тяп-ляп" и готово.
Когда-то был выпуск "Адам портит всё", где говорилось, что там чуть ли не половина научных исследований не воспроизводятся. И главная проблема в том, что научных статей слишком много и все проверить невозможно. Поэтому недобросовестные "исследователи" могут сначала печататься в мусорных журналах, а потом перепечатывать свои статьи в нормальные со ссылками.
И вот тут с ИИ проблема в том, что он может написать столько мусорных работ, сколько раньше было сделать невозможно. И это может очень серьёзно усугубить проблему. Поэтому нужно разрабатывать какие-то автоматизированные методики, которые будут помогать выявлять ИИ-статьи.
позвольте на эту тему ответить цитатой Льва Толстого

внимательнее присмотрелись к другим ферментам, для которых в статье Kim, et al были найдены новые результаты. Они выяснили, что 135 из этих результатов уже есть в списке онлайн-базы данных, использованной для создания датасета обучения, а поэтому на самом деле не новы. Ещё 148 результатов содержали высокую степень повторяемости: одни и те же высокоспецифичные функции встречались в них до двенадцати раз.
Шикарно. Я искренне надеюсь, что команду де Креси-Лагар, никто не придумает обвинять в токсичности.
Чем-то ситуация с публикацией исследований по ферментам и с последующим разоблачение напоминает историю с "Корчевателем" 2007 года.
Ситуация с публикацией исследований по ферментам (которые похоже были подготовлены при помощи комбинации традиционного и ИИ-мухлежа) с последующим разоблачением напоминает сюжет с SCIgen/"Корчевателем" 2007 года. «Мухлеж» с использованием ИИ, а затем «детективная история» с раскрытием обмана снова иллюстрируют пару старых тезисов:
«Никому нельзя верить».
Для широкой общественности, в том числе в научных кругах, форма подачи и презентация исследований важнее, чем их содержание.
Чем-то ситуация с публикацией исследований по ферментам и с последующим разоблачение напоминает историю с "Корчевателем" 2007 года.
В случае с использованием трансформеров для анализа ферментов, нет признаков мошенничества. Использование трансформеров это новая область компьютерного анализа, в которой еще не накоплено достаточно данных. Некоторые группы исследователей пробуют этот инструмент, и делятся полученными результатами, не претендуя на истину. Все открыто для критики.
Статья про использование трансформеров была опубликована в ноябре 2023. Статья с критикой была опубликована в июле 2024 на researchgate.net и в октябре на biorxiv.org. Наверно если бы это было мошенничеством, то было бы достаточно откликов чтобы статью про трансформеры сняли.
Слишком громкие заявления для обозначенной в статье проблемы.
Первичная структура белка определяется всё. Она определяет форму, форма определяется функцию. Взаимосвязь "структура-функция" первична. Поэтому если показано, что фермент является гидролазой и имеет такую активность, значит является и имеет. Он при этом может быть ещё и рецептором, но от этого он не перестанет быть гидролазой.
Автор трактует исследование и слова критики той докторини не принимая во внимание горизонтального переноса генов и генеза вирусного мусора в бактериях. Да что в бактериях - в растениях можно найти внедренный паразитом ген для синтеза редкого углевода, который растение не ест - а паразит ест и ещё как.
Задача определения структуры по последовательности решалась биоинформатиками ещё задолго до всех этих RNN и "Внимание всё что нужно тебе". Выравнивание последовательностей, поиск гомологов, фолдинг - все эти процедуры известны. Наоборот, авторы молодцы, что имплементируют новые методы для решения таких задач. Тут, скорее, важен вопрос оценки параметров ошибки и критериев проверки. Но нельзя тыкнуть в несколько результатов и сказать "смотрите, это не подходит, поэтому так нельзя"! Вы же устанете тыкать в другие результаты и кричать "А это подходит, и это подходит, и это подходит...". А привычные "другие типы доказательств, например, контекст соседства генов, докинга субстратов, совместного присутствия генов на метаболических путях и другие признаки ферментов" не совсем и не всегда актуальны по причинам, представленным выше. Если такая инфа есть, то задача тривиальна, а если нет, то нельзя однозначно трактовать это как негативный ответ.
два энкодера трансформера, два свёрточных слоя и линейный слой
*два энкодер-слоя, а не два энкодера

А кто-нибудь вообще заметил, что эта модель - курам на смех? Всего два attention-слоя, серьезно? Прямо "глубокое" обучение, глубже не придумаешь.
Ну, теоретически, так-то и одного достаточно.
Качество предсказаний нейронки, вне зависимости от архитектуры, всегда завязано на число параметров. Они сделали крохотный трансформер и удивляются, что он сильно галлюцинирует

Вообще-то, галлюцинации и возникают от того, что сжатие трейнсета в веса модели происходит с потерями. Когда весов мало, то и потерь будет больше -> больше галлюцинаций
Вообще, статья похожа на тупую пропаганду "AI bad"
Глубокое обучение в науке вредно без глубокой проверки фактов