Как стать автором
Обновить

Глубокое обучение в науке вредно без глубокой проверки фактов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.1K
Всего голосов 36: ↑36 и ↓0+49
Комментарии19

Комментарии 19

Нужно бороться с системой мотивации, непропорционально перекошенной в сторону громких ИИ-решений ценой качества результатов. Увы, эта проблема в науке возникла задолго до ИИ.

НЛО прилетело и опубликовало эту надпись здесь

К тому же, в статье нет цифр подтверждающих наличие перекоса финансирования в пользу исследований с применением ИИ (трансформеров). Нет цифр показывающих процент использования ИИ, среди всех исследований использующих компьютерное моделирование.

То есть я правильно понимаю - вместо литературных текстов, системе глубокого обучения дали на вход 22 миллиона спецификаций ферментов и описания их свойств, а далее - для спецификации фермента предложили описать его свойства?

Охренительно. То есть модель никакого физического представляения о самом ферменте (и том, как он работает в огранизме) не имеет, но выдаёт "похожие на настоящие" описания?

Хайпожоры, что тут сказать.

Так в таком режиме модель должна работать на порядок качественнее, чем если ей давать "литературное описание". Фактически, это идеальная задача для трансформера.

Да, именно охренительно...

Забавно, но в этот момент на тысячах компов генерятся «похожие на настоящие» куски кода, которые покрываются «похожими на настоящие» тестами, а потом собираются в «похожие на настоящие» системы и продукты.

Впору вводить лейбл «Без ИИ», аналог надписи на пачке халвы «Без ГМО».

Ага! не просто лейбл, а оформлять патент - "No-AI"

*на пачке соды

В первой статье не нашел как был поделен датасет на обучающую и тестовую выборки.
Если все 22 миллиона обучающих данных были спущены на обучение модели, а тестирование проводилось на трех(!) экспериментальных - какая гадость....

Строго говоря, публикация этой статьи это и ошибка редактора: так как он не привлёк к редактированию профильных специалистов по ферментам (а они узнали об этом исследовании только после печати).
И если авторы назвали цифру в 450 ферментов, то пускай и подтверждают все их свойства in vitro, а не "тяп-ляп" и готово.

Когда-то был выпуск "Адам портит всё", где говорилось, что там чуть ли не половина научных исследований не воспроизводятся. И главная проблема в том, что научных статей слишком много и все проверить невозможно. Поэтому недобросовестные "исследователи" могут сначала печататься в мусорных журналах, а потом перепечатывать свои статьи в нормальные со ссылками.

И вот тут с ИИ проблема в том, что он может написать столько мусорных работ, сколько раньше было сделать невозможно. И это может очень серьёзно усугубить проблему. Поэтому нужно разрабатывать какие-то автоматизированные методики, которые будут помогать выявлять ИИ-статьи.

позвольте на эту тему ответить цитатой Льва Толстого

НЛО прилетело и опубликовало эту надпись здесь

внимательнее присмотрелись к другим ферментам, для которых в статье Kim, et al были найдены новые результаты. Они выяснили, что 135 из этих результатов уже есть в списке онлайн-базы данных, использованной для создания датасета обучения, а поэтому на самом деле не новы. Ещё 148 результатов содержали высокую степень повторяемости: одни и те же высокоспецифичные функции встречались в них до двенадцати раз.

Шикарно. Я искренне надеюсь, что команду де Креси-Лагар, никто не придумает обвинять в токсичности.

Чем-то ситуация с публикацией исследований по ферментам и с последующим разоблачение напоминает историю с "Корчевателем" 2007 года.

Ситуация с публикацией исследований по ферментам (которые похоже были подготовлены при помощи комбинации традиционного и ИИ-мухлежа) с последующим разоблачением напоминает сюжет с SCIgen/"Корчевателем" 2007 года. «Мухлеж» с использованием ИИ, а затем «детективная история» с раскрытием обмана снова иллюстрируют пару старых тезисов:

  1. «Никому нельзя верить».

  2. Для широкой общественности, в том числе в научных кругах, форма подачи и презентация исследований важнее, чем их содержание.

Чем-то ситуация с публикацией исследований по ферментам и с последующим разоблачение напоминает историю с "Корчевателем" 2007 года.

В случае с использованием трансформеров для анализа ферментов, нет признаков мошенничества. Использование трансформеров это новая область компьютерного анализа, в которой еще не накоплено достаточно данных. Некоторые группы исследователей пробуют этот инструмент, и делятся полученными результатами, не претендуя на истину. Все открыто для критики.
Статья про использование трансформеров была опубликована в ноябре 2023. Статья с критикой была опубликована в июле 2024 на researchgate.net и в октябре на biorxiv.org. Наверно если бы это было мошенничеством, то было бы достаточно откликов чтобы статью про трансформеры сняли.

Слишком громкие заявления для обозначенной в статье проблемы.

  1. Первичная структура белка определяется всё. Она определяет форму, форма определяется функцию. Взаимосвязь "структура-функция" первична. Поэтому если показано, что фермент является гидролазой и имеет такую активность, значит является и имеет. Он при этом может быть ещё и рецептором, но от этого он не перестанет быть гидролазой.

  2. Автор трактует исследование и слова критики той докторини не принимая во внимание горизонтального переноса генов и генеза вирусного мусора в бактериях. Да что в бактериях - в растениях можно найти внедренный паразитом ген для синтеза редкого углевода, который растение не ест - а паразит ест и ещё как.

Задача определения структуры по последовательности решалась биоинформатиками ещё задолго до всех этих RNN и "Внимание всё что нужно тебе". Выравнивание последовательностей, поиск гомологов, фолдинг - все эти процедуры известны. Наоборот, авторы молодцы, что имплементируют новые методы для решения таких задач. Тут, скорее, важен вопрос оценки параметров ошибки и критериев проверки. Но нельзя тыкнуть в несколько результатов и сказать "смотрите, это не подходит, поэтому так нельзя"! Вы же устанете тыкать в другие результаты и кричать "А это подходит, и это подходит, и это подходит...". А привычные "другие типы доказательств, например, контекст соседства генов, докинга субстратов, совместного присутствия генов на метаболических путях и другие признаки ферментов" не совсем и не всегда актуальны по причинам, представленным выше. Если такая инфа есть, то задача тривиальна, а если нет, то нельзя однозначно трактовать это как негативный ответ.

два энкодера трансформера, два свёрточных слоя и линейный слой

*два энкодер-слоя, а не два энкодера


А кто-нибудь вообще заметил, что эта модель - курам на смех? Всего два attention-слоя, серьезно? Прямо "глубокое" обучение, глубже не придумаешь.

Ну, теоретически, так-то и одного достаточно.

Качество предсказаний нейронки, вне зависимости от архитектуры, всегда завязано на число параметров. Они сделали крохотный трансформер и удивляются, что он сильно галлюцинирует

Вообще-то, галлюцинации и возникают от того, что сжатие трейнсета в веса модели происходит с потерями. Когда весов мало, то и потерь будет больше -> больше галлюцинаций

Вообще, статья похожа на тупую пропаганду "AI bad"

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации