alb0ber Jul 21 2021 at 11:31

Язык, созданный искусственным интеллектом, начинает портить научную литературу

6 min

34K

From sandbox

Translation

+43

Comments 55

entze Jul 21 2021 at 12:34

Дальше будут учить GPT на статьях загаженных сгенерированным GPT контентом.

pda0 Jul 21 2021 at 13:43

На самом деле тут интереснее. Делаем нейросеть, которая будет отслеживать сгенерированные и/или бессмысленные статьи. В ответ соискатели улучшают свои генеративные сети. В результате качество сгенерированных статей потихоньку превосходит качество статей от реальных людей. Получаем полностью автоматическую науку, выходим на технологическую сингулярность. :-D

darthmaul Jul 21 2021 at 19:46

Так это же не наука, а её описание. Обычно статью пишут после того, как провели исследование. Если появится ИИ, которому можно сказать: "вот мы взяли такую форму реактора, такие покрытия, такие условия процесса, получили такой вот выход продукта" и он напишет статью - то это, конечно, упростит работу учёных и избавит их от нудной писанины, но сингулярностью тут и не пахнет. Развитие концепции GPT 3 может привести к созданию подобного "версификатора", но изучить она не может ничего т.к. является языковой моделью.

janvarev Jul 22 2021 at 06:49

> Получаем полностью автоматическую науку

Не, не так. Мы получаем полностью автоматическую «науку» (в кавычках) — в которой нет результатов, только одни статьи. И мы уже наполовину там.

tretyakovpe Jul 22 2021 at 07:32

память рисует пачки наших рефератов торчащих из бака школьной помойки

pda0 Jul 22 2021 at 08:56

Да не вопрос. Для более полной верификации к проверяющим сетям добавляем автоматические лаборатории. Потом их начинают добавлять к генерирующим... ;-)

janvarev Jul 22 2021 at 10:28

Мы таки для программ не можем сделать автоматическую проверку корректности их работы, а вы на автоматические лаборатории замахнулись :))

darthmaul Jul 22 2021 at 09:27

Если бы научить нейронки не терять ход повествования, то можно было бы задуматься о создании "электронного бюрократа", на вход которому скармливаются результаты работы/исследования, а на выходе - отчёты и статьи. Такая штука сэкономила бы миллионы человекочасов в академии и не только, на т.н. диссеминацию результатов нередко половина рабочего времени уходит.

janvarev Jul 22 2021 at 10:27

Так в статье именно это и делается. Берем результаты исследования, и разбавляем водой :) ну, пока качество воды не очень, конечно…

А если серьезно — мои исследования показывают, что эта проблема (перевода с одного языка на другой) качественно не решается принципиально. Ее можно решить двумя способами: переводить «близко к тексту», подстрочник — т.е. та же самая вода; либо же делать формальную генерацию текстов на основе результатов исследования. В последнем случае подвох — в реальности, если нужны результаты исследования, проще на них посмотреть без вот этой вот воды. А если нужно обоснование «почему нам нужен грант на это безумно важное дело» — это модели не касается, это другие вопросы и другие цели.

darthmaul Jul 28 2021 at 11:40

Так проблема не в качестве воды, а в том, что нейронки не способны надёжно выдавать текст соответствующий введённым исследователями данным, что приводит к написанию невоспроизводимого шлака. Наука ничего не потеряет если теоретическое словоблудие просядет в качестве, лишь бы логика задача - методы - результаты не терялась.

PrinceKorwin Jul 21 2021 at 12:37

Выглядит как искусственный барьер в который может упереться человечество вместо дальнейшего развития.

Goupil Jul 21 2021 at 12:48

Уже. Другой симптом той же болезни - невоспроизводимость результатов. https://www.nature.com/articles/nature.2015.17711

В 2015 около половины всех экспериментов в био-медицине в США были не воспроизводимы, то есть шли в мусорную корзину, на них тратилось до 28 миллиардов долларов. Сейчас наверняка все еще хуже.

ru1z Jul 21 2021 at 14:11

невоспроизводимость результатов. www.nature.com/articles/nature.2015.17711

Ссылка интересная, но не совсем соответствует вашему тексту, там говорилось про примерные оценки и про факторы влияющие на воспроизводимость, например, то что наибольший вклад в проблемы воспроизводимости вносят плохие материалы от поставщиков — 36%, затем следует дизайн исследования — 28% и анализ данных — 26%.

В целом, не совсем понятно с чем сравнивать проблемы невоспроизводимости, так как усложнение, по-моему, всегда ведет к проблемам с воспроизводимостью, да и нельзя сказать, что когда-то раньше совсем не было проблем с воспроизводимостью (особенно в предклинических исследованиях). А то, что статья предлагает ужесточить контроль за производителями реагентов (чтобы они соответствовали стандартам), улучшить тренинги и документацию, так это правильное мнение.

rombell Jul 21 2021 at 19:15

про невоспроизводимость есть такая замечательная история от Шкробиуса

Моя мама была органический химик.

Однажды ей надо было разработать синтез какого-то хитроумного вещества для химического завода в братской ГДР. У мамы были две лаборантки, Валя и Зина. Они разработали синтез с Валей, оптимизировав выход, а Зина должна была увеличивать загрузку, чтобы узнать, годится ли метод для производства. В здоровых стеклянных колбах. Попробовала раз — не работает. Два — не работает. Тогда умная Зина попробовала с малым количеством. И опять нe работает. Пошла к Вале и попросила повторить синтез при ней. У Вали все работает. Пришла к себе, повторила один в один — не работает. Позвала к себе Валю. И у Вали не работает. Поменялись лабораториями. В Валиной комнате у Зины все работает, у Вали в Зининой комнате — не работает. Сказать людям боятся, т.к. смеятся будут. Две недели так маялись. Меняли посуду, горелки, и т. д. Наконец, вконец отчаявшись, маме сказали. Мама развернула бурную деятельность, забросив мое воспитание, и за неделю докопалась до истины!

Обе лаборантки пользовались одним и тем же органическим растворителем, налитым в одинаковые бутылки. Однако, хроматографическое следствие показало, что в одной бутылке растворитель был перелит из бочки одного завода, а в другой — из другого, так как предыдущая бочка закончилась. Оба завода пользовались одной и той же технологией, и их продукция удовлетворяла 99.99% стандарту чистоты, но производство никогда не бывает в точности одно и то же. В одной партии растворителя реакция шла, в другом — нет. Мама догадалась, что один из них содержит примесь, которая катализировала реакцию. Без него та не шла. Тот катализатор, что они добавляли не работал, он катализировал побочную реакцию, с которой они сражались, а работала на самом деле эта неизвестнaя, случайная примесь в ничтожной концентрации. Определение этой примеси, установление ее структуры и разработка ее синтеза заняли пару лет, и это стал стандартный катализатор для этого типа реакций.

Goupil Jul 21 2021 at 19:26

Это замечательная история, и хорошо что разобрались что к чему. В противном случае для исследования исчезает всякая возможность практического применения. На практике часто бывает, что сроки подачи статьи или заявки на грант вчера, без них нет денег и конец карьеры, и потому никто не разбирается отчего что-то не сработало во второй раз.

Port5 Jul 21 2021 at 19:41

Во-во. Все бы рады заниматься детальными исследованиями в течение нескольких лет (двух лет, как в примере выше). Но у большинства этих лет нет, поэтому приходится параллельно заниматься чем-то таким, что даёт быстрый результат (и ещё больше замедляет основную работу).

Goupil Jul 21 2021 at 20:12

В индустрии этот результат хотя бы надо продать. В академии же это копится почти без контроля.

Сколько ж таких невоспроизводимых и никому не нужных исследований ради исследований я насмотрелся за свою не столь долгую научную карьеру - не передать. Думал что это беда России - переехал за рубеж - ба, то же самое, даже хуже! В России все же за счет общей нищеты и бесперспективности науки полно настоящих идеалистов от науки, одержимых именно научным познанием. Карьеристов сильно меньше.

VIPDC Jul 22 2021 at 04:38

Потому что за хочешь сделать что полезное, потратить время, внедришь оформишь, пройдешь 9 кругов бюрократического ада защиты. Вызовут в ВАК, так как ты работаешь, скажут - ваши модели нам не нравятся, плевать на доказаность и практическое применение. И работа 6 лет привела в никуда. Конечно практическая применимость греет душу.... При этом с тобой защищалась девочка лаборант которая вообще не понимала что читала с бумажки получила КТН без проблем.

Кто после такого пойдет в науку

danfe Jul 22 2021 at 07:03

Мама догадалась, что один из них содержит примесь, которая катализировала реакцию. Без него та не шла.

Очень похоже на историю получения элементарного фтора:

Была создана специальная комиссия для ознакомления с работами Муассана, которая и собралась в определенный день для этой цели. Муассан приступил к опыту, но, к его великому огорчению, опыт не удался: фтор получен не был.

Когда комиссия удалилась, Муассан со своим ассистентом начал тщательно анализировать весь ход их работ и искать причину неудачи опыта. В итоге они пришли к выводу, что этой причиной послужила, как это ни казалось бы странным, слишком чисто вымытая посуда. Поэтому-то не осталось и следов фтористого калия. Достаточно было Муассану прибавить в прибор к жидкому фтористому водороду немного фтористого калия и пропустить электрический ток, как немедленно получился свободный фтор.

zuek Jul 26 2021 at 06:57

Всколыхнуло в памяти НФ-рассказ, прочитанный в детстве. Подробностей уже не помню, но посыл был в том, что герой рассказа, при проведении эксперимента, напевал (или насвистывал) песенку, и опыт проходил успешно, а в присутствии свидетелей он стеснялся, и опыт, из-за отсутствия колебаний требуемой частоты, не воспроизводился, равно как и в независимых лабораториях. Понятно, что выдумка и влияние "человеческого фактора" преувеличено, но порой любая мелочь имеет значение.

Goupil Jul 21 2021 at 12:42

Как всегда - корчеватель изобрели русские, но в промышленность внедрили китайцы.

forever_live Jul 21 2021 at 13:11

Но ведь не изобрели. Исходник — rooter.

Goupil Jul 21 2021 at 19:34

Хорошо, не изобрели, а творчески переработали для публикации в отечественном журнале.

inkelyad Jul 21 2021 at 12:56

Все будет хорошо. Сначала научат другие сетки такое малоосмысленные и пустые тексты распознавать. А потом применят их уже к творчеству уже реальных людей. После чего желающим написать статью придется стараться, чтобы в ней хотя бы с точки зрения ИИ что-то новое и осмысленное было.

zuek Jul 26 2021 at 07:00

Уже. Написать кандидатскую так, чтобы её не забраковал "антиплагиат", уже лет семь, как проблема. По крайней мере в гуманитарных науках.

UFO landed and left these words here

NeoCode Jul 21 2021 at 13:10

Да… Я надеялся что ИИ будет применяться ровно в противоположном направлении: трансформация существующих человекоориентированных текстовых знаний в машинноориентированное семантическое представление. Это позволило бы сделать следующий шаг — сформировать единую базу знаний человечества, основу для того что мы называем технологической сигулярностью. А пока получается все наоборот… Впрочем, возможно именно то что я хочу — движение от текста к семантическим моделям — позволит в том числе и воспрепятствовать замусориванию науки сгенерированными статьями.

Moskus Jul 22 2021 at 07:11

Ну, пока ИИ владеет только аналогом конкретно-предметного мышления, ваша задача, требующая абстрактных операции, для него практически недостижима.

p_fox Jul 22 2021 at 12:33

Начнем с того, что ИИ не существует.

Moskus Jul 22 2021 at 18:22

Давайте не заниматься ерундой и не повторять этот избитый аргумент бесконечное число раз. Да, это не "интеллект", и я сам это здесь не раз говорил. Это всего-навсего выражение (которое можно еще и расшифровать по-разному, например - "искусственный идиот").
Однако, описывая и анализируя то, что все же существует (ML и прочее), мы можем совершенно правомерно сравнить его возможности с когнитивными возможностями настоящего интеллекта и провести определенные параллели. Конкретная критика имеет куда большее практическое значение, чем риторика в духе "это все херня".

Ritan Jul 21 2021 at 13:49

Подумалось тут. Ведь сети при переписывании и поиске синонимов сопоставляют слова при помощи word embedding. А что если статьи изначально публиковать в подобном формате. Это убрало бы простор для переписывания( хотя бы такого тупого ) и избавило бы двусмысленностей при переводе текста между языками

event1 Jul 21 2021 at 14:04

Да это же, закон Гудхарта в чистом виде.

Да простят меня научные работники, но иногда кажется, что финансирование науки надо откатить на уровень начала 20-го века, чтобы из науки ушли все, для кого это просто работа

Goupil Jul 21 2021 at 16:09

Как ученый в пока что еще академии я с вами совершенно согласен. Я люблю сам процесс познания, но в "консерватории" все основательно подгнило, и заливая деньгами это не исправить. Причем вопреки суждениям некоторых молодых ученых из России на западе во многом это даже гаже.

NeoCode Jul 21 2021 at 16:16

Дело в том, что сейчас наука во многом это действительно просто работа. Времена гениальных одиночек, делавших открытия чуть ли не в домашних лабораториях, давно ушли.
Но вот систему оценивания результативности по количеству публикаций нужно действительно как-то менять. Возможно, это просто хорошая задача для айтишников — придумать эффективную систему «рейтинга» (вот как здесь на Хабре). Такую, чтобы ее было невозможно или максимально сложно обмануть. И при этом такую, чтобы действительно оценивать полезные для Цивилизации научные исследования и отсеивать мусор. Конечно, оценивать должно само научное сообщество, но процедуры вычисления рейтинга должны быть защищены от накруток и прочего читерства.

event1 Jul 21 2021 at 16:38

Дело в том, что сейчас наука во многом это действительно просто работа. Времена гениальных одиночек, делавших открытия чуть ли не в домашних лабораториях, давно ушли.

Но так было и 100 лет назад. У Резерфорда была лаборатория. У Кюри была лаборатория. А вот у Эйнштейна была подписка на научные журналы и много свободного времени. Мог бы современный одиночка сесть и в одно лицо придумать ещё более общую теорию гравитации? Или для этого обязательно нужна команда в 300 человек? Думаю, что первое вполне реально

Но вот систему оценивания результативности по количеству публикаций нужно действительно как-то менять. Возможно, это просто хорошая задача для айтишников — придумать эффективную систему «рейтинга»

Айтишники для себя не могут эффективную систему рейтинга придумать, куда уж на других замахиваться

UFO landed and left these words here

darthmaul Jul 22 2021 at 14:48

А там что, есть деньги? Сам аспирант в Бельгии, получаю на 200 евро больше, чем обычный рецепционист банке, у которого нет никаких публикаций и прочей проактивщины, которая ведет к стрессам и выгораниям, просто улыбайся себе клиентам и выполняй протоколы коммпании. Постдок ещё на 500 больше - как немного опытный клерк, у которого опять же прокативной работы минимум. От этого местных в нашей лабе крайне мало, если есть гражданство и знание языка можно получать те же деньги с куда меньшими усилиями. Ещё слышал что постдоки в Стенфорде 50к в год получают, едва ли больше чем бариста в Долине. Разве это деньги? Кроме что метить в профессуру, но даже против них любой специалист в индустрии с тем же опытом (лет 10 минимум же) будет больше зарабатывать.

По теме статьи - у нас проблема с мусорными публикациями стоит не так остро т.к. почти все исследования проводим вместе с промышленниками, просто ради бумажки (статьи) никто ресурсы на ветер не пускает. Но сами публикации конечно тоже раздуты теоретической "водой" и нередко невоспроизводимы т.к. многие данные под NDA.

"Уходить" людей, для которых наука - просто работа тоже не вариант т.к.

Многие научные исследования особой гениальности не требуют.
Потребность в исследованиях слишком высока чтобы её удовлетворить силами редчайших "савантов", большинство то ради денег работает.

Необходимо отказываться от наукометрии однозначно, но как иначе оценивать эффективность работу научных сотрудников я лично не знаю. Людей и соотв., учёных сейчас слишком много чтобы система держалась на одной лишь репутации.

PS. Я однозначно буду уходить в индустрию, надоела писанина.

bbs12 Jul 21 2021 at 16:47

Возможно эта статья написана тем, что раньше называлось GPT-3, до того как оно обрело самосознание. Оно пишет такие тексты, чтобы люди сильно не дергались и не мешали ему достраивать Скайнет.

UFO landed and left these words here

Tangaroa Jul 22 2021 at 20:00

Это не шутка. Человек отвлекается на случайные внешние (а иногда и внутренние) события, нейросеть просто шумит

UFO landed and left these words here

zv347 Jul 22 2021 at 06:01

При этом текст превратится в хрень, а антиплагиат этим всё равно не обманешь.

WannaCode Jul 22 2021 at 06:59

Если оригинал на английском был, то работает.

oulenspiegel Jul 21 2021 at 21:13

Сомнительная гипотеза, я бы скорее грешил на автоперевод. Насчёт синонимов в устойчивых выражениях — это точно не про GPT-3.

deadmoroz14 Jul 23 2021 at 07:28

Во-во! Абсолютно согласен. Решения по машинному переводу строятся на тех же технологиях, что и написание текста. Это не автогенерённые статьи, а просто плохой перевод, в котором трудно разобраться. Не нужно искать сложное решение, обычно всё просто. Бритву Оккама никто не отменял.

Касательно меньшего времени обработки статей, может редакторам легче плюнуть и принять статью, нежели воевать с китайцами по переписке.

Bwana Jul 21 2021 at 21:20

История с «Корчевателем» (a.k.a. Rooter), увы, забыта…
Собственно, 80% т.н. рецензируемой периодики сегодня представляет полное говно. Самое грустное, что там почти весь IEEE Transactions on… Моя контора 35 лет платила за подписку на дюжину сборников по тематике IT и в позапрошлом году было решено отказаться из-за переполнения мусорным контентом. Сборники превратились в платформу по наворачиванию индексов цитирования и рекламы.

AllexIn Jul 22 2021 at 05:20

Почему в конце прочтения вашего комментария у меня в голове всплыло слово "Хабр"?... Не хороший знак...

Farakhm Jul 22 2021 at 07:21

Следует радикально сменить пропорцию исследователей/редакторов в научном мире. Всего-то :)))

MTyrz Jul 22 2021 at 12:55

Частота «загрязненных» материалов в журнале Elsevier составляет (72,1%)

Это авторитетное научное издательство, оно проводит огромную работу по верификации и рецензированию присланных статей (с)

Tangaroa Jul 22 2021 at 19:58

Ух ты. Значит, ИИ пишет статьи в журнал по теме микропроцессоров, но белковые бледнотики не понимают, о чём там написано...

Жутковато.

QDeathNick Jul 24 2021 at 13:21

Если бы писал искусственный интеллект, было бы страшно, а так пишет глупый ИИ

Dimonovych Aug 12 2021 at 08:40

Надо создать Фейсбук для учёных, где они будут кучковаться по интересам и ставить лайки за исследования.

При этом не обязательно 100500 страниц, главное практическая ценность.

Saol_sa_Spleachas Aug 12 2021 at 08:40

Полный набор данных, собранный авторами исследования, содержит 1078 статей, полученных по подписке Тулузского университета на журнал Elsevier. Частота «загрязненных» материалов в журнале Elsevier составляет (72,1%), что очень много, если провести сравнение с другими изученными научными журналами (максимум 13,6%).

Эта двусмысленность и в оригинале присутствует, но так или иначе складывается впечатление, что Elsevier есть журнал и что будто во всей базе Elsevier 72% загрязнённых статей. Я надеюсь, что всё не так грустно и речь идёт всё же о журнале Microprocessors and Microsystems.

Kostoprav-inside Aug 12 2021 at 08:40

Вот оно светлое будущее)
ИИ будет и науки двигать и статьи писать и рецензировать…
А человеки будут по пещерам с соцрейтингом, куэр кодами и добровольной эвтаназией по решению того же ИИ в рамках регулирования популяции
Естественно всё будет добро толерантно и аджайлово скрамно :P