Pull to refresh

Comments 55

Дальше будут учить GPT на статьях загаженных сгенерированным GPT контентом.

На самом деле тут интереснее. Делаем нейросеть, которая будет отслеживать сгенерированные и/или бессмысленные статьи. В ответ соискатели улучшают свои генеративные сети. В результате качество сгенерированных статей потихоньку превосходит качество статей от реальных людей. Получаем полностью автоматическую науку, выходим на технологическую сингулярность. :-D

Так это же не наука, а её описание. Обычно статью пишут после того, как провели исследование. Если появится ИИ, которому можно сказать: "вот мы взяли такую форму реактора, такие покрытия, такие условия процесса, получили такой вот выход продукта" и он напишет статью - то это, конечно, упростит работу учёных и избавит их от нудной писанины, но сингулярностью тут и не пахнет. Развитие концепции GPT 3 может привести к созданию подобного "версификатора", но изучить она не может ничего т.к. является языковой моделью.

> Получаем полностью автоматическую науку

Не, не так. Мы получаем полностью автоматическую «науку» (в кавычках) — в которой нет результатов, только одни статьи. И мы уже наполовину там.

память рисует пачки наших рефератов торчащих из бака школьной помойки

Да не вопрос. Для более полной верификации к проверяющим сетям добавляем автоматические лаборатории. Потом их начинают добавлять к генерирующим... ;-)

Мы таки для программ не можем сделать автоматическую проверку корректности их работы, а вы на автоматические лаборатории замахнулись :))

Если бы научить нейронки не терять ход повествования, то можно было бы задуматься о создании "электронного бюрократа", на вход которому скармливаются результаты работы/исследования, а на выходе - отчёты и статьи. Такая штука сэкономила бы миллионы человекочасов в академии и не только, на т.н. диссеминацию результатов нередко половина рабочего времени уходит.

Так в статье именно это и делается. Берем результаты исследования, и разбавляем водой :) ну, пока качество воды не очень, конечно…

А если серьезно — мои исследования показывают, что эта проблема (перевода с одного языка на другой) качественно не решается принципиально. Ее можно решить двумя способами: переводить «близко к тексту», подстрочник — т.е. та же самая вода; либо же делать формальную генерацию текстов на основе результатов исследования. В последнем случае подвох — в реальности, если нужны результаты исследования, проще на них посмотреть без вот этой вот воды. А если нужно обоснование «почему нам нужен грант на это безумно важное дело» — это модели не касается, это другие вопросы и другие цели.

Так проблема не в качестве воды, а в том, что нейронки не способны надёжно выдавать текст соответствующий введённым исследователями данным, что приводит к написанию невоспроизводимого шлака. Наука ничего не потеряет если теоретическое словоблудие просядет в качестве, лишь бы логика задача - методы - результаты не терялась.

Выглядит как искусственный барьер в который может упереться человечество вместо дальнейшего развития.

Уже. Другой симптом той же болезни - невоспроизводимость результатов. https://www.nature.com/articles/nature.2015.17711

В 2015 около половины всех экспериментов в био-медицине в США были не воспроизводимы, то есть шли в мусорную корзину, на них тратилось до 28 миллиардов долларов. Сейчас наверняка все еще хуже.

невоспроизводимость результатов. www.nature.com/articles/nature.2015.17711
Ссылка интересная, но не совсем соответствует вашему тексту, там говорилось про примерные оценки и про факторы влияющие на воспроизводимость, например, то что наибольший вклад в проблемы воспроизводимости вносят плохие материалы от поставщиков — 36%, затем следует дизайн исследования — 28% и анализ данных — 26%.

В целом, не совсем понятно с чем сравнивать проблемы невоспроизводимости, так как усложнение, по-моему, всегда ведет к проблемам с воспроизводимостью, да и нельзя сказать, что когда-то раньше совсем не было проблем с воспроизводимостью (особенно в предклинических исследованиях). А то, что статья предлагает ужесточить контроль за производителями реагентов (чтобы они соответствовали стандартам), улучшить тренинги и документацию, так это правильное мнение.
про невоспроизводимость есть такая замечательная история от Шкробиуса
Моя мама была органический химик.

Однажды ей надо было разработать синтез какого-то хитроумного вещества для химического завода в братской ГДР. У мамы были две лаборантки, Валя и Зина. Они разработали синтез с Валей, оптимизировав выход, а Зина должна была увеличивать загрузку, чтобы узнать, годится ли метод для производства. В здоровых стеклянных колбах. Попробовала раз — не работает. Два — не работает. Тогда умная Зина попробовала с малым количеством. И опять нe работает. Пошла к Вале и попросила повторить синтез при ней. У Вали все работает. Пришла к себе, повторила один в один — не работает. Позвала к себе Валю. И у Вали не работает. Поменялись лабораториями. В Валиной комнате у Зины все работает, у Вали в Зининой комнате — не работает. Сказать людям боятся, т.к. смеятся будут. Две недели так маялись. Меняли посуду, горелки, и т. д. Наконец, вконец отчаявшись, маме сказали. Мама развернула бурную деятельность, забросив мое воспитание, и за неделю докопалась до истины!

Обе лаборантки пользовались одним и тем же органическим растворителем, налитым в одинаковые бутылки. Однако, хроматографическое следствие показало, что в одной бутылке растворитель был перелит из бочки одного завода, а в другой — из другого, так как предыдущая бочка закончилась. Оба завода пользовались одной и той же технологией, и их продукция удовлетворяла 99.99% стандарту чистоты, но производство никогда не бывает в точности одно и то же. В одной партии растворителя реакция шла, в другом — нет. Мама догадалась, что один из них содержит примесь, которая катализировала реакцию. Без него та не шла. Тот катализатор, что они добавляли не работал, он катализировал побочную реакцию, с которой они сражались, а работала на самом деле эта неизвестнaя, случайная примесь в ничтожной концентрации. Определение этой примеси, установление ее структуры и разработка ее синтеза заняли пару лет, и это стал стандартный катализатор для этого типа реакций.

Это замечательная история, и хорошо что разобрались что к чему. В противном случае для исследования исчезает всякая возможность практического применения. На практике часто бывает, что сроки подачи статьи или заявки на грант вчера, без них нет денег и конец карьеры, и потому никто не разбирается отчего что-то не сработало во второй раз.

Во-во. Все бы рады заниматься детальными исследованиями в течение нескольких лет (двух лет, как в примере выше). Но у большинства этих лет нет, поэтому приходится параллельно заниматься чем-то таким, что даёт быстрый результат (и ещё больше замедляет основную работу).

В индустрии этот результат хотя бы надо продать. В академии же это копится почти без контроля.

Сколько ж таких невоспроизводимых и никому не нужных исследований ради исследований я насмотрелся за свою не столь долгую научную карьеру - не передать. Думал что это беда России - переехал за рубеж - ба, то же самое, даже хуже! В России все же за счет общей нищеты и бесперспективности науки полно настоящих идеалистов от науки, одержимых именно научным познанием. Карьеристов сильно меньше.

Потому что за хочешь сделать что полезное, потратить время, внедришь оформишь, пройдешь 9 кругов бюрократического ада защиты. Вызовут в ВАК, так как ты работаешь, скажут - ваши модели нам не нравятся, плевать на доказаность и практическое применение. И работа 6 лет привела в никуда. Конечно практическая применимость греет душу.... При этом с тобой защищалась девочка лаборант которая вообще не понимала что читала с бумажки получила КТН без проблем.

Кто после такого пойдет в науку

Мама догадалась, что один из них содержит примесь, которая катализировала реакцию. Без него та не шла.

Очень похоже на историю получения элементарного фтора:

Была создана специальная комиссия для ознакомления с работами Муассана, которая и собралась в определенный день для этой цели. Муассан приступил к опыту, но, к его великому огорчению, опыт не удался: фтор получен не был.

Когда комиссия удалилась, Муассан со своим ассистентом начал тщательно анализировать весь ход их работ и искать причину неудачи опыта. В итоге они пришли к выводу, что этой причиной послужила, как это ни казалось бы странным, слишком чисто вымытая посуда. Поэтому-то не осталось и следов фтористого калия. Достаточно было Муассану прибавить в прибор к жидкому фтористому водороду немного фтористого калия и пропустить электрический ток, как немедленно получился свободный фтор.

Всколыхнуло в памяти НФ-рассказ, прочитанный в детстве. Подробностей уже не помню, но посыл был в том, что герой рассказа, при проведении эксперимента, напевал (или насвистывал) песенку, и опыт проходил успешно, а в присутствии свидетелей он стеснялся, и опыт, из-за отсутствия колебаний требуемой частоты, не воспроизводился, равно как и в независимых лабораториях. Понятно, что выдумка и влияние "человеческого фактора" преувеличено, но порой любая мелочь имеет значение.

Как всегда - корчеватель изобрели русские, но в промышленность внедрили китайцы.

Но ведь не изобрели. Исходник — rooter.

Хорошо, не изобрели, а творчески переработали для публикации в отечественном журнале.

Все будет хорошо. Сначала научат другие сетки такое малоосмысленные и пустые тексты распознавать. А потом применят их уже к творчеству уже реальных людей. После чего желающим написать статью придется стараться, чтобы в ней хотя бы с точки зрения ИИ что-то новое и осмысленное было.

Уже. Написать кандидатскую так, чтобы её не забраковал "антиплагиат", уже лет семь, как проблема. По крайней мере в гуманитарных науках.

UFO just landed and posted this here
Да… Я надеялся что ИИ будет применяться ровно в противоположном направлении: трансформация существующих человекоориентированных текстовых знаний в машинноориентированное семантическое представление. Это позволило бы сделать следующий шаг — сформировать единую базу знаний человечества, основу для того что мы называем технологической сигулярностью. А пока получается все наоборот… Впрочем, возможно именно то что я хочу — движение от текста к семантическим моделям — позволит в том числе и воспрепятствовать замусориванию науки сгенерированными статьями.

Ну, пока ИИ владеет только аналогом конкретно-предметного мышления, ваша задача, требующая абстрактных операции, для него практически недостижима.

Начнем с того, что ИИ не существует.

Давайте не заниматься ерундой и не повторять этот избитый аргумент бесконечное число раз. Да, это не "интеллект", и я сам это здесь не раз говорил. Это всего-навсего выражение (которое можно еще и расшифровать по-разному, например - "искусственный идиот").
Однако, описывая и анализируя то, что все же существует (ML и прочее), мы можем совершенно правомерно сравнить его возможности с когнитивными возможностями настоящего интеллекта и провести определенные параллели. Конкретная критика имеет куда большее практическое значение, чем риторика в духе "это все херня".

Подумалось тут. Ведь сети при переписывании и поиске синонимов сопоставляют слова при помощи word embedding. А что если статьи изначально публиковать в подобном формате. Это убрало бы простор для переписывания( хотя бы такого тупого ) и избавило бы двусмысленностей при переводе текста между языками

Да это же, закон Гудхарта в чистом виде.

Да простят меня научные работники, но иногда кажется, что финансирование науки надо откатить на уровень начала 20-го века, чтобы из науки ушли все, для кого это просто работа

Как ученый в пока что еще академии я с вами совершенно согласен. Я люблю сам процесс познания, но в "консерватории" все основательно подгнило, и заливая деньгами это не исправить. Причем вопреки суждениям некоторых молодых ученых из России на западе во многом это даже гаже.

Дело в том, что сейчас наука во многом это действительно просто работа. Времена гениальных одиночек, делавших открытия чуть ли не в домашних лабораториях, давно ушли.
Но вот систему оценивания результативности по количеству публикаций нужно действительно как-то менять. Возможно, это просто хорошая задача для айтишников — придумать эффективную систему «рейтинга» (вот как здесь на Хабре). Такую, чтобы ее было невозможно или максимально сложно обмануть. И при этом такую, чтобы действительно оценивать полезные для Цивилизации научные исследования и отсеивать мусор. Конечно, оценивать должно само научное сообщество, но процедуры вычисления рейтинга должны быть защищены от накруток и прочего читерства.

Дело в том, что сейчас наука во многом это действительно просто работа. Времена гениальных одиночек, делавших открытия чуть ли не в домашних лабораториях, давно ушли.

Но так было и 100 лет назад. У Резерфорда была лаборатория. У Кюри была лаборатория. А вот у Эйнштейна была подписка на научные журналы и много свободного времени. Мог бы современный одиночка сесть и в одно лицо придумать ещё более общую теорию гравитации? Или для этого обязательно нужна команда в 300 человек? Думаю, что первое вполне реально

Но вот систему оценивания результативности по количеству публикаций нужно действительно как-то менять. Возможно, это просто хорошая задача для айтишников — придумать эффективную систему «рейтинга»

Айтишники для себя не могут эффективную систему рейтинга придумать, куда уж на других замахиваться

UFO just landed and posted this here

А там что, есть деньги? Сам аспирант в Бельгии, получаю на 200 евро больше, чем обычный рецепционист банке, у которого нет никаких публикаций и прочей проактивщины, которая ведет к стрессам и выгораниям, просто улыбайся себе клиентам и выполняй протоколы коммпании. Постдок ещё на 500 больше - как немного опытный клерк, у которого опять же прокативной работы минимум. От этого местных в нашей лабе крайне мало, если есть гражданство и знание языка можно получать те же деньги с куда меньшими усилиями. Ещё слышал что постдоки в Стенфорде 50к в год получают, едва ли больше чем бариста в Долине. Разве это деньги? Кроме что метить в профессуру, но даже против них любой специалист в индустрии с тем же опытом (лет 10 минимум же) будет больше зарабатывать.

По теме статьи - у нас проблема с мусорными публикациями стоит не так остро т.к. почти все исследования проводим вместе с промышленниками, просто ради бумажки (статьи) никто ресурсы на ветер не пускает. Но сами публикации конечно тоже раздуты теоретической "водой" и нередко невоспроизводимы т.к. многие данные под NDA.

"Уходить" людей, для которых наука - просто работа тоже не вариант т.к.

  1. Многие научные исследования особой гениальности не требуют.

  2. Потребность в исследованиях слишком высока чтобы её удовлетворить силами редчайших "савантов", большинство то ради денег работает.

Необходимо отказываться от наукометрии однозначно, но как иначе оценивать эффективность работу научных сотрудников я лично не знаю. Людей и соотв., учёных сейчас слишком много чтобы система держалась на одной лишь репутации.

PS. Я однозначно буду уходить в индустрию, надоела писанина.

Возможно эта статья написана тем, что раньше называлось GPT-3, до того как оно обрело самосознание. Оно пишет такие тексты, чтобы люди сильно не дергались и не мешали ему достраивать Скайнет.

UFO just landed and posted this here

Это не шутка. Человек отвлекается на случайные внешние (а иногда и внутренние) события, нейросеть просто шумит

UFO just landed and posted this here
UFO just landed and posted this here
При этом текст превратится в хрень, а антиплагиат этим всё равно не обманешь.
Если оригинал на английском был, то работает.

Сомнительная гипотеза, я бы скорее грешил на автоперевод. Насчёт синонимов в устойчивых выражениях — это точно не про GPT-3.

Во-во! Абсолютно согласен. Решения по машинному переводу строятся на тех же технологиях, что и написание текста. Это не автогенерённые статьи, а просто плохой перевод, в котором трудно разобраться. Не нужно искать сложное решение, обычно всё просто. Бритву Оккама никто не отменял.

Касательно меньшего времени обработки статей, может редакторам легче плюнуть и принять статью, нежели воевать с китайцами по переписке.

История с «Корчевателем» (a.k.a. Rooter), увы, забыта…
Собственно, 80% т.н. рецензируемой периодики сегодня представляет полное говно. Самое грустное, что там почти весь IEEE Transactions on… Моя контора 35 лет платила за подписку на дюжину сборников по тематике IT и в позапрошлом году было решено отказаться из-за переполнения мусорным контентом. Сборники превратились в платформу по наворачиванию индексов цитирования и рекламы.

Почему в конце прочтения вашего комментария у меня в голове всплыло слово "Хабр"?... Не хороший знак...

Следует радикально сменить пропорцию исследователей/редакторов в научном мире. Всего-то :)))

Частота «загрязненных» материалов в журнале Elsevier составляет (72,1%)
Это авторитетное научное издательство, оно проводит огромную работу по верификации и рецензированию присланных статей (с)

Ух ты. Значит, ИИ пишет статьи в журнал по теме микропроцессоров, но белковые бледнотики не понимают, о чём там написано...

Жутковато.

Если бы писал искусственный интеллект, было бы страшно, а так пишет глупый ИИ

Надо создать Фейсбук для учёных, где они будут кучковаться по интересам и ставить лайки за исследования.

При этом не обязательно 100500 страниц, главное практическая ценность.

Полный набор данных, собранный авторами исследования, содержит 1078 статей, полученных по подписке Тулузского университета на журнал Elsevier. Частота «загрязненных» материалов в журнале Elsevier составляет (72,1%), что очень много, если провести сравнение с другими изученными научными журналами (максимум 13,6%).

Эта двусмысленность и в оригинале присутствует, но так или иначе складывается впечатление, что Elsevier есть журнал и что будто во всей базе Elsevier 72% загрязнённых статей. Я надеюсь, что всё не так грустно и речь идёт всё же о журнале Microprocessors and Microsystems.

Вот оно светлое будущее)
ИИ будет и науки двигать и статьи писать и рецензировать…
А человеки будут по пещерам с соцрейтингом, куэр кодами и добровольной эвтаназией по решению того же ИИ в рамках регулирования популяции
Естественно всё будет добро толерантно и аджайлово скрамно :P

Sign up to leave a comment.

Articles