Comments / Profile of Durham / Habr

Денис Тарасов @Durham

Искуственный интеллект

ProfileArticles21PostsNewsComments205

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 10:25

Да, в целом так, так как трансформер это модель внимания, которая должна постоянно иметь доступ ко всем исходным токенам, а RNN "ужимает" всю историю до одного вектора состояния. Добавить RNN в трансформер нужно, это делали, например в этой статье https://arxiv.org/abs/1901.02860. Но это именно гибрид, собственно "рекуррентный" трансформер невозможен так как он по своей природе должен иметь возможность видеть весь контекст.

+1

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 10:16

В статье я писал, что есть разница между понятиями "разум", "сознание" и "индивидуальность". Про имя это довод в пользу отсутствия определенной индивидуальности, сознания и разум разбираются отдельно.

+3

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 10:13

Она может без проблем задавать вопросы, в диалогах в статье кстати есть пример:

"

Привет! Мы программисты из компании «Меанотек», и мы хотели бы узнать, не хотите ли вы поработать над проектом вместе с нами.
«Что такое Меанотек?»
"

так что способность задавать вопросы как таковая уже есть.

0

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 10:11

Если мы говорим просто о том объеме данных, который модель может запомнить в процессе обучения (вроде "ежик" значит "колючий"), то память определяется числом параметров конкретной модели, чем модель больше, чем объемы выше. Дообучение же в ходе разговора обычно ограничено размером контекста, так как при этом обычно не меняют веса модели (существуют варианты где веса пытаются менять "на лету", но они обычно не очень хорошо работают).

0

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 10:04

Это интересный вопрос, но ответить не так просто. Есть такое явление в мозге человека, например обработка визуальной информации с одной стороны идет по "прямой линии" от первичной зрительной коры к височной доле, но есть еще обратный путь и есть данные о том, что наркоз, например, избирательно выключает именно обратные связи. Поэтому тут может быть определенная доля истины, но что именно в этом процессе важно не ясно.

В нейросети, что считать обратным путем непонятно. С одной стороны сверху вниз информация идет только в процессе обучения сети, а при использовании только "снизу вверх". Но что принципиально мешает верхним слоям "осознать" состояние нижних не ясно. Но то есть, если например взять четыре слоя и зафиксировать, что веса в каждом слое одинаковые, то с точки зрения вычислительного процесса нет разницы между поступлением информации назад на первый слой и переходом ее на второй, и такие архитектуры есть, но каких-то прямо принципиальных отличий в них не замечено. Если даже взять языковые модели типа GPT-3, то они могут наблюдать за своими ответами в прошлом, если эти ответы добавляются в контекст, и это можно считать потоком информации сверху вниз. Тут слишком много открытых вопросов еще.

+1

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 09:39

Личная история для формирования личности это безусловно важный фактор, языковые модели все видят как бы с позиции третьего лица.

А значение сенсорного опыта, я думаю, все же преувеличено, есть люди слепые и глухие от рождения, но они не перестают от этого быть людьми. Ну то есть если убрать один или два сенсорных канала, это не меняет ничего принципиально, значит и нейросеть скорее всего можно учить используя только одну модальность. Хотя есть работы, которые говорят, что если мы добавляем картинки при обучении, то на ряде задач, вроде машинного перевода увеличивается точность. Но это количественный фактор, насколько это прямо важно качественно, вопрос.

По поводу эволюционной программы, это все есть, и влияет на людей сильно, но насколько это принципиально важно для наличия сознания вопрос. Есть генетические варианты, которые меняют восприятие запахов и ряда других параметров у человека, тут достаточно большой разброс.

Просто добавить колесную тележку к этим моделям особо ничего не поменяет, пока есть не решенные проблемы с формированием долговременной памяти как минимум, плюс человеку достаточно нескольких лет прямого опыта, а моделям чтобы получить нужный опыт "из первых рук" на этой тележке придется ездить тысячу лет, если не миллион.

+2

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 09:21

Так же как и имя, "пол" в плане стиля ответов будет зависеть от соотношения полов в данных на которых обучена сеть, от вопроса (если написать "знала ли ты об этом?" модель вероятнее всего выберет женскую роль для ответа), от контекста и от метода получения следующего слова (максимальная вероятность или выборка из распределения)

0

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Durham Jul 1 2022 at 09:14

Про значимость имени согласен, но тут имя используется как частный случай для демонстрации того, что у модели нет собственной индивидуальности, потому что такая же ситуация возникает и по любому другому личному вопросу, ну вроде если спросить "любишь ли ты музыку?", то ответ будет исходить из того, как много людей в обучающем корпусе любит музыку, а не из того, что у модели сформировались реальные личные предпочтения. И точно также этот параметр можно будет менять контекстом.

+2

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

Durham Jun 24 2022 at 13:21

После загрузки контейнера через указанный в репозитории скрипт pull и запуска его через run имеется папка workspace где в папке examples только набор стандартных примеров, а скриптов для запуска модели нет. Что я сделал неправильно?

Думаю смысл заключается в том, что надо сначала запустить контейнер а потом из него клонировать репозиторий и запускать модель, правильно? Хотелось бы инструкцию чуть подробнее, работа большая проделана вами, но последний шаг написания инструкции сильно увеличил бы ее ценность и доступность.

0

Соискатель рассказал про стажировку в ростовской компании со штрафом за отказ от трудоустройства в 2 миллиона рублей

Durham Jan 22 2022 at 22:06

Единственный способ получить больше денег принеся меньше пользы это совершить мошенничество какого-либо вида — что ж, мошенничество должно быть наказуемым. Вы думаете что все (или хотя бы значимая часть) конкурентов — мошенники?

К сожалению, это не так. Простой пример - пластиковые пакеты. Людям они нравятся, удобнее купить пакет на кассе, чем ходить с сумкой. Бизнес их производит. Так же с одноразовой посудой и т.п. Но пользы для общества в целом это не приносит - мы уже имеем гигантские мусорные "острова" плавающего пластика. Мы все знаем, что люди мыслят не рационально и ставят краткосрочное удобство вперед долгосрочных проблем. Примеров подобных ситуаций тысячи.

Назовите любой другой способ количественно и децентрализованно определять полность чего-либо.

Отсутствие другого проверенного способа никак не доказывает, что существующий способ хороший и на него следует молится. Если мы видим проблемы, то нам следует думать, как их устранять, а не говорить, что других способов нет

Как уже показывал @0xd34df00d монополии в реальности не возникают, все ост-индские компании

Просмотрев все его статьи, не нашел, где там доказано, что монополии не вознкают. Ну и аргумент не серъезный, что кто-то про что-то давно писал. Монополии это явление, которое изучается экономической наукой давно и есть известные проблемы с этим связанные. Цифровые монополии это не классические монополии, но они все равно доминируют на рынке и могут навязывать свои правила. Ну и чисто на бытовом уровне, писали уже и про то, что в личный кабинет сотовых операторов невозможно войти не согласившись на передачу своих данных "партнерам", про маркетплейсы, которые массово отказываются продавать купленные товары по указанной цене (что не законно, но выгодно), про поисковики, которые свои сервисы ставят вперед всех остальных, тех. поддержку, до которой не добраться и которая отвечает формальными отписками, ну и это все верхушка айсберга. То, что некоторые большие компании иногда загибаются, и им на смену приходят другие бегемоты, ситуацию в целом не меняет.

Я скорее наоборот воспринимаю пропаганду работы на низкомаржинальном
бизнесе как промывание мозгов руководством с целью скрыть свою
неэффективность и нежелание что-либо менять.

Многие маленькие компании на самом деле более эффективные, чем большие, но им не по силам тягаться с большими монстрами, монстр может быть неэффективен в плане организации работы, но в силу размера денег у него больше. Он может сделать зарплаты выше рынка в убыток себе на достаточно длительное время, переманить хороших специалистов и таким образом уничтожить потенциальных будущих конкурентов на корню. Или поставить ссылку на свой новый сервис на главную страницу свою и получить сто тысяч пользователей бесплатно, а мелкого конкурента за то же самое брать миллион денег. Честная конкуренция только в книжках существует.

+4

Соискатель рассказал про стажировку в ростовской компании со штрафом за отказ от трудоустройства в 2 миллиона рублей

Durham Jan 22 2022 at 17:15

Неправильно путать полезность для общества и готовность людей платить деньги. Люди часто готовы платить деньги за бесполезные вещи (например NFT со ссылкой на изображение ёжика, неэффективные БАДы и т.п.). И с другой стороны не готовы платить деньги за общественно полезные вещи (переработка отходов, другие экологическе проекты). Поэтому перемещение программистов в области с высокой марджинальностью нельзя автоматически считать равным их перемещению в полезные для общества проекты. Вполне возможно, что в результате будут уничтожены предприятия делающие полезные, но менее хайповые вещи.

Кроме того, надо учитывать, что программисты часто перемещаются в крупные компании, которые могут за счёт своего размера развивать и вовсе убыточные проекты (типа экосистемы Сбера, которая сейчас убыточна), но при этом эти компании могут платить программистам намного больше, чем маленькая фирма, которая убыточные проекты не потянет. В краткосрочной перспективе это радует нас высокими зарплатами, а в долгосрочной может привести к монополизации рынка, исчезновению маленьких компаний. А монополии уже могут диктовать пользователям невыгодные условия, предоставлять плохой сервис, завышать цены, заставлять подписываться на ненужные услуги и делать прочие плохие вещи, которые всем нам хорошо знакомы.

+1

Не надувайте варп-пузырей, работая на оборонку

Durham Jan 11 2022 at 19:52

Картинка, которую вы тут назвали "смоделированная сфера, которая должна напоминать по свойствам пузырь Алькубьерре." на самом деле вообще не про это. Дело в том, что в статье Уайт с соавторами сначала приводят свой новый метод расчетов. Для валидации метода они сравнивают его результаты с известным решением задачи для случая плоскости и сферы. И именно этот случай показан на картинке, которая тут обозвана "сферой напоминающей пузырь Алькубьерре". Собственно про пузырь в статье уже идёт дальше.

Поэтому хочу сказать вот что. Я плохо понимаю данную область физики, но этот момент из статьи Уайта уловил. А вы берётесь критиковать Уайта, при этом в содержание его статьи изложено с серьезными ошибками. Я ожидал как-то увидеть реальный разбор в чем Уайт не прав. Да, он странный персонаж, и автор сомнительного изобретения, но это не даёт права критики опускаться на ещё более поверхностный научный уровень. К сожалению, в последнее время вижу на Хабре много популярных научных статей с явными ошибками такого рода.

+12

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Durham Jul 8 2021 at 09:10

Почти все задачи (некоторые считают, что вообще все) можно свести к задаче предсказания слова. Например, так: «X и Y это противоречие, да или нет? Ответ:»

В реальности для NLI модель обычно дообучают на примерах того, что нужно, для повышения точности, но смысл в целом не меняется.

0

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Durham Jul 5 2021 at 10:37

Чтобы слово «рама» было именем оно должно начинаться с большой буквы, и/или должен быть контекст, указывающий на существование такого персонажа, иначе большинство носитель русского языка будут слово «рама» понимать как «Четырёхугольное, овальное или иной формы скрепление из брусьев, планок, в которое вставляется оконное стекло или картина».

Как я показал выше, с точки зрения правильной связки слов между собой, модель вполне «осознает» написанное, так как может решать задачи, требующие знания связей слов.

0

О чем вы много думали, но боялись узнать #1 — аденовирусная векторная вакцина

Durham Jul 2 2021 at 17:18

Так вот шанс попасть в 10000 и оценен неверно. Брать официальную статистику штаба нет смысла никакого. Давайте хотя бы Росстат возьмем. В период с апреля по апрель избыточная смертность 420000 человек. Делим на население России в 144 млн, получаем, что вероятность умереть за полгода 0.1458% в целом. Даже если поверить цифре, что из 420000 только половина имела COVID, то 0.072%, что не факт, потому что отложенная смертность от осложнений не попадает в официальное число, а она как мы видим из исследований существенна. И когда мы сравниваем с частотой тромбозов 1/1000000 = 0.00001% видим существенную разницу, и при этом нельзя забывать, что есть естественная частота тромбозов, т.е. в популяции непривитых это явление все равно случается, и на него надо делать поправку, и когда мы ее сделаем это число еще упадет.

+1

Обучение живых и «биологичная» нейронная сеть

Durham Jul 2 2021 at 16:14

Дрозофила однозначно определяет более 20 запахов (Есть статьи, где их учили распознавать более 70 разных запахов, например www.pnas.org/content/104/13/5614). Фактическое число разных запахов, которое может быть закодировано, скорее всего близко к тысяче (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC311238/) К тому же может разными способами реагировать не только на вид запаха, но и на его интенсивность.

Кроме того, в грибовидное тело поступает еще немного визуальной информации, и еще нарушения в нем вызывают тонкие нарушения в моторной активности. Так что все сложнее, исходная посылка про 20 запахов не верна, а значит вероятно есть проблемы и с остальными рассуждениями.

+2

О чем вы много думали, но боялись узнать #1 — аденовирусная векторная вакцина

Durham Jul 2 2021 at 14:40

Сильно ошибочно брать 10000 в день, это число выявленных и официально опубликованных, число реально заразившихся намного больше. Есть регионы, где избыточная смертность в 100 раз выше, чем официально умерло от коронавируса. Логика эпидемии такова, что так или иначе из тех у кого нет прививки заразится 85-90% всего населения, поэтому итоговую вероятность заразится надо брать за 85%, и тогда расчет уже иначе выглядит.

К тому же умершие это верхушка айсберга. Есть отдаленные последствия для мозга, кодид снижает мыслительные способности и существенно увеличивает вероятность получить в будущем неврологический или психиатрический диагноз (Источники: www.medrxiv.org/content/10.1101/2020.10.20.20215863v1.full.pdf, https://www.thelancet.com/journals/lanpsy/article/PIIS2215-0366(21)00084-5/fulltext)

+2

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Durham Jul 2 2021 at 10:59

Вы же понимаете, что это аргумент из серии «черных лебедей не бывает, потому что я встречал много белых».

Возвращаясь к изначальной точке, откуда начался спор — я как раз выше и писал, что с помощью большой языковой модели усилия нужные для решения задачи становятся намного меньше и многие задачи, которые раньше было не практично решать, становятся доступными.

0

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Durham Jul 2 2021 at 10:50

«Осознать» — философское понятие. Но мы можем сказать, что модель «понимает» фразу «мама мыла раму», если она может отличить ее от похожей, но бессмысленной фразы «рама мыла маму».

Типичным методом проверки этой возможности является сравнить вероятности, которые модель назначает разным фразам.

Мы можем видеть, что модель может сделать правильный выбор.

Бредогенераторы в 90-х были либо модели на правилах, которые писал человек, либо марковские цепи, которые создавали совсем плохой текст. С тех пор ситуация сильно изменилась. Языковая модель, помимо тривиального примера выше, может решать задачи вроде «Чемодан не пролезает в дверной проем, потому что он слишком большой. Что слишком большое?» или выбрать правильную фразу из «Озеро высохло теперь в нем нет воды» и «Озеро высохло, теперь в нем можно купаться». Я писал больше на тему знаний, которыми обладает языковая модель например тут.

Пора забыть о том, что было в 90-х, 30 лет это эпоха для ИИ, все очень сильно изменилось.

0

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Durham Jul 2 2021 at 10:09

Ну, если считать, что есть только fastText, а трансформеры не нужны, то это может и научная фантастика, у нас это обычная работа, в рамках заданной предметной области ответы на вопросы по фактическому материалу это решенная задача для NLP, а противоречия это NLI, и опять для заданной области это отлично работает.

Скриншот это публичное демо с AllenNLP, даже не настроенное на задачу. (перевод: 1. «Рабочие должны всегда держать дверь открытой, для обеспечения быстрой эвакуации в случае пожара», 2. «Дверь всегда должна быть запертой, чтобы посторонние на заходили на территорию». Вывод модели: противоречие, 99.7%)

0

3

4 5 ...