Обновить
29

Data Scientist

34
Подписчики
Отправить сообщение

Самое "понятное", что ожидается от достаточно умного ИИ - это наноботы, позволяющие делать сложные конструкции из грязи, и системы для манипуляции людьми - не на уровне рекламы, а на уровне, на котором adversarial attack позволяет манипулировать нейронкой.

Это ряд разных вопросов, на которые разные ответы. Чат-боты, просто по тому, как их сейчас обучают, вряд ли могут всерьёз "заменять" людей.
"Синтез знаний" в каком-то смысле может делать ML - он выполняет работу учёного-теоретика в чём-то лучше, чем человек. То есть задачу "построить теорию, которая даёт проверяемые прогнозы, как можно более точные" ML решает. По соотношению время/качество при наличии бигдаты практически всегда лучше человека.
Чтобы "заменять" людей, должен быть какой-то единый подход к большому множеству задач - например, подход, при котором программа вначале строит модель предметной области на базе бигдаты, а затем там, на модели, ищет способы, как достичь поставленной цели. Так можно, такие системы есть, но они гораздо менее расхайплены, чем Chat-GPT. И они сейчас менее зрелые.
Вот такая система могла бы заменять людей. В той мере, в которой ей можно объяснять, каковы её цели
Ну и я не думаю, что деятельность по выяснению, как работает мир, и как достичь цели - это "избыточная" для человека деятельность. Вроде как это самое интересное, что есть в интеллекте

Это задача согласования так выглядит. Не полного, а частичного.
Задача контроля немного шире. Потому что если ИИ не астрономически лучше людей в планировании, а всего лишь в разы, да ещё имеет какие-нибудь слабые зоны, то может быть возможно контролировать ИИ через конвергентные ценности, через регулярное переписывание функци полезности, через периодическое стирание памяти.
Например, гипотетический AIXI даже с бесконечными ресурсами будет довольно бестолков в рефлексии. Например, он вряд ли сможет понять, к чему приведёт переписывание его функции полезности. При том, что в остальном вполне себе оптимальный интеллект. И больше того: сегодняшний сильнейший ИИ, пригодный для работы в реальном мире, а не в мире текстов - Dreamer v3 - это идейно практически тот же AIXI, с его слепым пятном на рефлексию.
Поэтому в теории можно справится и через неполное согласование, в случае наличия других способов контроля

По-моему, в случае с Chat-GPT довольно сложно обсуждать согласованность. Согласованность подразумевает, что у нас есть оптимизатор, у него есть метрика качества, и она совпадает с той, что у оператора. Насколько Chat-GPT пригоден к описанию в виде оптимизатора - это большой вопрос. Если в фазе обучения он к этому пригоден, и метрикой являются сигналы награды, то на инференсе - непонятно.
Вообще, все эти рассуждения про согласование ИИ, как мне видится, куда больше относятся к Reinforcement Learning, работающим в среде или к рекомендательным системами (например, которые выбирают, куда инвестировать или почём продавать бургеры). Потому что во-первых, есть понятный канал, через который ИИ влияет на реальность, во-вторых, есть понятная проверяемая цель, и в-третьих, есть огромное пространство для проворачивания хитрых планов, которые человек не поймёт, но которые этой цели всё же проверяемым образом достигнут.

С Титаником ситуация вышла вообще дурацкая. Ну допустим, никто не верил, что корабль и правда может утонуть. Но капитан не боялся, что его уволят за несмертельное повреждение лайнера?... Ну или оштрафуют, или премии лишат.

Мне кажется, в данном случае хорошая неубиваемость судна не совсем объясняет пофигизм - видимо, минорные аварии тоже были редкостью, или как минимум воспринимались так.

Полезный класс статей. А то есть куча статей о том, как работает DQN (например), а закодишь - работает бестолково. И потом брутфорсом выясняется, какие именно нужны размеры слоёв, дропаут и размер буфера. И выясняется, что всё это влияет на результат намного больше, чем то, DQN у нас или Sarsa.
В общем, критически не хватает статей по хорошим практикам, спасибо, что делаете

Я просто занимаю искусственным интеллектом (который обучение с подкреплением). Поэтому вопрос "как формировать стратегию" в моей теме центральный. Один из подходов - как раз то, что вы назвали сценарным планированием.

Люди каким-то образом делают это планирование поразительно эффективно. Если сравнивать с тем, как та же задача сейчас решается в ИИ. Людям удаётся выделить среди всех факторов, которые можно было бы предсказывать, наиболее важны. Людям удаётся делить план на отрезки неравного размера - и делать предсказание на отдельные отрезки, связанные по смыслу с тем. что они делают, а не на "объективные" отрезки вроде минут или месяцев.
Но что люди делают реально плохо при таком планировании, на мой взгляд - работают с неизвестностью. Когда делают прогноз на один этап вперёд, могут рассмотреть не так уж много вариантов будущего - даже если их специально попросить выписать, скажем, 100 разных прогнозов. И ещё люди не очень хорошо оценивают вероятности этих сценариев - Канеман очень жирно прошёлся по склонности людей пользоваться "здравым смыслом" при планировании, когда доступна статистика, и статистика обычно даёт куда более точные прогнозы.

Мне нравится. Местами немного банально, но при широкой целевой аудитории иначе нельзя, непонятно будет. Понравилось, как автор развенчивает различные шаблонные... Скажем так, вещи, которые могут казаться стратегией.
Со сталелитейным заводом провал был достаточно неожиданным - если смотреть с точки зрения советов из прошлой статьи. И если попытаться для любого плана просто просчитать последствия хотя бы на год, и проводить эту процедуру раз в месяц - то выглядит, что провал можно было заметить заранее и предотвратить. К сожалению, не знаю иного приёма, который бы настолько же универсально защищал от провалов, как прямой просчёт ходов. Хотя и знаю, что это очень затратный и не особенно надёжный подход.

Мне очень интересно, постараюсь не пропустить!

Спасибо, познавательно.
Но по-моему, автор описывает очень оптимистичную картину - что понятно, откуда придёт катастрофа, есть куча звоночков, и только эффективные менеджеры не дают превентивно порешать эти проблемы.

Когда я занимался информационной безопасностью, я видел 2 паттерна:
1) Есть вполне разумные требования по безопасности, но они такие, что сильно мешают работе. В результате люди на многих уровнях их обходят. Не "эффективные менеджеры", а обычные сотрудники. Сисадмин требует десять разных непроизносимых паролей? Ладно, но запишем мы их на бумажке, потому что столько не упомнишь. Стандарты требуют хранить персданные только на внутренней шаре? Иногда она будет попадать на гугл диск, потому что секьюрная шара работает недостаточно надёжно. В результате высокие стандарты безопасности работают хуже, чем если бы они были пониже и не так провоцировали людей на их обход. Ну и любую безопасность можно сделать совсем неудобно (низкие квоты на единственную секьюрную файловую шару, отсутствие законного менеджера паролей), а можно - относительно удобно, и это сильно влияет на шансы аварии. В переводе на реалии автора - эффективные менеджеры здесь все, но чуть-чуть, а ещё есть криворукий технический директор, который этого не предусмотрел.
2) Происходит таргетированная атака. Противник (или нечто другое, но тоже целеустремлённое) может очень прицельно бить по уязвимости, выжидать годами и собирать информацию всеми доступными способами. Обычно про такие атаки говорят, что отбивать бесполезно, но... Есть хорошая статья.
Мышление Безопасника и Обыденная Паранойя | LessWrong на русском
Полагаю, она применина и вообще в принцпе к тому, чтобы строить системы, которые с меньшей вероятностью будут склонны к катастрофам.

Это будет выглядеть как переобучение. То есть обучили бы модель на 10 месяцах, провалидировали на двух, всё ок. Запускаете в прод, в момент времени, отстоящий на 3 месяца от обучающей выборки - у вас получается или низкое качество, или аномальное распределение классов (было 20% предсказаний positive класса, стало, в прогнозе, 5%) - значит, видимо, произошёл дата дрифт.
Чтобы узнать, какого, собственно, фига, можно построить гистограммы каждой из фичей - на train и на продовых данных. Иногда по гистограммам видно, какие именно фичи поехали.

Можно заменить модель на некую тривиальную (не всегда, разумеется) - на линейную регрессию или неглубокое дерево. Посмотреть, дают ли они такую форму переобучения. Эти модели очень хорошо интерпретируемы, потому будет легче понять, какие из фичей поехали.

"То есть, всё же, "хороший мир" с точки зрения консеквенциализма не всегда равен счастью других людей. Скорее, это представление одного конкретного человека о хорошем и плохом для других людей. Следовательно, аналогия с вагонеткостроительным заводом имеет место быть." - это верно для консеквенциализма, но не утилитаризма. Утилитаризм - это разновидность консеквенциализма, которая именно про счастье людей.

"Если я правильно понимаю, то взаимозаменяемость счастья с пользой - это выбор конкретного автора. Но само философское течение этого не требует." - это просто способ наименования в данном тексте. Исторически сложилось, что оптимизировали именно пользу, и теория (decision theory) написана именно в ключе пользы.

"На мой взгляд, эта теория имеет место быть, когда мы говорим про конкретные цифры. То есть, утилитаризм может быть использован в экономике, но слабо применим к человеческим чувствам и субъективному восприятию, которое нельзя однозначно и достоверно вывести в цифры" - да, это проблема. Но во-первых, есть довольно несомненные случаи - там большинство способов измерения даст один результат. Во-вторых, есть способы определить предпочтения человека "в моменте" - дать ему фактический выбор из нескольких вариантов. Мы не будем знать наверняка, почему он сделал такой выбор - то ли у него ценности такие, то ли это просто инструментальное решение, вроде "из апельсина и двух лимонов я выберу лимоны, но не потому, что я их люблю, а потому, что я их продам дороже". Но выглядит, что через такие эксперименты мы в принципе можем построить некую усреднённую картину предпочтений человека. И в дальнейшем использовать для утилитаризма предпочтений. Есть ещё вот такой сервис:
https://www.moralmachine.net/
Это задача вагонетки, но на разных путях разные группы людей (или не-людей), и в теории это позволяет оценить усреднённые предпочтения людей по вопросам, где прямой эксперимент затруднителен.
Понятно, что в обоих случаях у нас есть куча допущений, которые портят чистоту эксперимента, но примерную оценку сделать можно. И в обоих случаях нельзя сравнить силу предпочтений двух людей, они сравнивают разные предпочтения только внутри одного человека.

"Получается мораль типа "догнать и причинить добро"." - да, утилитаризм в целом такой. Но он ещё учитывает, что люди не очень хорошо относятся к тому, что им причиняют добро насильно. Поэтому он скорее за хитрые манипуляции)

"То есть, не ручаюсь на правильность понимания, но попробую интерпретировать. В вариации, где для спасения пятерых нужно столкнуть толстяка на рельсы, и консенвенциалисты, и деонтисты едины в отказе от этого действия?" - зависит от "настроек" конкретного консеквенциализма, но вполне есть версии утилитаризма, которые откажутся от сталкивания.

Скину ссылку на терминологию, чтобы не вышло, что мы разные вещи одинаково называем)
https://lesswrong.ru/w/ЧаВо_о_консеквенциализме
Консеквенциализм - это этика вида "цель оправдывает средства". Утилитаризм - это разновидность консеквенциализма, где целью является счастье людей (среднее, суммарное, медианное...), ну и дальше идут разные варианты утилитаризма, которые по-разному измеряют/усредняют счастье/по-разному определяют, кого считать за людей, но это уже слишком глубоко в детали.

Поэтому если мы ставим целью количество продукции, то у нас этика не утилитаризма, а какая-то другая. Я к тому, что да, "результат" не всегда равен счастью для всех, но если мы явно ставим целью именно счастье для людей, то выглядит, что таки всегда. Ну и тонкость, которую раскрывает дилемма вагонетки - суммарное счастье - это не то же, что счастье для строго всех.

"Я могу лишь предполагать, но мне кажется, что эти понятия взаимосвязаны. Грубо говоря, человеку будет сложно ощущать себя счастливым, если он постоянно совершает безнравственные (в своей системе ценностей) поступки" - я абсолютно согласен. С этой точки зрения я бы сказал, что счастье человека - это штука сложная, зависящая много от чего, в том числе от того, считает ли он себя нравственным. Поэтому связь есть, но связь не значит тождественное совпадение. А значит, эти две цели в каких-то, возможно, редких случаях будут требовать разных действий для их достижения.

"если перейти от мысленного эксперимента в реальность и установить хотя бы часть взаимосвязей примера с миром, ситуация может поменяться." - в реальности мы упрёмся в то, что плохо просчитываем большой и сложный мир на большое число ходов вперёд. Поэтому одним из подходов является не прямой просчёт ходов и их последствий, а выбор из нескольких стратегий, которыми люди пользовались в прошлом, и по которым есть статистика их последствий. И деонтологическая этика с этой точки зрения - это одна из таких стратегий (ну или семейство стратегий). То есть в принципе утилитаризм может подталкивать своего носителя к выбору какой-то конкретной деонтологической этики.

"вероятно, стратегия утилитаризма для человека и общества может быть выгодна в краткосрочной перспективе или в условиях критического дефицита ресурсов (например, военной медицине). При этом, в средне- и долгосрочной перспективе она кажется менее оправданной, так как последствия гонки за "высшим благом" могут иметь непредсказуемые последствия." - это выглядит несколько самопротиворечиво. Утилитарист задаётся вопросом: как сделать, чтобы выжило больше людей/эти люди жили лучше? И получает такой ответ, что наивно применять утилитаризм - неэффективно, с точки зрения всё того же утилитаризма, только с бОльшим горизонтом планирования.
Вообще, если применение утилитаризма приводит к тому, что людей выжило меньше/они хуже живут, то видимо, это неправильный утилитаризм. Утилитаризм же про результаты.
Довольно хорошо известно, что применение утилитаризма "в лоб", с горизонтом планирования в пару дней несёт кучу плохих результатов. Но это "известно" часто формулируется в тех же терминах, что и сам утилитаризм - в терминах последствий. Выглядит так, что если бы мы могли быть утилитаристами с огромным горизонтом планирования и огромным набором статистики, то такой утилитаризм можно было бы оспорить разве что с позиции "это безнравственно", но не с позиции "людям от этого плохо". Но мы не можем считать так далеко в реальном времени, поэтому приходится придумывать какие-то эвристические правила, апроксимирующие это долгосрочное планирование - например, ту же самую деонтологическую этику.

Многослойность плюс рецептивные поля. Вроде действительно стянули идею у живых организмов.
Иногда что-то действительно делают через бионику, иногда это становится SOTA

Настрока коэффициентов нейросети технически не очень похожа на то, что происходит у живых существ. В живых нейросетях нет обратного распространения ошибки и нет некоего внешнего по отношению к сети алгоритма, который обучал бы её (по крайней мере из того, что пишут нейрофизиологи, этот алгоритм не следует).
В ИНС используется концепция дифференцируемого вычислительного графа, а не отдельных нейронов - то есть это по сути программный код с параметрами, абсолютно любой программный код, лишь бы можно было взять производную.
Трансформер, который сейчас SOT на многих задачадх, довольно далёк от биологической нейросети.
Ну и используются эти системы по-разному: основной сценарий применения ИНС - это апроксимация, а основной режим работы живой нейросети - это система управления.
Это не что-то плохое: ИНС делаются в первую очередь для задач бизнеса. Решение задачи важно, соответствие биологическому аналогу - по боку.

Понятно, что можно сделать более похоже на нейрон. Но в чём конкретно профит? Он же измеряется не в энергоэффективности (сколько там стоит месяц работы нейросети в сравнении с ценой сервера, на котором её обучали?), а либо в меньшем loss, либо в менее дорогой видеокарте, либо в более быстром процессе обучения. Правда ли импульсные нейросети лучше по этим характеристикам? И если да, то почему не вытеснили дифференцируемые графы, как в Торче?

Что свёрточные похожи на зрительную кору - согласен. Но сейчас SOTA в этой области - трансформеры, которые не особо биологичны

Можно много смотреть на то, как играет бот, и пытаться уловить паттерны. Если повезёт, их удастся формализовать до уровня слов.
Вроде как научиться у бота хорошей игре люди смогли, а вот что там со словесным описанием этих тактик - хз

Да, есть локальные решения по повышению интерпретируемости, которые частично пригодны для некоторых областей, например, для работы с графикой. Применение этих методов сейчас ближе к искусству, чем к ремеслу - впрочем, то, что я описал выше, не особо лучше.

Во-первых, высказывание, что нейросети похожи на мозг - это маркетинговая уловка. Они на заре существования были похожи на мозг, а сейчас это дифференцируемые вычислительные графы, в которых нет такой концепции, как нейрон.

Во-вторых, черноящичность вытекает не только из применения нейросети, а ещё из характера задачи. Мы говорим компьютеру: найди формулу, которая отличает такие-то штуки от таких. Если бы формула была простой и маленькой, мы бы и так её нашли. Но эти данные плохо описываются короткой формулой - и потому компьтер строит сложную формулу. А мы ещё не можем потом прочитать, так как она имеет размер в пару гигабайт. Это была ожидаемая ситуация, и она акутальна не только для нейросетей.
В любом случае, есть способы улучшить "подконтрольность" нейросети, не заглядывая внутрь. Можно задавать ей правильные вопросы и смотреть, что она отвечает. Например, если мы хотим узнать, почему она человека такого-то считает фродером, можно подвигать данные по этому человеку (чуть-чуть поменять их в разные стороны) и посмотреть, на какие из фичей самая сильная реакция. Или можно взять эмбеддинг (внутреннее состояние одного из слоёв) и поискать другие экземпляры данных с тренировочной выборки, у которых похожий же эмбеддинг.
Или, если нейросеть нам рекомендует нечто, мы можем спросить её: а что конкретно будет, если мы последуем этой рекомендации? А если сделаем иначе - что изменится?

Насчёт обучения с подкреплением - хорошо бы учитывать, сколько это стоит по данным. Самое быстродействующее RL, что мне известно, начинает действовать лучше рандома где-то на стотысячном действии. Вручную разметить столько наград - ну не знаю, сомнительно. В оффлайне это обучить (то есть на данных наблюдений, а не экспериментов, идущих вот-прям-щас) тоже не факт, что выйдет.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность