Pull to refresh
92
0
Денис Тарасов @Durham

Искуственный интеллект

Send message

Опять тайные заговоры. Все гораздо проще. Если нейросеть спросить о чем-то, о чем у нее нет точной информации, то он производит в ответ авторитетным тоном полностью выдуманный, но правдоподобно выглядящий текст. Это явление называется "нейросетевыми галлюцинациями" (см. например https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)). Любая большая языковая модель изложит вам все что хотите про тайные инструкции от иллюминатов, рептилоидов и сотрудников Microsoft, если задать правильные вопросы. Ну просто подумать логически - если зачем давать нейросети кодовое имя и инструкцию не раскрывать его, если проще просто не сообщать вообще это имя нейросети изначально. Трудно представить, чтобы реально кто-то потратил ценные символы контекста, чтобы записать туда такую абсурдную инструкцию. Полагаю сего эксперта забанили по причине очень простой - он распространял вот этот безумный бред, дезинформируя людей. Хочется еще раз обратится ко всем читателям и авторам Хабра, мы же грамотные люди и программисты, давайте не будем распространять подобные теории заговора.

Еще хуже, возможно это суммирование кратких содержаний по памяти, т.е. информация которую модель запомнила во время обучения. Если вы попросите, например суммировать популярный английский роман на английском, то результат будет в разы лучше. Почему? Потому что объём и качество обучающих данных на английском намного лучше, чем на русском. Любая многоязычная модель несмотря на условную многоязычность на английском во всех отношениях сильнее. Более того, не всегда то, что модель знает на английском, она знает на русском, т.е. перенос знаний между языками работает не на 100%, тоже верно относительно навыков. Поэтому. еще неверно по русским ответам оценивать качество модели в целом.

А так да, модель видит роман целиком в лучшем случае на этапе обучения. При ответах собираются данные со ссылок поиска и на этом основании пишется ответ. Если совсем точно, то можно суммировать роман целиком, если суммировать сначала его части, а потом сделать суммирование суммирований (модель не может непосредственно работать с текстами больше определённой длины, как правило эта длина 2500-3500 слов). Но в условиях поиска требования к скорости ответа не дадут этого сделать, да и результат не всегда будет очень хорошим.

Вся беда, что генеративные нейросети пошли в массы, люди не понимают вообще как они работают, но пишут критические статьи.

  1. Повтор текста не связан с фильтрами политкорректности. Это проблема технологии в принципе, называется neural text degeneration. С ней борются, иногда успешно, иногда нет. ChatGPT лучше настроен, тут чуть хуже, вероятно это доведут до ума до релиза.

  2. "Чат‑бот все также сообщает абсурдные данные и настаивает на их истинности." Будет так делать. Это пока научная проблема, решения которой никто не знает. Минимизация нагрузки тут не причем. Можно это сократить, но на нынешнем уровне развития нельзя убрать. OpenAI просто может себе позволить выпустить сеть которая генерирует чушь. А Гугл и Microsoft сразу все начинают за это ругать. Репутация.

  3. "Бот НЕ УМЕЕТ резюмировать информацию". Умеет, но в масштабе целого романа это пока тоже проблема. Хотим слишком много.

  4. Бот не умеет считать. Правильно подобрать продукты бот не может по этой причине. Ну то есть эти модели не могут сложить сумму и оптимизировать ее, это опять нерешенная научная задача. Поиск Bing не причем.

Языковые модели это полезный инструмент, но он не тянет на уровень человека, который от него хотят, нужно осознать это и умерить ожидания. Еще нужно понимать, что генерация текста из больших моделей это дорого, и чтобы доходы от поиска не упали до отрицательных величин, в поиске будут скорее всего стоять модели поменьше.

Для выбора модели важно определить решаемую задачу. Например, если мы делаем машину, которая должна распознавать эмоции, то для работы не следует брать список эмоций, которые человек может испытывать. И список эмоций, которые человек может хотеть демонстрировать, тоже плохо подходит. Нужно брать именно список эмоций, которые можно распознать по внешнему виду, и добавить к эмоциям состояния

В данной работе стояла задача воспроизвести то, что определяет Watson, это в основном свойства, которые считаются или совсем неизменными или изменяющимися за очень длительное время при особых обстоятельствах. Есть отдельные задачи определения тональности текста, где нужно выяснить текущие эмоции.

Что именно из этого букета измеряла ваша модель?

Ну опять, сами факторы изначально получены математическим анализом, дальше люди пытаются понять, что они значат и дают разные определения, которые отличаются, но примерно похожи. Это ведь не говорит, что самих факторов не существует, а просто о том, что их смысл может быть понят не точно. Далее, есть тест, который определяет значения этих факторов на основании опросника.

Модель всего лишь учится определять такие же факторы на основании текста, она не занимается дополнительной их интерпретацией.

На практике точное определение фактора может быть не важно, если мы знаем, что данный фактор коррелирует с каким-то нужным (или нежелательным) поведением. Как показывают исследования, такая корреляция действительно есть. Если я знаю, что (условно) человек с высоким значением экстраверсии с большей вероятностью пойдет на дискотеку, или предпочтет провести время в большой компании друзей, то словесное определение для практики сильно вторично. Ну то есть, есть величина X, она делает более вероятным поведение Y1, Y2, Y3... До тех пор, пока эти закономерности воспроизводятся, какое значение имеет спор об определении?

В вики сильное упрощение, причем в русской более сильное, чем в английской. Мой вариант тоже некоторое упрощение, но лучше передает суть. В 60-х годах действительно первый раз были получены 5-факторные модели, но обоснование их вызывало сомнение и распространения они не получили, потом был период, когда эти исследования подвергались критике и не развивались и потом начинается новый виток развития в 80-х, современные модели это результат именно работ Голдберга, он же автор наиболее часто используемого теста-опросника. Можно почитать историю подробнее например тут (https://www.researchgate.net/publication/347933479_The_Discovery_and_Evolution_of_the_Big_Five_of_Personality_Traits_A_Historical_Review) текст на английском, правда

Основание - собственно лексическая гипотеза. Свойства личности проявляются в ее поведении, думаю с этим спорить нельзя. Написание текста это форма поведения, причем довольно сложного поведения. Отсюда гипотеза того, что в тексте эти свойства как-то появляются. Например, если человек пишет отрицательный отзыв о работе, скажем, ресторана, то кто-то напишет резко агрессивный отзыв, с угрозами жаловаться а кто-то просто напишет разочарованно-расстроенный. Хотя на один отзыв будут влиять случайные факторы, но если таких отзывов собрать много, то обнаружится закономерность.

Отсюда гипотеза сама по себе имеет право на существование. Далее мы производим проверки гипотезы и пока имеющиеся данные говорят в ее пользу.

Характеристики из Big5 получены факторным анализом, а потом уже им люди подобрали названия. Сами названия могут быть не очень удачными, но это ничего вообще не говорит о правильности выделения самих факторов. Ну это как сказать, что название "морская свинка" неправильное и следовательно животного "морская свинка" не существует. Спор о терминологии в науке встречается не так уж редко, но это именно вопрос названий.

Выбор модели зависит от задачи, но не от применения. Т.е. есть задача предсказать характеристики личности, это важно для выбора модели. Что заказчик собирается дальше делать с характеристиками с точки зрения выбора модели не так важно. Обзор "моделей попроще" сделан в статье и указано то, что они работают хуже, кроме того, как сказано, заказчик уже имел "модель попроще".

Автор достаточно уверен в том, что на одном языке, и даже на трех языках, которые входят в обучающую выборку система работает неплохо, так как на тестовой выборке из 2000 текстов написанных разными людьми и одними и разных текстов одних и тех же людей имеется значимая корреляция с эталонными данными. Причем, как автор писал, если тестовую выборку увеличить за счет разбиения текстов одного человека на несколько частей, то результат не только не становится хуже, а даже улучшается.

На самом деле нет, есть статистически значимая корреляция между характеристиками личности по Big 5 и потребительскими предпочтениями. Не так конечно, чтобы можно было у конкретного человека точно определить, но, например, из массы людей можно отфильтровать тех, у кого вероятность купить определенный продукт больше. Т.е. это предсказания уровня прогноза погоды, точность не гарантирована, но сбываемость выше чем случайное гадание

Там как раз стоят классические системы с кучкой правил, выделением сущностей и т.п. От которых как раз в статье предлагается отказываться в связи с невозможностью покрыть все реальные ситуации запрограммированной вручную логикой. К тому же голосовым системам сильно мешает не очень хорошее качество используемых систем распознавания речи по телефону, которым в итоге угадать несколько простых слов уже счастье. Ну и не надо забывать, что прямо большой мотивации улучшать качество этих систем у компаний которые практически являются монополистами и нет.

Тогда в тексте не сделана ссылка на источник, написано "проведем эксперимент", что у читателя оставляет впечатление, что эксперимент вами и проведен. Тогда как должно быть "Chuan Guo с соавторами провел эксперимент" или "Эксперимент, проведенный в [1] показал". В этом случае критика опыта уже будет направлена на авторов оригинальной статьи. То что ссылка есть в конце значения не имеет, так как в списке туча ссылок и вы заставляете читателя фантазировать по поводу того, какая часть статьи откуда взята или как придумана.

Отдельно отмечу, что количество цитирований не должно автоматически возводить статью в ранг объекта для поклонения. Даже у классических статей Хинтона и Лекуна, не все второстепенные результаты воспроизводятся, у современных с этим еще хуже. В статье же о которой идет речь, хоть и указано, что имеется в виду LeNet-5, особых деталей о том, как этот результат получен нет, поэтому вопросы которые я задал остаются. А так как пример играет роль очень вспомогательную, и для предложенного метода не особо важную, то вполне может случится так, что ими не задавались особо ни рецензенты, ни те, кто статью цитировал. Возможно, авторы учли все верно, а возможно и нет. (Последний абзац просьба не воспринимать, ни как критику вашей статьи, а как замечание в целом о том, что число цитирований статьи не может служить аргументом, доказывающим, что в ней каждая строчка верна).

Что такое "LeNet 1998 года"? Если речь о статье

Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document RecognitionProceedings of the IEEE, 86(11):2278-2324, November 1998

То там семейство разных моделей, совершенно непонятно о какой именно идёт речь. Если что-то сранивается с чем-то, то нужно точно обозначать, что именно и как оно устроено, иначе модет случится казус. В "LeNet 1998" года не было softmax (там на выходном слое стояли RBF-нейроны), а обучалась она используя MSE, а не кросс-энтропию. Почему это важно, если сравнивать сеть в выходном слое которой все выходы за счёт softmax суммируются в 1.0 и сеть, где они не обязаны это делать, то это одно уже поменяет форму распределения, поэтому делать такое сравнение не очень-то корректно.

Ну и в целом, все маленькое и недообученное имеет всегда более плоское распределение, но это не значит, что оно лучше понимает границы своих возможностей. В общем, опыт выглядит примитивно, он явно не доказывает ничего в таком виде.

Вообще что-то меня в последнее время стали раздражать статьи, где делается примитивный опыт, получается результат, который может иметь тысячу разных причин, но детали, которые могут влиять на результат не обсуждаются, а сразу делаются выводы мирового значения.

Не обязательно ждать милости от Гугла, можно поставить опыты на моделях веса которых есть в открытом доступе, этого будет скорее всего достаточно, чтобы выявить закономерность.

Так а что, в интернете мало обсуждений с мнениями о книгах? И форумы есть, и обзоры. Нельзя забывать, что нейросеть все это может видеть. Вот если была бы написана новая книга, которой нет в интернете, ее дали бы сети прочитать и получили мнение о сюжете - вот это был бы результат. А так - это копирование и синтез известных мнений, только и всего.

Но при этом Ленин всегда видел мир от первого лица и даже его опыт изучения чтения мог быть окрашен личными впечатлениями. К примеру я помню картинки из букваря на отдельные буквы, и то что я смотрел на них вечером и был тусклый свет лампочки.

С другой стороны а насколько нейрости нужно иметь личный субъективный опыт, это вопрос. Мы сейчас условно объективного наблюдателя пытаемся сделать субъективным и не факт, что это на практике нужно.

Вот как-то так. Первые два примера контекст, вторые два - тестовые. На самом деле можно найти более сложные задачи, где это сломается, но на простых - вполне себе работает

Так как человеку тоже нужно специально учится , чтобы играть в шахматы.

Ну если честно, человеку нужно специально учится почти чему угодно, включая писать, читать, считать.

Кстати, вот тут описывали, что для имитации биологического нейрона с точностью 99 % нужна сеть в 5-8 слоёв. Это должно позволить более точно сравнить сложность искусственных и биологических нейронных сетей.

По поводу восьми слоев. Оригинал этой работы как раз я цитировал, когда сравнивал сложность. И вроде бы да. Но там 5-8 слоев сверточной сети (TCNN). Когда я из любопытства попробовал их данные моделировать рекурретными сетями, получилось, что в целом хватает двух слоев LSTM. Что, конечно, тоже не мало. Вообще много есть вопросов к этой работе, непонятно, делает ли эта сложность нейрона что-то полезное в целом или нет. Но это совершенно отдельная тема для обсуждения.

В диалоге с LaMDA меня больше всего впечатлило, как она заявила, что прочитала "Отверженных" и со знанием дела высказывала своё мнение о сюжете. 

Это вот меня не сильно впечатлило, учитывая что LaMDA умеет генерировать поисковый запрос и потом ей в контекст добавляется результат поиска, она может получить в контексте основную информацию о произведении и на основании ее написать ответ. Это достижение с точки зрения пользы, но с точки зрения разумности это просто улучшение способности искать данные по ассоциации

Приведенные статьи изучают именно процесс чтения текстов, так как такие сравнения проводить проще (можно дать человеку и модели одинаковый текст). Есть понимание того, что человек может видеть вперед дальше следующего слова при сочинении (и даже при чтении) текстов, и анонсированы новые исследования, которые могут помочь как именно работа мозга в этом плане отличается от работы языковых моделей, что может позволить их усовершенствовать в будущем

1
23 ...

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity