All streams
Search
Write a publication
Pull to refresh
91
0
Денис Тарасов @Durham

Искуственный интеллект

Send message

Из статьи кажется, что Universal Verifier это модуль который будет проверять ответы ChatGPT пользователям. Тогда как в реальности судя по источникам это модуль который используется при обучении модели, чтобы в автоматическом режиме давать положительное или отрицательное подкрепление. Т.е. это внутренний критик, часть процесса обучения.

Статья сама написана с помощью ИИ, что видно по структуре текста и по тому, что изложение проблемы очень поверхностно, и часто ошибочно (например, известно, что LLM строят модель мира, хотя и не всегда хорошую), а рекомендации слишком общие и в лучшем случае давно всем известные (про долговременную память), либо просто бесполезные т.к. состоят из общих слов вроде "Человеческий мозг - это не про монолитную обработку данных, а про сложную систему из множества специализированных модулей". Поэтому сама статья служит наилучшей иллюстрацией ограничений ИИ на данный момент. В каком-то смысле задача статьи достигнута, но не благодаря усилиям автора - а вопреки им.

Нет, он не запоминает поиск, потому что результат обобщается на позиции, которых нет в обучении. В целом, чем это принципиально отличается от метода, которым получают современные рассуждающие модели - обучение на примерах цепочек рассуждений и потом дообучения с помощью Reinforcemnt Learning? Если на то пошло, чем отличается принципиально от обучения человека, с которым разбирают партии и показывают логику принятия решений? Не нравится эта методика, вот вам еще статья (https://arxiv.org/pdf/2501.17186) без партий движка.

Вообще, покажите мне человека, которому можно дать 500 тыс в партий в формате PGN, не объясняя партии и не показывая вообще доску и фигуры, и который ничего не зная изначально о шахматах за ночь научится играть даже на уровне ELO 1200-1300?

вы очень плохо понимаете суть рейтинга и разрядов судя по этому замечанию. данное соответствие судя по всему взято с сайта федерации шахмат России но никак не коррелирует с оценкой ELO использованной в статье.

Ну я исхожу из чего. Stockfish имеет калибровку по рейтингу FIDE, судя по документации. Т.е. если Stockfish поставить ELO 1300, то он в 50% случаев обыграет шахматиста с аналогичным рейтингом, статистически. Отсюда, если модель обыгрывает в 50% игр Stockfish с такой настройкой, то модель имеет рейтинг примерно 1300. Да, это приблизительный метод, т.к. отправить модель на соревнования невозможно. Но его результат не может "никак не коррелировать" с реальным рейтингом, чем лучше модель играет против движка, тем сильнее она будет и против человека.

Я не автор той статьи, хотя знаю автора и обсуждал с ней выводы. Думаю автор вам лучше прокомментирует. От себя скажу, что в статье на которую я ссылаюсь для модели как раз и определили рейтинг в диапазоне 1200-1300 (и это рейтинг 2-го юношеского разряда где-то и минимальный уровень на который можно настроить движок Stockfish).

Но ведь мы сейчас обсуждаем статью, где речь о том, что топовые LLM даже правила часто не знают, делаем невозможные ходы через раз, и не может поставить мат в один ход и из этого делаются глобальные выводы.

1200 по сравнению с этим небо и земля, учитывая, что это получено на древнейшей GPT2 размеров в 0.3 миллиарда параметров в далеком 2022 году на небольшом относительно числе партий, а тот же DeepSeek имеет 685 миллиардов параметров. А так, в DeepMind в 2024 взяли 10 млн. партий и обучили модель, которая на lichess в блице получила ELO 2895 (уровень гроссмейстера).

Суть в том, что нет архитектурных ограничений, по которым LLM не может в принципе хорошо играть в шахматы, просто игра в шахматы это не та метрика, которой обычно озабочены разработчики.

Очень полезно вспомнить, что еще в 2022 году на Хабре была вот эта статья, где показали, что небольшим дообучением можно заставить GPT-2 весьма прилично играть в шахматы, и разобрали, что проблема не столько в нейросети, сколько в обучающих данных. Что интересно, с тех пор каждый год, а то и несколько раз в год выходят статьи, где авторы показывают, что та или иная новая модель в шахматы играть не умеет, и в комментариях делаются глобальные выводы из этого, что LLM разумными быть не могут. Хотелось бы попросить авторов, которые пишут про шахматы и LLM, делать поиск и обзор предыдущей литературы перед публикацией, чтобы читатели могли видеть правильный контекст вопроса

Опять тайные заговоры. Все гораздо проще. Если нейросеть спросить о чем-то, о чем у нее нет точной информации, то он производит в ответ авторитетным тоном полностью выдуманный, но правдоподобно выглядящий текст. Это явление называется "нейросетевыми галлюцинациями" (см. например https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)). Любая большая языковая модель изложит вам все что хотите про тайные инструкции от иллюминатов, рептилоидов и сотрудников Microsoft, если задать правильные вопросы. Ну просто подумать логически - если зачем давать нейросети кодовое имя и инструкцию не раскрывать его, если проще просто не сообщать вообще это имя нейросети изначально. Трудно представить, чтобы реально кто-то потратил ценные символы контекста, чтобы записать туда такую абсурдную инструкцию. Полагаю сего эксперта забанили по причине очень простой - он распространял вот этот безумный бред, дезинформируя людей. Хочется еще раз обратится ко всем читателям и авторам Хабра, мы же грамотные люди и программисты, давайте не будем распространять подобные теории заговора.

Еще хуже, возможно это суммирование кратких содержаний по памяти, т.е. информация которую модель запомнила во время обучения. Если вы попросите, например суммировать популярный английский роман на английском, то результат будет в разы лучше. Почему? Потому что объём и качество обучающих данных на английском намного лучше, чем на русском. Любая многоязычная модель несмотря на условную многоязычность на английском во всех отношениях сильнее. Более того, не всегда то, что модель знает на английском, она знает на русском, т.е. перенос знаний между языками работает не на 100%, тоже верно относительно навыков. Поэтому. еще неверно по русским ответам оценивать качество модели в целом.

А так да, модель видит роман целиком в лучшем случае на этапе обучения. При ответах собираются данные со ссылок поиска и на этом основании пишется ответ. Если совсем точно, то можно суммировать роман целиком, если суммировать сначала его части, а потом сделать суммирование суммирований (модель не может непосредственно работать с текстами больше определённой длины, как правило эта длина 2500-3500 слов). Но в условиях поиска требования к скорости ответа не дадут этого сделать, да и результат не всегда будет очень хорошим.

Вся беда, что генеративные нейросети пошли в массы, люди не понимают вообще как они работают, но пишут критические статьи.

  1. Повтор текста не связан с фильтрами политкорректности. Это проблема технологии в принципе, называется neural text degeneration. С ней борются, иногда успешно, иногда нет. ChatGPT лучше настроен, тут чуть хуже, вероятно это доведут до ума до релиза.

  2. "Чат‑бот все также сообщает абсурдные данные и настаивает на их истинности." Будет так делать. Это пока научная проблема, решения которой никто не знает. Минимизация нагрузки тут не причем. Можно это сократить, но на нынешнем уровне развития нельзя убрать. OpenAI просто может себе позволить выпустить сеть которая генерирует чушь. А Гугл и Microsoft сразу все начинают за это ругать. Репутация.

  3. "Бот НЕ УМЕЕТ резюмировать информацию". Умеет, но в масштабе целого романа это пока тоже проблема. Хотим слишком много.

  4. Бот не умеет считать. Правильно подобрать продукты бот не может по этой причине. Ну то есть эти модели не могут сложить сумму и оптимизировать ее, это опять нерешенная научная задача. Поиск Bing не причем.

Языковые модели это полезный инструмент, но он не тянет на уровень человека, который от него хотят, нужно осознать это и умерить ожидания. Еще нужно понимать, что генерация текста из больших моделей это дорого, и чтобы доходы от поиска не упали до отрицательных величин, в поиске будут скорее всего стоять модели поменьше.

Для выбора модели важно определить решаемую задачу. Например, если мы делаем машину, которая должна распознавать эмоции, то для работы не следует брать список эмоций, которые человек может испытывать. И список эмоций, которые человек может хотеть демонстрировать, тоже плохо подходит. Нужно брать именно список эмоций, которые можно распознать по внешнему виду, и добавить к эмоциям состояния

В данной работе стояла задача воспроизвести то, что определяет Watson, это в основном свойства, которые считаются или совсем неизменными или изменяющимися за очень длительное время при особых обстоятельствах. Есть отдельные задачи определения тональности текста, где нужно выяснить текущие эмоции.

Что именно из этого букета измеряла ваша модель?

Ну опять, сами факторы изначально получены математическим анализом, дальше люди пытаются понять, что они значат и дают разные определения, которые отличаются, но примерно похожи. Это ведь не говорит, что самих факторов не существует, а просто о том, что их смысл может быть понят не точно. Далее, есть тест, который определяет значения этих факторов на основании опросника.

Модель всего лишь учится определять такие же факторы на основании текста, она не занимается дополнительной их интерпретацией.

На практике точное определение фактора может быть не важно, если мы знаем, что данный фактор коррелирует с каким-то нужным (или нежелательным) поведением. Как показывают исследования, такая корреляция действительно есть. Если я знаю, что (условно) человек с высоким значением экстраверсии с большей вероятностью пойдет на дискотеку, или предпочтет провести время в большой компании друзей, то словесное определение для практики сильно вторично. Ну то есть, есть величина X, она делает более вероятным поведение Y1, Y2, Y3... До тех пор, пока эти закономерности воспроизводятся, какое значение имеет спор об определении?

В вики сильное упрощение, причем в русской более сильное, чем в английской. Мой вариант тоже некоторое упрощение, но лучше передает суть. В 60-х годах действительно первый раз были получены 5-факторные модели, но обоснование их вызывало сомнение и распространения они не получили, потом был период, когда эти исследования подвергались критике и не развивались и потом начинается новый виток развития в 80-х, современные модели это результат именно работ Голдберга, он же автор наиболее часто используемого теста-опросника. Можно почитать историю подробнее например тут (https://www.researchgate.net/publication/347933479_The_Discovery_and_Evolution_of_the_Big_Five_of_Personality_Traits_A_Historical_Review) текст на английском, правда

Основание - собственно лексическая гипотеза. Свойства личности проявляются в ее поведении, думаю с этим спорить нельзя. Написание текста это форма поведения, причем довольно сложного поведения. Отсюда гипотеза того, что в тексте эти свойства как-то появляются. Например, если человек пишет отрицательный отзыв о работе, скажем, ресторана, то кто-то напишет резко агрессивный отзыв, с угрозами жаловаться а кто-то просто напишет разочарованно-расстроенный. Хотя на один отзыв будут влиять случайные факторы, но если таких отзывов собрать много, то обнаружится закономерность.

Отсюда гипотеза сама по себе имеет право на существование. Далее мы производим проверки гипотезы и пока имеющиеся данные говорят в ее пользу.

Характеристики из Big5 получены факторным анализом, а потом уже им люди подобрали названия. Сами названия могут быть не очень удачными, но это ничего вообще не говорит о правильности выделения самих факторов. Ну это как сказать, что название "морская свинка" неправильное и следовательно животного "морская свинка" не существует. Спор о терминологии в науке встречается не так уж редко, но это именно вопрос названий.

Выбор модели зависит от задачи, но не от применения. Т.е. есть задача предсказать характеристики личности, это важно для выбора модели. Что заказчик собирается дальше делать с характеристиками с точки зрения выбора модели не так важно. Обзор "моделей попроще" сделан в статье и указано то, что они работают хуже, кроме того, как сказано, заказчик уже имел "модель попроще".

Автор достаточно уверен в том, что на одном языке, и даже на трех языках, которые входят в обучающую выборку система работает неплохо, так как на тестовой выборке из 2000 текстов написанных разными людьми и одними и разных текстов одних и тех же людей имеется значимая корреляция с эталонными данными. Причем, как автор писал, если тестовую выборку увеличить за счет разбиения текстов одного человека на несколько частей, то результат не только не становится хуже, а даже улучшается.

На самом деле нет, есть статистически значимая корреляция между характеристиками личности по Big 5 и потребительскими предпочтениями. Не так конечно, чтобы можно было у конкретного человека точно определить, но, например, из массы людей можно отфильтровать тех, у кого вероятность купить определенный продукт больше. Т.е. это предсказания уровня прогноза погоды, точность не гарантирована, но сбываемость выше чем случайное гадание

Там как раз стоят классические системы с кучкой правил, выделением сущностей и т.п. От которых как раз в статье предлагается отказываться в связи с невозможностью покрыть все реальные ситуации запрограммированной вручную логикой. К тому же голосовым системам сильно мешает не очень хорошее качество используемых систем распознавания речи по телефону, которым в итоге угадать несколько простых слов уже счастье. Ну и не надо забывать, что прямо большой мотивации улучшать качество этих систем у компаний которые практически являются монополистами и нет.

Тогда в тексте не сделана ссылка на источник, написано "проведем эксперимент", что у читателя оставляет впечатление, что эксперимент вами и проведен. Тогда как должно быть "Chuan Guo с соавторами провел эксперимент" или "Эксперимент, проведенный в [1] показал". В этом случае критика опыта уже будет направлена на авторов оригинальной статьи. То что ссылка есть в конце значения не имеет, так как в списке туча ссылок и вы заставляете читателя фантазировать по поводу того, какая часть статьи откуда взята или как придумана.

Отдельно отмечу, что количество цитирований не должно автоматически возводить статью в ранг объекта для поклонения. Даже у классических статей Хинтона и Лекуна, не все второстепенные результаты воспроизводятся, у современных с этим еще хуже. В статье же о которой идет речь, хоть и указано, что имеется в виду LeNet-5, особых деталей о том, как этот результат получен нет, поэтому вопросы которые я задал остаются. А так как пример играет роль очень вспомогательную, и для предложенного метода не особо важную, то вполне может случится так, что ими не задавались особо ни рецензенты, ни те, кто статью цитировал. Возможно, авторы учли все верно, а возможно и нет. (Последний абзац просьба не воспринимать, ни как критику вашей статьи, а как замечание в целом о том, что число цитирований статьи не может служить аргументом, доказывающим, что в ней каждая строчка верна).

Что такое "LeNet 1998 года"? Если речь о статье

Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document RecognitionProceedings of the IEEE, 86(11):2278-2324, November 1998

То там семейство разных моделей, совершенно непонятно о какой именно идёт речь. Если что-то сранивается с чем-то, то нужно точно обозначать, что именно и как оно устроено, иначе модет случится казус. В "LeNet 1998" года не было softmax (там на выходном слое стояли RBF-нейроны), а обучалась она используя MSE, а не кросс-энтропию. Почему это важно, если сравнивать сеть в выходном слое которой все выходы за счёт softmax суммируются в 1.0 и сеть, где они не обязаны это делать, то это одно уже поменяет форму распределения, поэтому делать такое сравнение не очень-то корректно.

Ну и в целом, все маленькое и недообученное имеет всегда более плоское распределение, но это не значит, что оно лучше понимает границы своих возможностей. В общем, опыт выглядит примитивно, он явно не доказывает ничего в таком виде.

Вообще что-то меня в последнее время стали раздражать статьи, где делается примитивный опыт, получается результат, который может иметь тысячу разных причин, но детали, которые могут влиять на результат не обсуждаются, а сразу делаются выводы мирового значения.

Не обязательно ждать милости от Гугла, можно поставить опыты на моделях веса которых есть в открытом доступе, этого будет скорее всего достаточно, чтобы выявить закономерность.

1
23 ...

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity