Как стать автором
Обновить

Опыт экспертной оценки ответов ChatGPT в одной из профессиональных сфер деятельности

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров5.5K
Всего голосов 13: ↑9 и ↓4+7
Комментарии28

Комментарии 28

А почему же автор не публикует выводов? А зачем тогда статью писали? Я бы очень хотел именно экспертные выводы изучить.

Возможно, потому, что еще рано... )

Мне хотелось бы накопить статистику оценки ответов в интересной мне области (понятно, что далеко не всем эта область будет интересна) - изучить разные ИИ на типовом блоке вопросов, посмотреть динамику со временем... И, возможно, через пять-десять лет можно будет сделать качественные выводы (качественные - в том смысле, что готова ли анализируемая система сейчас или в ближайшем будущем поработать/заменить/ в данной области).

Статья просто дает текущую статистику на большом блоке вопросов, по узкой теме. Возможно, это сподвигнет других исследователей в своих отраслях знаний также собирать статистику...

Ну предварительный вывод же можно сделать.

Оценка: 6 баллов. Последствия оценены верно, но вывод о том, что коммунальные (?) предприятия обычно взимают плату на реактивную мощность, неверен — плата за нее редкость, такое условие договора не предусмотрено российским законодательством.

Если в качестве нагрузки взять скажем конденсатор, то переменный ток через него пойдет и счетчик его посчитает, однако у него же активное сопротивление = бесконечность, т.е нагрузка чисто реактивная и счетчик получается ее учитывает, где здесь ошибка?

Даже реактивная нагрузка создает какой-то ток, который создает активные потери в сети потребителя. Их и посчитает счетчик.

Плата за реактивную мощность - это когда умный счетчик посчитает не только активную, но и реактивную мощность/энергию, и эту реактивную величину предъявить, помимо активной, в счете за электроэнергию. Такого сейчас нет.

Эта реактивная энергия которая не учитывается могла бы сделать полезную работу? Например зажечь лампочку?
Если нет - то в чем проблема?
Если да - то получается счетчик не учитывает энергию которая вполне себе требует ресурсов для создания себя?
Что то мне подсказывает что здесь точно не второй вариант

Если мы включим лампочку, на ее свечение и тепловыделение уйдет активная энергия, которую зафиксирует счетчик.

Может ли реактивная энергия совершить полезную работу? Мой ответ - нет, хотя, соглашусь, в сети есть множество материалов, которые это утверждение оспаривают...

Как один из тех, кто был связан с разработкой электросчетчиков скажу.

Комунальщики оплату за реактиывую мощность берут. Определяют активную и реактивную мощность в счетчике по отдельности а затем суммируют. Это современные электронные счетчики. А вот старые, аналоговые, с крутящимся диском, из Советского Союза - вот те учитывали только активную мощность

Как энергетику, было интересно прочитать. Но я вижу проблему. Автор путает чат-бота на языковой модели и поисковик Google. Это видно даже по вопросам и ответам. Там, где требуется по иному интерпретировать широко известный факт - модель справляется. Там где автор задает узкопрофильный вопрос - ответ неверный. Плюс, конечно играет роль перевод туда-обратно. Может теряться начальный смысл.

Да, перевод туда-обратно может вносить искажения, поэтому я старался подходить максимально лояльно и не придираться излишне к формулировкам.

Во многих более узкопрофильных вопросах модель давала довольно приличные ответы. Но если в она на чем-то не обучалась, это было видно сразу (на теме ГОЭЛРО, например, совсем не обучалась)...

Хотя бы в одном ответе был элемент новизны для вас, того, что вы не знали, или идея хотя бы для уровня курсача? Но проверив убедились в верности. В этом исследовании ответов на медицинскую тему эксперты ответили элементы новизны. Но, к сожалению, не привели примеров для сравнения. Дело в том, что такие языковые модели моделируют некоторый уровень ассоциативного мышления человека, поэтому могут фантазировать в обе стороны, и иногда должны выдавать новые, полезные ассоциации, как и человек.

Нет, в ответах на вопросы об энергетике элементов новизны не увидел (зато увидел массу неожиданных предложений в другом диалоге - я параллельно выкладываю здесь заметки о разработке библиотеки для решения задач методами теории игр - вот там он нагенерил много того, что нужно будет обдумать - как будто устроил мозговой штурм среди спецов по теории игр и ООП одновременно!).

Приведенное исследование ответов на вопросы из медицины (как я понял, это общетерапевтические знания?) отличается тем, что в формулировке вопроса ( на постановку диагноза или подбор лечения) уже содержатся 5 вариантов ответа, нужно выбрать и обосновать верный - это на мой взгляд проще для нейросети, чем полностью с нуля формировать ответ, как у меня. Новизна, скорее всего, нашлась в обосновании ответов, которые были не верными, но идеи были интересными... Там 3 блока, в каждом по 200+ - 300+ вопросов, что даёт более качественную статистику.

Спасибо за объяснение. В том исследовании они как-то неопределенно написали
At least one significant insight was present in approximately 90% of outputs. ChatGPT therefore possesses the partial ability to teach medicine by surfacing novel and nonobvious concepts that may not be in learners’ sphere of awareness.
Это может быть связано с тем, что информации по этим темам в обучающей выборке было много, включая исследовательские отчеты, это все же медицина) это позволяло выдавать менее очевидные ассоциации. Это еще связано с особенностями выбора параметров сэмплирования (см. в этой публикации о чем речь) в чате о которых неизвестно, т.к. OpenAI, не смотря на открытость в названии, до сих пор не опубликовало документа или исследовательской статьи с деталями его реализации.

Похоже, проблема в том, что в датасете была слабо представлена российская информация. Не находя подходящей и оказавшись в условиях неопределенности, система начинает "фантазировать", используя нечто, как ей представляется, подходящее по смыслу. Похоже, она не обучена говорить "я не знаю" или хотя бы "но это неточно"))

Да, отдельные области не были представлены (например, она ничего не знала о ФАС, который регулирует энергетику, но знала о ФСТ - Федеральной службе по тарифам, которая упразднена в 2015, не знала об АТС - Администраторе торговой системы, СО - Системном операторе, при этом я напрямую о них не спрашивал, но задавал вопрос так, что без упоминания их ответ был бы недостаточно точным).

Но несколько заданных вопросов были уточняющими, и там она признавалась, что предыдущие ответы были неверными или неточными, и уточняла, как правило, корректно.

Вот это как раз интересно, обучается она при этом, или данные уточнения сохраняются только в текущем сеансе. Вроде как в других тестах получалось, что она по большому счету "доверяет" только разработчикам.

Да, обучается. Так, я попросил назвать ее 5 крупнейших генерирующих компаний в России, она не упомянула одну из самых крупных. Я переспросил, почему она не упомянула такую-то? Она извинилась, сказала, что да, она крупнейшая и сообщила информацию о параметрах этой компании.

Теперь, через некоторое время (более недели), я задал тот же вопрос, в другом чате, и она ее упомянула, первой же (но теперь уже забыла про другую, не менее крупную...)))

Вот это хорошо, мне и хотелось предложить нечто подобное. Но учитывая, что в мире огромное количество людей с разрушительными чертами характера, а контроля за нынешним "обучением" (в отличие, скажем, от Википедии) у разработчиков нет, есть большая вероятность, что ее научат "плохому". Тут человек-то не всегда отличит фейк от правды, что уж говорить о железяке.

Да, обучается.
Вы не правы, обучения нет. Ответы основываются на обучающей выборке конца 2021 г. Дообучение происходит только в контекстном окне текущей сессии, затем теряется. Хотя на сервере ответы возможно сохраняются для анализа работы чата. Вы задали ему новый контекст с упоминанием компании, чат сгенерировал ответ.
Теперь, через некоторое время (более недели), я задал тот же вопрос, в другом чате, и она ее упомянула, первой же (но теперь уже забыла про другую, не менее крупную...)))
Чат вероятностно формирует ответы, это зависит от настроек сэмплирования, и предыдущего введенного в сессии текста. Тут в коментах статей немало примеров, когда на одни и те же вопросы генерятся разные ответы, иногда противоположные по смыслу, вот пример, может только язык запроса мог повлиять. Самое лучшее представление, что делает модель генерируя ответ, это выполнение аппроксимации очень сложной авторегрессивной функции с некоторой ее модификацией в контекстном окне сессии. При выборе наиболее вероятных последующих токенов будут генерироваться одинаковые ответы, при вероятном выборе следующих токенов случайные ответы. В чате поиска Бинга, после опыта эксплуатации, решили даже ввести переключатель такого режима.

Дообучения как такового тоже не происходит, на вход модели кроме самого вопроса подаётся определённое количество предыдущих запросов-ответов, не более. То есть через три-четыре ответа вся информация будет утеряна

Верно, «дообучение» на период сессии, если сессия короткая, если нет, то контекст может быть утерян. Вот тут подробнее расписал, и провел некоторые аналогии с диалогами людей.

Если у вас есть доступ, вы можете проверить, задав “Name the five most famous generating companies in Russia.” - напишите, что ответит? - станет понятно, обучилась ли после подсказок…

Если у вас есть доступ, вы можете проверить, задав “Name the five most famous generating companies in Russia.” - напишите, что ответит? - станет понятно, обучилась ли после подсказок…

В ответах есть элемент случайности, на один и тот же вопрос каждый раз может разный ответ, степень разности может очень сильно варьироваться. Задал этот вопрос 3 раза - один раз список повторился, один раз получил новый

Имхо, такие системы совершенно не годятся в качестве экспертных. Ажиотаж вокруг них чисто эмоциональный. Это лишь подражание и не более того, по сути - переформулировка, изложение того же закона Ома (на основе набора статей) своими словами, но... с большой вероятностью внедрения смысловых ошибок в результате этого процесса.

Пользователь экспертной системы, думаю, предпочел бы в качестве ответа просто точную цитату и ссылку на источник. Всё остальное понравится лишь копирайтерам/рерайтерам, генерирущим тонны копеечных текстов на любую тематику, без ответственности за смысл написанного. Боюсь, как бы не выплеснулось всё это в интернет.

Еще такие системы могут быть интересны аналитикам для выявления новых неожиданных связей между данными. Но это ручная аналитическая работа.

В остальном - баловство это всё. После внедрения подобных алгоритмов ИИ поисковиками, я вижу, как сильно упало качество поиска - выдача стала неконкретной, расплывчатой, найти что-то конкретное (непопулярное, специфическое) без кавычек и восклицательных знаков стало невозможно. Но для домохозяек, вбивающих расплывчатый запрос, типа "хочу что-нибудь про котиков", такой поиск - самое оно.

Вот набросал 2 варианта оценки положения вещей с современными нейросетями...

Вот утверждение, что "нежить" (ироничное название подобный нейросетей) еще внизу S-кривой технологии.

У меня складывается впечатление, что такие боты только сделают только более цеными настоящих профессионалов. По крайней мере в технических специальностях.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории