keydach5559 мар 2024 в 19:24

Claude 3 или Хроники Андалора

Простой

44 мин

4.4K

Искусственный интеллект

Комментарии 9

150Rus 9 мар 2024 в 19:27

У вас ошибка в самом начале поста, Claude-3 Opus проигрывает ChatGPT-4 Turbo по всем тестам.

keydach555 9 мар 2024 в 19:31

Я ориентировался на данные с сайта Anthropic, отзывы на reddit и личные ощущение. В творческом письме claude 3 превосходит chatgpt-4, по моим ощущениям

150Rus 9 мар 2024 в 23:05

Вы уж определитесь: ChatGPT-4 или ChatGPT-4 Turbo. Это разные модели. Первую превосходит, вторую нет.

Маркетологи Anthropic именно в этом месте поставили ловушку невнимательному читателю.

PARAPOH6 10 мар 2024 в 20:56

Так тут вроде как тест на творчество.

Турбо в этом плане даже уступает GPT32k. А Опус в плане креатива и понимания/построения интересного сюжета, на мой взгляд куда интереснее. Чего стоит тот факт что он отлично ориентируется в понимании русского языка и сленговых выражениях.

У Турбо с этим проблемы. Он хоть и стал лучше писать на русском, но делает это как американец который только что выучил сленговые слова, и вставляет их невпопад. Также он часто ошибается в написании этих слов и выражений. Другое дело английский язык. Не сравнивал Opus с Turbo в этом плане. Но то, что Turbo почти идеально подбирает слова для ответов на английском, у меня сомнений нет.

keydach555 10 мар 2024 в 20:58

Да, я хотел именно на этом заострить внимание, на домене творческого письма. Люди, видимо, просто не поняли. Судя по выдаваемому тексту он пишет на уровне ОЧЕНЬ хорошего автора, и по сюжету, и по языку. Такого уровня именно в творческом письме у меня не было в ChatGPT даже близко

yaff 9 мар 2024 в 19:51

Тесты ИИ содержат много ошибок и говорят мало о реальных способностях ИИ. Спросите ИИ, что он думает о том, что о нем пишут. Он будет удивлён. Ваши промпты очень убогие, поэтому и ответы ИИ не впечатляющее. Сила ИИ в уме человека пишущего промпты. Дурака умным, ИИ не сделает.

keydach555 9 мар 2024 в 19:58

Ничего не понял из вашего сумбурного заявления, но давайте на всякий случай соглашусь с Вами )

Kenya-West 9 мар 2024 в 21:06

Правильно работать с генеративными ИИ надо вот так, или вот так. Через API, правильно токенизируя контекст.

Ну, либо через веб-интерфейс, но с богатыми промптами, содержащими комплексные ТЗ, как если бы вы онбордили нового сотрудника. Тогда и раскрывается истинная мощь нейросети.

К сожалению, это, конечно, тяжело - подготавлтвать такие промпты. Даже чтобы элементарно спросить вопрос по программированию, мне надо 10-20 минут на подготовку качественного вопроса с заинлайненными в промпт файлами либо кусками кода. Сидишь, корячишься, пишешь, в голове проматываешь моменты, разговариваешь с воображаемой уточкой. Но результат того стоит! Ответы у нейросети обычно сверхпрофессиональные. Ещё раз, всё зависит от промптов.

Иногда, в 30% случаев, получается так, что я нахожу решение проблемы по мере написания промпта! Это закономерно, учитывая, что ChatGPT и Claude помнят контекст намного лучше меня.

В "хозяйственных" вопросах и в проблемах тех сфер, в которых я плохо разбираюсь, иной раз уходит до 30-40 минут ресёрча и написания вопроса - просто потому что мне нужно понять предмет проблемы, её нюансы, сайд-эффекты, а ещё расписать о перепробованных методах, ограничениях сверху и снизу. И тогда нейросеть прям пишет строго по теме, как бывалый Петрович, который в этом дерьме копается лет эдак 40. Обычно решается вопрос за 2-3 таких сообщения.

В моём случае я могу довольно чётко оценить работу нейросети, так как её ответы перепроверяемы, доказуемы на практике и относительно легко гуглятся.

Ваши же промпты очень просты и неоднозначны, на них любая актуальная нейросеть может выдать такую гору текста, что становится трудно оценить её креативность и память, так как без чётких рамок она будет работать так, как параметр temperature скажет (интересно, какой он в веб-версии?). Плюс, довольно тяжело читать такую статью - полотно текста. Можно как-то покрасивее оформить её, что ли... Сам пока не знаю, не писал ещё такие лонгриды. Но обычно, чтобы критиковать, не обязательно нужно заниматься тем же самым.

Claude 3 однозначно проигрывает ChatGPT по всем параметрам, но зато контекстное окно в 200К у них вроде дешевле, чем у решения от OpenAI, этим они и хороши. Думаю, не пожалею пару десятков баксов на генерацию фанфиков по моему любимому фандому, и сгенерирую их именно в Claude.

peterjohnsons 11 мар 2024 в 20:10

[del]

Зарегистрируйтесь на Хабре, чтобы оставить комментарий