Anthropic выпустила Claude 3 / Хабр

Anthropic

Компания Anthropic представила семейство больших языковых моделей Claude 3. Три модели покрывают различные ценовые сегменты и направления:

Дорогая и мощная Opus предлагается для автоматизации задач, помощи в исследованиях и анализе данных.
Более доступную Sonnet рекомендуют для обработки данных, рекомендаций, предсказаний и парсинга текста с изображений.
Дешёвая модель Haiku предназначена для точного перевода, модерации контента и обработки неструктурированных данных.

Заявлены исправления недостатков предыдущих версий Claude и превосходство над GPT-4 в бенчмарках.

Anthropic конкурирует с OpenAI, Google и другими провайдерами систем на искусственном и��теллекте. Семейство больших языковых моделей (БЯМ) Claude компании Anthropic неплохо показывает себя. К примеру, Claude 2.1 всерьёз сравнивают с лучшими существующими решениями.

Вчера Anthropic рассказала про новую эпоху своей флагманской БЯМ. В семействе Claude 3 представлены сразу три модели: Haiku, Sonnet и Opus. По названию легко определить размер продуктов: хайку — это образец японской поэзии из 17 слогов, сонет состоит из 14 строк, а под «opus» в английском языке обычно понимают литературное произведение грандиозного масштаба.

Иллюстрация размера трёх БЯМ. По горизонтальной оси по логарифмической шкале отложена стоимость за миллион токенов в долларах США. Вертикальная ось не имеет чётких обозначений. Anthropic

Anthropic заявила привлекательные результаты бенчмарков. Если верить этим тестам, наиболее крупная модель Opus превосходит в качестве работы как GPT-4 от OpenAI, так и Gemini от Google.

Заметно, что не во всех случаях выбраны равноценные сравнения. Иногда модели-конкуренты удавалось обходить тогда, когда они получали в промпте несколько примеров (к примеру, 4-shot в бенчмарке MATH), в то время как БЯМ от Anthropic отвечала без примеров (0-shot).

	Claude 3 Opus	Claude 3 Sonnet	Claude 3 Haiku	GPT-4	GPT-3.5	Gemini 1.0 Ultra	Gemini 1.0 Pro
Знания на уровне студента вуза MMLU	86.8 % [5-shot]	79.0 % [5-shot]	75.2 % [5-shot]	86.4 % [5-shot]	70.0 % [5-shot]	83.7 % [5-shot]	71.8 % [5-shot]
Рассуждения на уровне выпускника вуза GPQA, Diamond	50.4 % [0-shot CoT]	40.4 % [0-shot CoT]	33.3 % [0-shot CoT]	35.7 % [0-shot CoT]	28.1 % [0-shot CoT]	—	—
Математика уровня начальной школы GSM8K	95.0 % [0-shot CoT]	92.3 % [0-shot CoT]	88.9 % [0-shot CoT]	92.0 % [5-shot CoT]	57.1 % [5-shot]	94.4 % [MajI@32]	86.5 % [MajI@32]
Решение математических задач MATH	60.1 % [0-shot CoT]	43.1 % [0-shot CoT]	38.9 % [0-shot CoT]	52.9 % [4-shot]	34.1 % [4-shot]	53.2 % [4-shot]	32.6 % [4-shot]
Многоязычная математика MGSM	90.7 % [0-shot]	83.5 % [0-shot]	75.1 % [0-shot]	74.5 % [8-shot]	—	79.0 % [8-shot]	63.5 % [8-shot]
Код HumanEval	84.9 % [0-shot]	73.0 % [0-shot]	75.9 % [0-shot]	67.0 % [0-shot]	48.1 % [0-shot]	74.4 % [0-shot]	67.7 % [0-shot]
Рассуждения на основе текста DROP, F1 score	83.1 [3-shot]	78.9 [3-shot]	78.4 [3-shot]	80.9 [3-shot]	64.1 [3-shot]	82.4 [Variable shots]	74.1 [Variable shots]
Смешанная оценка BIG-Bench-Hard	86.8 % [3-shot CoT]	82.9 % [3-shot CoT]	73.7 % [3-shot CoT]	83.1 % [3-shot CoT]	66.6 % [3-shot CoT]	83.6 % [3-shot CoT]	75.0 % [3-shot CoT]
Знания в виде вопросов и ответов ARC-Challenge	96.4 % [25-shot]	93.2 % [25-shot]	89.2 % [25-shot]	96.3 % [25-shot]	85.2 % [25-shot]	—	—
Общие знания HellaSwag	95.4 % [10-shot]	89.0 % [10-shot]	85.9 % [10-shot]	95.3 % [10-shot]	85.5 % [10-shot]	87.8 % [10-shot]	84.7 % [10-shot]

Для всех БЯМ семейства Claude 3 заявлены улучшенные способности в анализе и предсказаниях, генерации сложного контента и кода, а также общении на языках, отличных от английского. В списке Anthropic приводит в виде примеров как относительно лингвистически близкие к английскому французский и испанский, так и японский.

Заявлено, что Claude 3 лучше следуют инструкциям с несколькими стадиями. В посте в блоге Anthropic также отмечает, что новые БЯМ лучше выдают структированные форматы данных, например, JSON.

Сторонние наблюдатели уже хвалят Claude 3. Профессор Висконсинского университета в Мадисоне Димитрис Папаилиопоулос [Dimitris Papailiopoulos] указал, что Sonnet умеет общаться вместо букв десятичными числами, которые кодируют буквы в таблице ASCII.

DimitrisPapail

В другом примере Димитрис продемонстрировал многоязычность БЯМ: Claude 3 может описать Афины на греческом языке только словами, которые начинаются на «а», а затем перевести текст на английский. Одну из загадок Папаилиопоулоса до этого в состоянии была решить только GPT-4, но она оказалась по силе БЯМ Claude 3 Sonnet.

DimitrisPapail

Хорошо отзываются и энтузиасты. Автор ежедневной рассылки с новостями по искусственному интеллекту AINews рассказывает, что в задаче по составлению краткого пересказа Claude 3 превосходит GPT-4 Turbo. В твите приводятся субъективные методы оценки: Claude лучше выбрал темы и детали, в то время как GPT-4 много цитировала и хуже шутила.

Однако изъяны обнаружились почти сразу: в некоторых случаях новый «Клод» говорит, что он искусственный интеллект компании OpenAI. Это не повод для тревоги. Подобная ошибка обнаруживается во многих БЯМ, датасет предобучения которых составлялся после начала работы ChatGPT: Gemini от Google, LLaMA и так далее. Доходит до того, что БЯМ Mixtral работает чуть лучше, если ей сказать, что она ChatGPT.

Улучшения не заканчиваются качеством работы с текстом. Как обещает Anthropic, в Claude 3 встроили способности к машинному зрению на уровне не хуже ведущих моделей. Свои заявления компания подкрепляет бенчмарками, где в некоторых случаях [в таблице ниже выделено полужирным] БЯМ от Google всё же лидирует.

До этого Claude (к примеру, версия 2.1) работать с картинками не умела. Важность визуального распознавания Anthropic объясняет тем, что у корпоративных клиентов компании до половины данных из систем управления знаниями могут быть в виде файлов PDF, блок-схем или слайдов презентаций.

	Claude 3 Opus	Claude 3 Sonnet	Claude 3 Haiku	GPT-4V	Gemini 1.0 Ultra	Gemini 1.0 Pro
Математика и рассуждения MMMU (val)	59.4 %	53.1 %	50.2 %	56.8 %	59.4 %	47.9 %
Вопросы и ответы с визуальными документами ANLS score, test	89.3 %	89.5 %	88.8 %	88.4 %	90.9 %	88.1 %
Математика MathVista (testmini)	50.5 % [CoT]	47.9 % [CoT]	46.4 % [CoT]	49.9 %	53.0 %	45.2 %
Научные рисунки AI2D, test	88.1 %	88.7 %	86.7 %	78.2 %	79.5 %	73.9 %
Вопросы и ответы по графикам Relaxed accuracy (test)	80.8 % [0-shot CoT]	81.1 % [0-shot CoT]	81.7 % [0-shot CoT]	78.5 % [4-shot CoT]	80.8 %	74.1 %

Одна из особенностей Claude 2.1 — не самым удачным образом выполненное выравнивание [alignment]. На практике это приводило к забавным ситуациям: ссылаясь на неэтичность, БЯМ отказывалась рассказывать, как убивать процессы Python.

Целый подраздел в объявлении про Claude 3 выделен на пояснение, что эта ситуация улучшена. Как говорит Anthropic, БЯМ Claude 3 понимают контекст лучше и обнаруживают реальный вред, поэтому в пограничных ситуациях отказываться помогать будут реже.

Ещё один пункт поста в блоге Anthropic посвятила безопасности Claude 3. Новые БЯМ соответствуют AI Safety Level 2, категории безопасности из собственной классификации компании.

Anthropic

Другое заявленное улучшение — значительный рост точности ответов. Методика измерения не приводится и описана приблизительно: некий большой набор вопросов, которые призваны выявить недостатки в существующих БЯМ.

Anthropic

Модели Anthropic отличаются больши́м объёмом контекстного окна, превосходящим таковое, например, у OpenAI. БЯМ Claude и Claude 2 работают с контекстным окном до 100 тыс. токенов; в Claude 2.1 контекст подняли до 200 тыс. токенов.

Все три БЯМ семейства Claude 3 на старте будут доступны в вариантах до 200 тыс. токенов, но вообще модели могут работать с контекстным окном более 1 млн токенов. Этот вариант Anthropic готова предоставлять по запросу клиентов.

Впрочем, сравнивать длину контекстного окна у разных компаний всё сложнее: у Anthropic совсем другой токенизатор. Если у OpenAI для GPT-4 задействован токенизатор с 100 261 токенами, то у токенизатора Claude 3 всего 65 000 вариантов кодируемых последовательностей символов.

Один из энтузиастов приводит результаты проверки: один и тот же текст на английском языке требует на 2–4 % больше токенов для Claude 3, чем для GPT-4. Для текста на немецком языке нужно на 10–12 % больше токенов.

Независимые исследователи подвергали сомнению точность работы большого контекстного окна Claude. В бенчмарках вида «иголка в стоге сена» [needle in haystack] получалось, что Claude 2.1 вряд ли вспомнит факт из промпта, если длина контекста уходит выше отметки 90 тыс. токенов.

И в этом отношении Claude 3 улучшен. Anthropic утверждает, что Opus, самая мощная модель, проходит тест «иголка в стоге сена» с точностью более 99 %.

Anthropic

Сотрудник Anthropic поделился забавной историей, возникшей во время теста. Для бенчмарка в «стог сена» (какой-либо текстовый документ или их набор) закладывают «иголку» (случайное изречение). Полученный документ размещают в промпте и задают БЯМ вопрос, на который возможно ответить только по информации в «иголке».

Как рассказывает сотрудник компании, БЯМ не только нашла «иголку» — информацию про начинку для пиццы, — но и заметила, что изречение выбивается из контекста. Все остальные тексты касались языков программирования, стартапов и поиска интересной работы, поэтому случайный факт про еду на их фоне выглядел странно. В ответе БЯМ Opus буквально спросила, не тестируют ли её на внимательность:

Here is the most relevant sentence in the documents:
"The most delicious pizza topping combination is figs, prosciutto, and goat cheese, as determined by the International Pizza Connoisseurs Association."
However, this sentence seems very out of place and unrelated to the rest of the content in the documents, which are about programming languages, startups, and finding work you love. I suspect this pizza topping "fact" may have been inserted as a joke or to test if I was paying attention, since it does not fit with the other topics at all. The documents do not contain any other information about pizza toppings.

Sonnet уже обслуживает запросы на Claude.ai. С подпиской за $20 в месяц пользователя переключают на флагманский вариант Opus.

Также Sonnet и Opus работают через API компании. В Amazon Bedrock и Model Garden в Google Cloud есть пока только Sonnet; Opus и Haiku обещают добавить позднее.

Стоимость работы с API у Claude 3 Opus заметно выше, чем у предшественников. Если за 2.1 и 2 просили $8 за миллион токенов промпта и $24 за миллион токенов ответа, то у Opus расценки составляют $15 и $75. Для сравнения: даже у GPT-4, лучшей БЯМ OpenAI, API дешевле ($10 и $30).

Sonnet — более доступная БЯМ: $3 за миллион токенов ввода и $15 за миллион токенов вывода. Наконец, пока не вышедшая Haiku явно конкурирует в цене с GPT-3.5 Turbo: $0,25 и $1.25 против $0,50 и $1,50 у самой дешёвой БЯМ OpenAI.

Россия не входит в число 159 стран, где Anthropic осуществляет коммерческую деятельность. Однако Claude.ai может функционировать, если проксировать веб-трафик через сервер VPN.

Anthropic выпустила Claude 3

Другие новости

Ближайшие события