Как стать автором
Обновить

Комментарии 47

А что значат эти цифры в таблице?

Какие размеры этих сетей? Сколько оперативки нужно, сколько памяти на GPU?

Метрики качества. Они отражает умение модели отвечать качественно

Оно теоретически должно отражать умение отвечать качественно, а практически с тем же успехом отражает пятна на солнце

Интересно а какие метрики будут на русском языке и как модель справиться с генерацией кода?

Раз уж GPT-4o бьет, которая хорошая на русском языке, значит и Llama-3.1 будет нормально на русском отрабатывать. А там уже сверху RAG докидываем и вообще топчик. Хоть Voice2Order делай, хоть других агентов.

Вряд ли Llama 3.1 будет хорошо русский язык поддерживать. В официальной документации написано - поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский.

Вряд ли Llama 3.1 будет хорошо русский язык поддерживать. 

а чем вас не устраивает русский от уже существующих моделей ? Поговорите со старым Claude 3.5 . Вряд ли у вас получится его переболтать

Я говорил о Llama 3.1. Это был ответ на комментарий. К Claude 3.5 никаких претензий в плане русского языка нет.

Смотря как использовать. Мне хочеться получить суммари локальной книги. У Llama 3.1 большое окно токенов и можно локально запусти (версию 8B).

Но у меня пока не получается получить нормальный результат, как-будто большая часть входных данных пропадает.

Где-то через неделю оценка должна появится на llmarena.ru

Русский у неё отвратительный, выдаёт наполовину кашу из иероглифов. upd: Хотя ниже пишут снизить температуру в два раза, похоже что это помогло, теперь русский язык вполне норм.

Код генерирует и это не откровенный мусор, но пока точно оценить трудно, недостаточно смотрел ещё.

Из проблем - цензура в ней есть.

Проверь температуру, какой то косяк с ней, если 1 то поставь 0.5 или меньше и каша уйдет.

Спасибо, но на русском ответы заметно слабже, к сожалению, в связке с задачей по программированию внезапно выдало пустой блок кода и незаконченные комментарии к коду смешивающие русский и английский.

"Llama 3.1 8B, поскольку она может работать локально на любом мобильном телефоне высокого класса."

есть какой софт для запуска на мобильных устройствах?

Layla например. Если нужно что-то end-user-ориентированное. Если платная версия (однократная покупка) есть бесплатная с кучей ограничений. Мастер настройки телефоны классифицирует по...нанометрам.

Может свои модельки оптимайзнутые (они на HF есть), может любые GGUF которые лезут, может (если оно вам надо) вообще клиентом быть для всяких OpenAI/Openrouter. Недо-RAG и прочее в варианте для end-user-ориентированного чатбота - в комплекте.

На Android можно сравнительно легко собрать KoboldCPP или llama.cpp из исходников под Termux. Там же запустить SillyTavern параллельно. Правда, для ускорений на всяких Vulkan Compute и OpenCL придётся жрать кактус в гордом одиночестве, документации для мобильных устройств нет.

Kobold я ради интереса запускал сам, с Kunoichi 7B IQ2_XXS в роли подопытного хомяка. На телефоне с Snapdragon 675 и 6 ГБ ОЗУ ответ на вопрос "как написать юнит для Wireguard в Systemd" генерировался час, при пустом контексте.

Ответ, ожидаемо, был полным бредом, но зато доказал себе, что троллейбус из буханки действительно возможен.

Вот поэтому - я и пишу что для end-user-ориетированных локальных-на-устройстве-задач - Layla. Там уже про удобство использования (вроде например фичи с нотификацией когда оно закончило думать). Так то - SillyTavern + KoboldCPP на компе и проброс портов.

Под termux можно собрать ollama и в качестве интерфейса maid (есть в f-droid). Запускал, в том числе и llama 3 7b (ну очень медленно, хотя и смог с помощью нее написать простую html страничку раздела qa с анимацией на js для демо). Имеет смысл посмотреть какие-нибудь 1b модели на конкретную специфику. Ещё точно запускается whisper (на ollama не пробовал), при сравнительно неплохом результате.

Llama 3.1 405B
Llama 3.1 405B

Расшифровка бенчмарков.

Общие:

  • MMLU (Massive Multitask Language Understanding): Этот бенчмарк тестирует модели по широкому спектру предметов, от гуманитарных до STEM-областей. Приставка «(CoT)», относится к подсказке «Цепочка мыслей», которая поощряет пошаговые рассуждения.

  • MMLU PRO: Усовершенствованная версия MMLU, возможно, с более сложными вопросами. «5-shot» означает, что перед тестированием модели дается 5 примеров.

  • IFEval: Связан с оценкой умозаключений или фактических знаний.

Код:

  • HumanEval: Этот бенчмарк проверяет способность модели генерировать фрагменты функционального кода. «0-shot» означает, что перед тестированием примеры не предоставляются.

  • MBPP EvalPlus: Это расширение набора данных MBPP (Mostly Basic Python Programming), сфокусированное на оценке навыков кодирования на Python.

Математика:

  • GSM8K (Grade School Math 8K): Этот эталон содержит словесные задачи по математике уровня начальной школы. В соответствии с «8-shot, CoT» предлагается 8 примеров и используется цепочка рассуждений.

  • MATH: Комплексный контрольный тест по математике, охватывающий различные темы. Знак «0-shot, CoT» означает, что примеры не приводятся, но используются рассуждения по цепочке.

Рассуждения:

  • ARC Challenge: Испытание AI2 Reasoning Challenge, проверяющее здравый смысл и логическую дедукцию.

  • GPQA: Likely означает «General Purpose Question Answering», проверка широких возможностей рассуждения.

Использование инструментов:

  • API-Bank: Этот бенчмарк, проверяет способность модели понимать и использовать различные API.

  • BFCL: Скорее всего, она связана с оценкой возможностей использования инструментов.

  • Gorilla Benchmark API Bench: Этот бенчмарк, оценивает, насколько хорошо модели могут работать с API, возможно, вдохновленный моделью Gorilla.

  • Nexus: Этот бенчмарк может оценивать способность модели связывать различные концепции или инструменты.

Многоязычность:

  • Многоязычный MGSM: Это многоязычная версия эталона решения математических задач, возможно, связанная с GSM8K.

Под ARC Challenge имеется ввиду https://arcprize.org/? Или какой-то другой?

Не, ARC Challenge, не имеет отношения к ARC Prize.
ARC Challenge, в контексте бэнчмарков, - это AI2 Reasoning Challenge.
Это набор данных по ответам на вопросы, разработанный Алленовским институтом искусственного интеллекта (AI2). Он предназначен для проверки способности модели отвечать на научные вопросы школьного уровня, которые часто требуют рассуждений и знания мира.

Набор данных разделен на два набора:

  • ARC Easy Set: Содержит относительно простые вопросы.

  • ARC Challenge Set: Содержит более сложные вопросы, которые часто требуют сложных рассуждений. Именно по этому набору проводят бенчмарки больших моделей.

На опенроутере уже есть и похоже что это провал. Даже не близко к Gemma 9b

Похоже что глюк на опенроутере, температура выкручена на максимум (а точнее у новой ламы максимум =1 вместо 2) из за этого бредила. Нормально она работает, не хуже чем гемма.

Я настолько немолод, что после прочтения заголовка со словом "Llama" подумал, что проект плеера Winamp заново переоткрылся.

А кто-нибудь пробовал переводить с помощью ЛЛАМы, например, с С++ на Питон?

Я периодически пользуюсь этой возможностью в ГПТ4о, и результат там довольно неплохой -- она понимает, что надо определить внешние переменные и способна учесть версию Питона, например, при работе со строками. Правда, не понимает, что указатель -- это не умножение, но такое глазами можно увидеть. А если просто задаешь вопрос, то может предложить нескоько вариантов ответов. Т.е. работает как хорошая справочная система.

Если бы такую систему можно было иметь на локальной машине, то это было бы круто. Что-то более серьезное (например, решение сложных дифуров или толковых ответов на вопросы, не предполагающие цитирование источников или их обобщение) ожидать от такой системы не приходится, но тут все упирается в массив данных, на которых были сформированы коэффициенты модели.

Как-то кажется, то переводить из питона в С++ поактуальнее будет, ибо производительность скриптов очень низкая. Малые модели(7-22b) совместно с RAG иногда путают типы аргументов(хотя в RAG загружал документацию).

You 

Сколько слов в предложении "три слова"?
profile
profile

llama-3.1-70b-versatile 

В предложении "три слова" 2 слова.

profile
profile

You 

объясни подробно
profile
profile

llama-3.1-70b-versatile 10:53 PM

В предложении "три слова" есть два слова:

  1. "три" - это числительное, которое указывает на количество.

  2. "слова" - это существительное, которое является предметом, на который указывает числительное "три".

Хотя числительное "три" указывает на количество 3, в самом предложении "три слова" есть только 2 слова. Это может показаться парадоксальным, но это просто игра слов.

Кто нибудь скажет сколько памяти нужно этому верблюду и можно ли запускать на CPU без GPU ?

Под CPU квантов пока нет, AWQ\GPTQ на INT4 требуют около 230ГБ VRAM для запуска.

На CPU запускать технически можно, но темп работы будет настолько оставлять лучшего, что скорее нельзя.

Пробовал запускать через ollama 3.1:8b и 3.1:70b , ryzen 16 реальных ядер, 96Gb Озу, 1080ti 11Gb. Обе модели запускались чисто на процессоре. Но если 8b еще кое-как, то 70b в режиме пошаговой стратегии. Собственно с использованием 1080 особо ничего не поменялось, чуточку быстрее. Память 70b жрет всю, сколько есть как ОЗУ так и GPU , GPU грузит как-то скачками 10-70%. CPU на всю котлету.

Наверное глупый вопрос, но что даёт открытость кода, о которой в статье упоминается несколько раз, если тренировочный набор данных всё равно закрыт? Её ведь другие не могут у себя пересоздать или изменить. Или это не так?

Дообучить могут. Взять свой набор вопросов и ответов и прогнать модель по ним что бы изменить ее ответы (в этой области).

А вот чего мета ожидает получить не понятно. Ей же не дадут эти юзерские наборы.

А вот чего мета ожидает получить не понятно. Ей же не дадут эти юзерские наборы.

Возможно, надеется выехать на том, что под такие продукты коммньюнити начинает писать разную инфраструктуру, что создаёт положительную обратную связь в вопросах популярности продукта и, в данном случае, бренда. Вряд ли они прям всерьёз предполагают монетизировать эту модель так, чтобы монетизация окупила хотя бы закупку пластиковых стаканчиков в головной офис за время её разработки.

Если они все равно бы её тренировали для использования внутри, то от открытия они ничего не теряют, так как никаких сервисов за деньги с нейронками не оказывают. А вот конкуренты оказывают и подрезать им кормовую базу открытой моделью -- милое дело.

Интересно, что огромная модель 405B не намного умнее 70B. На одном тесте даже чуть хуже. Достигли предела экстенсивного роста LLM?

Плохо, что они в мультиязычность не вкладываются. Оно и понятно, лучше прокачать английский и победить во всех тестах, чем забивать туда лишние языки. Но в итоге пока Claude Sonnet 3.5 для русского наилучшая. Будет интересно когда выйдет Opus.

Не исключено, что они на нормальном уровне знают русский язык, просто либо файнтюн на инструкции или системный промпт не задан быть приятным собеседником, что есть у Sonnet 3.5.

Так-то, и llama3.1 405B и nemotron4 340B вполне не плохо отвечают и говорят:

Думаю, всё-таки от процента русского в датасете зависит больше. Да, сносно что-то выдавать могут и модели на 70b параметров, но тут же речь не о грамматике. Чтобы научилась писать стихи и понимала рифмы, чтобы свободно улавливала разные оттенки, были привязки к культурному контексту, нужно намного больше русскоязычных текстов в датасете. Где-то были данные какой процент текстов на разных языках у ChatGPT. Там доля русского довольно высокая была. Meta же сознательно пошла по пути ограничения.

Уже не мало моделей которые явно обучались на русском датасете (aya-23, command-r+, qwen2, nemotron4 и так далее), но они не дотягивают до Sonnet 3.5. Или gpt-4o, несмотря на большой процент русский текстов в датасете, она не пишет стихи лучше, чем Sonnet 3.5.

Я привел Nemotron-4, которая размером почти такая же как llama 3.1, как раз потому, что она обучалась на 50 естественных языках, включая русский, и это не дало ей такое понимание фразеологизмов, какое есть у Llama 3.1 (не полное понимание "разбегаться" и "вылупляться"), которая, по вашим словам, ограничивала датасет.

Та же история с моделями, которые файнтюнили на русском датасете, вроде Saiga, они не становятся сильно лучше в русском языке после этого. Поэтому я склоняюсь к другим причинам почему Sonnet 3.5 лучше, либо у Sonnet 3.5 реально хороший датасет, которого нет ни у кого.

Насколько я понимаю, качество модели определяется и количеством параметров, и количеством входных токенов в датасете, ну и качеством датасета конечно же. Говоря о проценте русского в датасете я упростил, роль играет конечно число и качество входных токенов русского языка и согласованность их с числом параметров модели. Много параметров и мало входных токенов не сделают модель хорошей, а совсем наоборот, заставят её запоминать вместо обобщения. Llama явно не дотягивает до Claude именно с русскими текстами по-видимому из-за меньшего числа параметров и меньшего числа входных русских токенов. На прошлой версии она даже картинки не могла генерировать по описанию на русском, например, в отличие от Dall-E.

llama 3.1 8b размером 4.7гб нормально владеет русским языком. вопрос можно считать закрытым, больше проблем с русским языком скорее всего уже ни у кого не будет никогда

Что значит "владеть"? Написать грамотное предложение это не владение ещё. Когнитивные способности нейросети определяются уровнем владения в том числе. Есть много нейросетей, оказывающихся ужасно тупыми на тех языках, на которых их плохо обучали. Эмергентные свойства вроде умения писать стихи, понимать рифмы, формировать яркие образы, создавать новые слова и т.д. проявляются после какого-то критического объёма текстов на заданном языке в датасете.

Обязательно надо указать что META это экстремисская организация. Страшные люди там сидят а кругом одни враги. И что бы все знали, что такое надо ЗАПРЕТИТЬ!!! Немедля!!! Срана и ченовнеги в апасносте!!!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории