daniilshat 30 мая 2024 в 23:32

Mistral AI выпустила Codestral — модель машинного обучения для генерации кода

1 мин

11K

Искусственный интеллектМашинное обучение*

+10

Комментарии 18

gev 31 мая 2024 в 00:03

А как же OCaml? =)

Shannon 31 мая 2024 в 07:13

Для тех кто ищет gguf - https://huggingface.co/bartowski/Codestral-22B-v0.1-GGUF

rPman 31 мая 2024 в 18:31

Интересно, еще одна открытая сетка (до этого это gpt4 и llama3-70b), способная ответить на не простые запросы кодинга.

Shannon 1 июн 2024 в 02:55

Тогда сюда можно добавить и саму основную модель от Mistral AI - Mixtral 8x22B (у codestral один эксперт на 22b, а тут 8 экспертов, суммарным весом 140B, но за счет архитектуры MoE, задействуются только несколько в момент генерации, что снижает требование к ресурсам).
gguf: https://huggingface.co/bartowski/Mixtral-8x22B-v0.1-GGUF
Онлайн демо: https://labs.perplexity.ai/

Ну и можно для общего интереса добавить еще такие, свежие модели:

WizardLM-2 8x22B - лучший файнтюн Mixtral-8x22 от Микрософта, которую они уже удалили, по причине, что она токсичная.
gguf: https://huggingface.co/bartowski/WizardLM-2-8x22B-GGUF
Онлайн демо: https://deepinfra.com/microsoft/WizardLM-2-8x22B
quill-72b - это слитая до релиза сетка Qwen2 (по крайней мере это выглядит так), а Qwen-1.5 показывает довольно качественные результаты.
gguf: https://huggingface.co/mradermacher/quill-72b-instruct-GGUF
gguf: https://huggingface.co/mradermacher/quill-72b-instruct-i1-GGUF
В ней меня удивило, что даже в формате i1-IQ2_M (квантование 2х бит с динамической матрицей важности imatrix) у неё не разваливается русский язык.
Онлайн демо: ~~слили буквально на днях, поэтому пока только локально запускать~~
Несколько часов назад оригинальная Qwen2-72b появилась на арене - https://arena.lmsys.org/ (можно выбрать на 2 вкладке нужную модель)
DeepSeek v2 - самая большая из открытых моделей на 236B параметров, тоже на MoE. Недавно тоже добавили поддержку в llama.cpp. Они утверждают, что сосредоточены на коде.
gguf: https://huggingface.co/leafspark/DeepSeek-V2-Chat-GGUF
Онлайн демо: https://chat.deepseek.com/

Еще есть не менее интересные command-r+, aya-23, DBRX. Тоже свежие и вышли буквально в течении последних пары месяцев, а некоторые меньше недели назад.
Aya-23, например, использовала 23 языка для обучения, включая русский, поэтому общается более разнообразно и теоретически пригодна для переводов.

Aya-23 онлайн можно попробовать тут: https://huggingface.co/spaces/CohereForAI/aya-23
DBRX тут: https://huggingface.co/spaces/databricks/dbrx-instruct

Те, кто пока не знает как запускать локально, просто установите один из графический вариантов: oobabooga/text-generation-webui, koboldcpp или LM Studio.
Для создания локального api сервера использовать их же, но возможно будет удобнее сразу взять https://ollama.com/

rPman 1 июн 2024 в 06:43

это более старые модели, в программировании я их исследовал, ждем обновление mixtral

Shannon 1 июн 2024 в 07:22

Интересно, еще одна открытая сетка (до этого это gpt4 и llama3-70b)

это более старые модели

Странно, все перечисленный мной модели вышли после llama3. Кроме mixtral, которая вышла за неделю до llama3.
Возможно вы путаете версию модели и названия. quill/Qwen2 слили 1.5 дня назад и она показывает очень достойные результаты. DeepSeek v2 вышла 3 недели назад.
Да и обновление Mixtral ждать еще долго, так как она обновилась всего 1.5 месяца назад.

Вообще, эти прорывы новых моделей из-за нового механизма внимания GQA (Grouped Query Attention), который был представлен в конце 2023 года. Это позволило сильно снизить количество весов сохраняя тот же уровень разумности, что позволило в 70b модель засунуть больше "ума".
Так что примерно можно прикинуть сколько времени проходит между новой моделью и каким-то новым способом оптимизации существующих архитектур.

Следующим прорывом может стать KAN, который был представлен месяц назад, обучается в 10 раз дольше, но требует ощутимо меньше нейронов для того же уровня качества.

rPman 1 июн 2024 в 08:10

я как раз когда вышла llama3 попробовал mixtral8x22 и мне не понравилось, llama3 лучше

p.s. я имею в виду их способности кодинга, так как например в генерации текстов качество моделей другое

rPman 31 мая 2024 в 07:35

Модель частично открыта и надо соблюдать определённые условия. Нейросеть нельзя использовать в коммерческой деятельности.

Как это вообще принципиально возможно? речь точно идет о лицензировании сгенерированного кода, а не о весах модели?

О какой деятельности тогда может идти речь? ведь даже опенсорс может и используется в коммерческой деятельности, а значит модель не может быть использована ни для чего кроме личных проектов, причем открывать код буквально нельзя.

p.s. https://mistral.ai/licences/MNPL-0.1.md

анализ от claude.ai:
В представленной лицензии MNPL-0.1 нет явных ограничений на использование сгенерированных текстов (Outputs). В разделе 4.2 прямо указано:
"4.2. Outputs. We claim no ownership rights in and to the Outputs. You are solely responsible for the Outputs You generate and their subsequent uses in accordance with this Agreement."
То есть Mistral AI не претендует на права собственности на сгенерированные тексты (Outputs), и вы несете полную ответственность за сгенерированные вами тексты и их последующее использование в соответствии с этим Соглашением.
Однако в лицензии есть ограничения на использование самой модели (Mistral Model) и ее производных (Derivatives). Согласно разделу 3.2, вы можете использовать их только для тестирования, исследований, личных или оценочных целей в непроизводственной среде, но не можете предлагать их в рамках коммерческой деятельности.

т.е. все же ограничения на веса а не на генерацию

бремя определения, нет ли в сгенерированных кодах каких-либо защищенных правом текстов будет лежать на их пользователе (какой извращенно грамотный ход юристов, компания Mistral может взять 'закрытые' исходники как датасет для обучения весов, но наказывать за это будут пользователей, даже если у них нет технической возможности это проверить)

MountainGoat 31 мая 2024 в 08:41

А у Mistral, типа, есть возможность это проверить. Они взяли дамп с Гитхаба, SO и GNU, а сколько там кода неправомерно выложено за годы или с неправильной лицензией - как они узнают?

В любом случае это заморочки только тех, кто не использовал такие AI на практике или боится судов за две строчки, потому что практично генерировать именно по столько.

Kristaller486 31 мая 2024 в 09:38

Проблема в том, что даже сам факт возможности лицензирования весов все еще ставится юристами под сомнение (по крайней мере из того, что я читал). Веса модели сложно считать объектом авторских прав, потому что это не результат работы человека, а просто математика. Прецедентов по Open Source AI пока не было, поэтому вообще всё это в серой зоне.

rPman 31 мая 2024 в 18:30

С самими весами проблем нет, данные есть данные и их можно лицензировать и проверять легко.

НО! проблема с производными продуктами, файнтюн, даже токенизер можно тюнить (хотя с ним все же проще доказать родство)

p.s. например в открытые модели вставляют (ну не говорят кто и что именно но исследования на это есть, в т.ч. и попытки взлома) специальные запросы ловушки, ответ на которые будет доказательством авторства базовой сети и эти ловушки должны остаться после дообучения модели

cinme 31 мая 2024 в 08:52

Также бесплатно пользоваться моделью можно на портале Le Chat.

Не можно.

daniilshat 31 мая 2024 в 08:59

Так можно же

Скриншот

cinme 31 мая 2024 в 12:00

На телефоне этой кнопки не было

krote 31 мая 2024 в 10:41

Вопрос только в том не используют ли для обучения новых моделей датасеты теста, на которых их же потом и тестят

gevals 6 июн 2024 в 09:31

Интересно, можно ли через LM Studio ( там установил очень легко и просто)- как-то поставить в эту модель русский язык для ответов? Задаю запросы на русском, нормально пишет код, но все комментарии и ответы на английском. В интернете то- она по русски отлично отвечает. Кто-то знает как это решить?

rPman 6 июн 2024 в 10:28

у них еще нет в списке этой модели

зачем тебе для этого целая студия, когда достаточно установить llama.cpp, и запустить их server, у которого из коробки веб версия и api, на сколько я знаю он умеет загружать модели сам (ссылку указать только) но зачем, когда они прекрасно с huggingface загружаются, а при отсутствии, конвертируются штатным convert.py из официальных .safetensor версии

Shannon 8 июн 2024 в 21:33

В LM Studio где-то справа есть поле для задания системного промпта и имени ассистента, отредактируйте их, так, чтобы они оба были на русском языке. В системном промпте напишите что-то вроде "Ты полезный помощник. Ты всегда отвечаешь на русском языке."

Зарегистрируйтесь на Хабре, чтобы оставить комментарий