Как стать автором
Обновить

Комментарии 18

А как же OCaml? =)

Интересно, еще одна открытая сетка (до этого это gpt4 и llama3-70b), способная ответить на не простые запросы кодинга.

Тогда сюда можно добавить и саму основную модель от Mistral AI - Mixtral 8x22B (у codestral один эксперт на 22b, а тут 8 экспертов, суммарным весом 140B, но за счет архитектуры MoE, задействуются только несколько в момент генерации, что снижает требование к ресурсам).
gguf: https://huggingface.co/bartowski/Mixtral-8x22B-v0.1-GGUF
Онлайн демо: https://labs.perplexity.ai/

Ну и можно для общего интереса добавить еще такие, свежие модели:

Еще есть не менее интересные command-r+, aya-23, DBRX. Тоже свежие и вышли буквально в течении последних пары месяцев, а некоторые меньше недели назад.
Aya-23, например, использовала 23 языка для обучения, включая русский, поэтому общается более разнообразно и теоретически пригодна для переводов.

Aya-23 онлайн можно попробовать тут: https://huggingface.co/spaces/CohereForAI/aya-23
DBRX тут: https://huggingface.co/spaces/databricks/dbrx-instruct

Те, кто пока не знает как запускать локально, просто установите один из графический вариантов: oobabooga/text-generation-webui, koboldcpp или LM Studio.
Для создания локального api сервера использовать их же, но возможно будет удобнее сразу взять https://ollama.com/

это более старые модели, в программировании я их исследовал, ждем обновление mixtral

Интересно, еще одна открытая сетка (до этого это gpt4 и llama3-70b)

это более старые модели

Странно, все перечисленный мной модели вышли после llama3. Кроме mixtral, которая вышла за неделю до llama3.
Возможно вы путаете версию модели и названия. quill/Qwen2 слили 1.5 дня назад и она показывает очень достойные результаты. DeepSeek v2 вышла 3 недели назад.
Да и обновление Mixtral ждать еще долго, так как она обновилась всего 1.5 месяца назад.

Вообще, эти прорывы новых моделей из-за нового механизма внимания GQA (Grouped Query Attention), который был представлен в конце 2023 года. Это позволило сильно снизить количество весов сохраняя тот же уровень разумности, что позволило в 70b модель засунуть больше "ума".
Так что примерно можно прикинуть сколько времени проходит между новой моделью и каким-то новым способом оптимизации существующих архитектур.

Следующим прорывом может стать KAN, который был представлен месяц назад, обучается в 10 раз дольше, но требует ощутимо меньше нейронов для того же уровня качества.

я как раз когда вышла llama3 попробовал mixtral8x22 и мне не понравилось, llama3 лучше

p.s. я имею в виду их способности кодинга, так как например в генерации текстов качество моделей другое

Модель частично открыта и надо соблюдать определённые условия. Нейросеть нельзя использовать в коммерческой деятельности.

Как это вообще принципиально возможно? речь точно идет о лицензировании сгенерированного кода, а не о весах модели?

О какой деятельности тогда может идти речь? ведь даже опенсорс может и используется в коммерческой деятельности, а значит модель не может быть использована ни для чего кроме личных проектов, причем открывать код буквально нельзя.

p.s. https://mistral.ai/licences/MNPL-0.1.md

анализ от claude.ai:

В представленной лицензии MNPL-0.1 нет явных ограничений на использование сгенерированных текстов (Outputs). В разделе 4.2 прямо указано:

"4.2. Outputs. We claim no ownership rights in and to the Outputs. You are solely responsible for the Outputs You generate and their subsequent uses in accordance with this Agreement."

То есть Mistral AI не претендует на права собственности на сгенерированные тексты (Outputs), и вы несете полную ответственность за сгенерированные вами тексты и их последующее использование в соответствии с этим Соглашением.

Однако в лицензии есть ограничения на использование самой модели (Mistral Model) и ее производных (Derivatives). Согласно разделу 3.2, вы можете использовать их только для тестирования, исследований, личных или оценочных целей в непроизводственной среде, но не можете предлагать их в рамках коммерческой деятельности.

т.е. все же ограничения на веса а не на генерацию

бремя определения, нет ли в сгенерированных кодах каких-либо защищенных правом текстов будет лежать на их пользователе (какой извращенно грамотный ход юристов, компания Mistral может взять 'закрытые' исходники как датасет для обучения весов, но наказывать за это будут пользователей, даже если у них нет технической возможности это проверить)

А у Mistral, типа, есть возможность это проверить. Они взяли дамп с Гитхаба, SO и GNU, а сколько там кода неправомерно выложено за годы или с неправильной лицензией - как они узнают?

В любом случае это заморочки только тех, кто не использовал такие AI на практике или боится судов за две строчки, потому что практично генерировать именно по столько.

Проблема в том, что даже сам факт возможности лицензирования весов все еще ставится юристами под сомнение (по крайней мере из того, что я читал). Веса модели сложно считать объектом авторских прав, потому что это не результат работы человека, а просто математика. Прецедентов по Open Source AI пока не было, поэтому вообще всё это в серой зоне.

С самими весами проблем нет, данные есть данные и их можно лицензировать и проверять легко.

НО! проблема с производными продуктами, файнтюн, даже токенизер можно тюнить (хотя с ним все же проще доказать родство)

p.s. например в открытые модели вставляют (ну не говорят кто и что именно но исследования на это есть, в т.ч. и попытки взлома) специальные запросы ловушки, ответ на которые будет доказательством авторства базовой сети и эти ловушки должны остаться после дообучения модели

Также бесплатно пользоваться моделью можно на портале Le Chat.

Не можно.

Так можно же

Скриншот

На телефоне этой кнопки не было

Вопрос только в том не используют ли для обучения новых моделей датасеты теста, на которых их же потом и тестят

Интересно, можно ли через LM Studio ( там установил очень легко и просто)- как-то поставить в эту модель русский язык для ответов? Задаю запросы на русском, нормально пишет код, но все комментарии и ответы на английском. В интернете то- она по русски отлично отвечает. Кто-то знает как это решить?

у них еще нет в списке этой модели

зачем тебе для этого целая студия, когда достаточно установить llama.cpp, и запустить их server, у которого из коробки веб версия и api, на сколько я знаю он умеет загружать модели сам (ссылку указать только) но зачем, когда они прекрасно с huggingface загружаются, а при отсутствии, конвертируются штатным convert.py из официальных .safetensor версии

В LM Studio где-то справа есть поле для задания системного промпта и имени ассистента, отредактируйте их, так, чтобы они оба были на русском языке. В системном промпте напишите что-то вроде "Ты полезный помощник. Ты всегда отвечаешь на русском языке."

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории