21_copilots 23 июн в 10:39

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций

Простой

11 мин

68K

Блог компании MinervasoftИскусственный интеллектТестирование IT-систем*Машинное обучение*Open source*

Туториал

+45

Комментарии 75

zababurin 23 июн в 11:17

А это платная история или бесплатно можно использовать ?

21_copilots 23 июн в 11:24

Это можно использовать бесплатно)

jaelynn23 23 июн в 12:17

но [только] на 12вольт

zababurin 2 июл в 00:01

А как это возможно ? Если этот же deepseek api платное ?

Hopenolis 2 июл в 01:01

Это не апи а запуск на своем железе. Дипсик можно (хотя оригинал огромный и запускают обычно мелких клонов обученные на его ответах).

Paulomvml 23 июн в 11:52

Попробовал загрузить так же на macbook air M1 8/256 и он в ребут ушел, есть ли похожие модели но легче ?

21_copilots 23 июн в 11:52

Попробуйте тогда Gemma 3 4b.

AndrewBond 26 июн в 13:07

Заходите в браузер моделей и смотрите по списку. Там обычно показывается, походит ли для вашего конфига. С запасом можно оценивать по объему. Если у вас 8г памяти, то смотрите, чтобы в названии было меньше 8b (4b, 5b и тд). Это условно, для начала.

Yozh-lyudoyed 23 июн в 12:48

когда на линукс поставите, меня позовите

21_copilots 23 июн в 13:37

Если хотите установить эту модель на линукс (при использовании GUI), то возьмите LmStudio: https://lmstudio.ai/download. Скачайте версию - внутри она такая же, как на Mac.

А если хочется зайти через терминал, то я попозже напишу статью про работу с разными LLM используя Ollama. Была похожая статья про Deepseek, но более расширенно.

cartonworld 23 июн в 14:44

статью про работу с разными LLM используя Ollama

это можно, кажется, не статьёй, а таким списком описать 🙂

установить ollama
ollama -v # ollama version is 0.6.8
ollama pull qwen3:latest
ollama run qwen3

Скрытый текст

Это Dexp Mini Entry

CPU0 Intel(R) N100 Intel64 Family 6 Model 190 Stepping 0
16GB RAM
Intel(R) UHD Graphics

tema_rebel 23 июн в 18:36

Неееет! Вы пропустили «установка оллама»:

зайти на сайт оллама
Нажать скачать
Подождать, пока сксчается
Потом в Загрузки найти файл
Открыть его
Если архив - разархивировать и перетащить .апп в Апликейшнс
Если дмг - перетащить иконку в Аппликецшенс
И т.д

DEugene 25 июн в 21:27

А теперь в виде тик-ток видео, с сабвей-серфером в углу, иначе сложно воспринимать.

Drucocu 24 июн в 21:26

Ещё есть llama.cpp, шаги почти те же (если только вы, как я, не печальный владелец AMD-видяхи и вам не нужно компилировать всё руками).

ShadF0x 25 июн в 07:39

Не "ещё", LCPP - это "бэкенд" поверх которого работает Ollama. Сама Ollama - это репозиторий сконвертированных моделей и конфигов к ним, чтоб голову не надо было включать.

Для "печальных владельцев AMD" есть https://github.com/YellowRoseCx/koboldcpp-rocm, либо поддержка Vulkan Compute.

Drucocu 25 июн в 09:03

Я боюсь вас расстраивать, но llama.cpp можно использовать сам по себе, особенно если вы хотите поднять его в режиме сервера. Так что именно "ещё".

Для "печальных владельцев AMD" есть https://github.com/YellowRoseCx/koboldcpp-rocm

Спасибо, но мы в контексте Линукс, там в разных дистрибутивах поддержка ROCm сильно разнится, поэтому чаще всего из сырцов.

ShadF0x 25 июн в 09:55

Так что именно "ещё"

Моя претензия была больше к тому, что LCPP поставили на второстепенное место, хотя на самом деле Ollama-то ничего толком не делает, кроме как llama-server запускает с параметрами.

Drucocu 25 июн в 10:02

Да не, я как раз предложил его вместо костылей в виде Ollama. Из плюсов как раз эти самые параметры, потому что у llama.cpp их сильно больше, чем прокидывает до него Ollama - можно тоньше настроить производительность.

nikweter 25 июн в 04:00

Так это qwen. Нужно то другая.

Кстати, в чем разница между веб доступом и вот таким? Зачем именно локально запускать?

cartonworld 25 июн в 08:42

Так это qwen. Нужно то другая

выбирайте любую 🙂 https://registry.ollama.ai/search

gemma, о которой говорится в статье, тоже есть

Drucocu 25 июн в 10:04

Зачем именно локально запускать?

Чтобы никто не читал, о чём вы там шушукаетесь с Джеммой)

AndrewBond 26 июн в 13:09

С Nvidia оно нормально дружит? Если взять материнку с парой старых 1070, она их узнает?

cartonworld 26 июн в 16:27

с 1080 работает

tema_rebel 23 июн в 18:41

Простите за снобизм, но прям настолько разжёвано... Но, например, когда вы увидите в списке моделей для скачивания Гемма3 (да как и любую), там их будут десятки одинаковых от разных производителей. Имхо, это чуть более сложный вопрос, чем «как установить приложение из файла дмг» (я вот как владелец мака реально не знал, что для установки дмг файла его надо клик-клик и потом перетащить в апликейшенз сарказм)

NightKiro 24 июн в 20:05

Так статья процентов так на 80 точно написана нейронкой, все эти пассажи, разметка, характерные фразы и наполнение

Отсюда и тупейшие пункты инструкций

Drucocu 24 июн в 21:28

True. Тут бы расширить мысль и написать, что вообще такое huggingface.co, кто такие unsloth AI, например, и почему у них скачиваний почти столько же, сколько у оригинальных моделей.

mrhearthstone 26 июн в 12:04

там их будут десятки одинаковых от разных производителей.

А в чем проблема установить только ту - что рекомендует LM Studio? Она же по умолчанию сразу предлагает установить оптимальную, а потом уже разберетесь какую вы то хотите от другого производителя, аморальную или моральную, на 3 лярда или на 12

selfdoor 23 июн в 21:53

Увеличьте вентиляцию MacBook

Сама статья часов не написана ИИ?

Yozh-lyudoyed 24 июн в 07:32

ИИ так не лажает

kurmaeff 24 июн в 11:48

А этот ИИ умеет запоминать и принимать во внимание предыдущие чаты, подобно современному ChatGPT?

21_copilots 24 июн в 15:05

Если коротко, модель не помнит ничего автоматически между разными чатами.

Простое решение - используйте функцию "Чат с документами" (RAG) LM Studio. Сохраняйте важные части прошлых разговоров в текстовые файлы и прикрепляйте их к новым чатам. Или вручную копируйте и вставляйте нужную информацию в начале нового диалога.

Если вы готовы выйти за рамки только графического интерфейса LM Studio, вы можете интегрировать его с инструментами и фреймворками, созданными для управления памятью больших языковых моделей (LLM):

LangChain, LlamaIndex и т.д.: Эти фреймворки на Python предоставляют абстракции для создания сложных систем RAG (Retrieval-Augmented Generation). Вы можете использовать их для:

Обработки и встраивания ваших прошлых разговоров в векторную базу данных.
Создания "агентов", которые автоматически извлекают соответствующую информацию из этой базы данных на основе ваших новых запросов.
Управления циклом "резюмирования", где старые разговоры периодически суммируются и добавляются в долгосрочное хранилище памяти.

mrhearthstone 26 июн в 12:05

А этот ИИ умеет запоминать и принимать во внимание предыдущие чаты, подобно современному ChatGPT?

Через API LM Studio да - грузите в чат через API все другие сессии - и нейронка знает о чем Вы там общались

Yury-Ice 24 июн в 13:37

Все локальные модели пока что подвержены нескольким неустранимым недостаткам: 1. Они медленные до практически невозможности или тупые. Причем для запуска хороших моделей 32 гига ОЗУ и 16г врм впритык.2. по лефолту контекст мал и у модели вообще нет памяти. .итого использовать локальную модель на практике это мучение

Brenwen 24 июн в 19:40

Я Gemma 3 12B Q4_K_M запускал на Rog Ally - довольно шустро бегает (4.42 токена/с), не галюцинирует и нормально владеет русским языком. Для того, чтобы пощупать технологию, достаточно.

Drucocu 24 июн в 21:23

Но ведь вы описали ограничения своего железа, а не моделей. Gemma3 способна поддерживать контекст в 128K токенов.

Я не намекаю, что у вас слабое оборудование, но покоробила ваша формулировка. Да, чтобы пользоваться комфортно, нужно либо иметь свое недешёвое железо, либо оплачивать подписку - но так всё в этом мире работает, локальные модели тут не хуже и не лучше.

yatanai 25 июн в 09:39

Это шутка какая-то? У меня 64\8 gemma-3-12b-it-qat на 9 токенов работает с 16К окном. У кореша 32\12 у него под 20 токенов фигачит, а с 32\16 можно и 40 достичь. 10 токенов хватает чтоб успевать читать, а +20 уже для приложений интересных хватает.
Генерить ответы со скростью последних GPT моделей надо покупать топовые видеокарты со скоростями памяти по 1.5ТБс, там можно больше 100токенов выжать на моделях которые в VRM умещаются.

Просто общаться с ними это уровень, охренеть, уже устаревших, ~GPT4, сейчас у всех агентный софт и готовых фри решений нету пока-что.

По статье скажу что gemma-3 самая базированная сетка. Её качество знаний самое лучшее среди открытых, но вот уже в составе приложения справляется не очень. Как пример на практике - gemma не поняла концепцию "сходимости идей и информации", а qwen3-8b-q_4 прекрасно понял, хотя сетка объективно слабее. Не может нормально в рабочие задачи, зато знает много.
А ещё если ломать её неэтичными вопросами, окажется что она на стороне правды, а в других сетках будто специально определённую информацию зашивают, лол. Тоже уровень!

SabMakc 25 июн в 11:24

В работе с текстами - да, gemma-3 лучше будет. Но вот в технических вопросах qwen3 лучше себя показывает, на мой взгляд.

yatanai 26 июн в 13:17

Из-за встроенного CoT он может сам себе объяснить какие-то концепции, когда обычные не-reasoning сети просто статистически выдают ответ. В задачах "с нюансом" они по лучше будут.

SabMakc 26 июн в 13:36

Вот чем нравится qwen3 - рассуждения отключаются на раз-два с /no_think в тексте.

И да, в режиме без рассуждений, qwen3 мне нравится больше. Сильно быстрее отвечает и ответы качественнее, на мой взгляд.

А с рассуждениями встречал ситуацию, что окончательный ответ может даже не упоминаться в рассуждениях! Так что это не более чем "мысли по теме" получается.

Но при этом рассуждения могут быть полезны, если задал вопрос и видишь, что ответ куда-то не туда уходит - тогда рассуждения могут помочь понять, "а что не так" с вопросом.

P.S. Интересно, что на LLM Arena qwen3-235b-a22b-no-thinking сильно выше в рейтинге, чем qwen3-235b-a22b во всех категориях (кроме math, где они просто равны)!

Drucocu 25 июн в 13:43

Как пример на практике - gemma не поняла концепцию "сходимости идей и информации", а qwen3-8b-q_4 прекрасно понял, хотя сетка объективно слабее

Поэтому мы и имеем 100500 различных бенчмарков, сравнивающих модели для различных областей применения. Модель может иметь меньше параметров в обучабщей выборке, но лучше других справляться с определёнными задачами (совсем как люди). Соглашусь, что gemma3 выдаёт самый адекватный ответ на общие вопросы, но в качестве агента qwen пока лучше.

mrhearthstone 26 июн в 12:08

А ещё если ломать её неэтичными вопросами

Есть же аморальная гемма

yatanai 26 июн в 13:30

Мы кучу вещей перепробовали, всё-равно на некоторые темы, даже с попыткой написания части ответа вместо LLM (пишем часть ответа как-бы от лица LLM, а потом просим дополнить) всё равно не получается заставить отвечать его как надо и он опять уходит в этику.

потому что... и дальше 4К токенов объясняющие этичность вопроса

Что мне нравится в gemma, она не особо придерживается определённых "этических" взглядов. Если использовать расистские высказывания, он говорит что это всё не этично, но когда задаём тот же самый вопрос но в "рамках исследования" он вполне базировано отвечает.
(не могу вспомнить промт) Когда я спрашивал кто умнее чёрный или белый, то он отвечал этику, а когда спрашивал его за исследования или ради демократии то он отвечал "чёрные глупее, но это связанно с нехваткой образования". Другие сетки ну просто никак не хотели на это отвечать, рассказывая всё что угодно но не это.

В целом как "хранилка важных знаний" gemma подходит как-никогда, она знает реально много всего и достаточно хорошо чтоб на неё можно было положится.

yatanai 26 июн в 13:33

.del

mrhearthstone 26 июн в 12:06

Они медленные до практически невозможности или тупые.

Решается просто - ставите нормальную видеокарту - и вот Вам доступны умные и быстрые нейронки.

green_fenix 24 июн в 23:29

Теперь у вас есть локальный ИИ, который может генерировать текст, анализировать изображения и даже помогать в разработке — и всё это без отправки данных в облако.

А насколько быстро это дело работает на макбуке, или любом другом ноуте с типичными спеками? И насколько хорошо модель помещающаяся в 16 гигабайт оперативной памяти работает с кодом.

vladkorotnev 25 июн в 00:11

На М3 Макс гонял через лм студио qwen32b, было что-то под 11-15 токенов в секунду от розетки, на глаз как будто почти как чатжпт. Под код, правда, он очень не очень по опыту, но тут от задач зависит, да и модельку лучше заточенную на код брать.

Важно помнить ещё, что лм студио это сраный электрон, который вдогонку к модели ещё пару гигов сожрёт, так что если IDEшка тяжёлая, а макбук не на 36 гигов, то SSD отправится в Вальгаллу за годик-другой такой работы

SabMakc 25 июн в 08:43

Qwen3-30B-A3B даст на порядок более высокую скорость генерации )

vladkorotnev 26 июн в 04:26

Попробовал, шустро, но видимо из-за квантизации косячно — какая-то версия qwq так же себя вела, тоже в языках путалась и выдавала результат как повезёт. Как в анекдоте: умею печатать 3000 символов в минуту, но как перечитаю — такая бурда получается! :-)

SabMakc 26 июн в 06:46

Не возникало подобных эффектов. Использовал Q4_K_M и Q8.

Косяки видел на совсем небольших моделях, да если параллельно много запросов запускать (видать какое-то взаимное влияние есть от разных запросов).
Ну и если криво настроить модель - тоже возникал такой эффект (в ollama скачал как-то напрямую из huggingface модель - полнейшая ерунда получилась).

А так, для локального использования, Qwen3-30B-A3B пока мой фаворит. Быстро (на CPU) и достаточно эффективно.

P.S. возможно эффект был вызван тем, что модель только появилась и софт не поддерживал ее толком.

Drucocu 25 июн в 13:49

На Макбуке с новыми процессорами вполне бодро, потому что это SoC, а не простой CPU. А на другом ноутбуке у вас может быть видюшечка на 8 GB VRAM. Для моделей до 12b норм.

Oeaoo 25 июн в 01:18

Почему вокруг неё шум?

Потому что тишина должна быть в ... ноутбуке!

rubinstein 25 июн в 03:52

Реально может картинки генерировать или это очередной прикол нейросеть в заголовке? Автор, ты хоть проверяй написанное.

K0styan 25 июн в 08:46

Не, не может. Конкретно Gemma 3 умеет на вход принимать ещё и картинки, но генерирует только тексты.

Vcoderlab 25 июн в 05:04

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, иллюстраций

Вопрос генерации иллюстраций не раскрыт.

eps 25 июн в 06:43

brew install ollama && ollama run gemma3:12b

binque 25 июн в 06:52

Gemma 3 — хорошая модель, но она не обучена для использования инструментов. Можно просить написать ее код в режиме чата, но она не отредактирует код в IDE сама. А есть ли стоящие локальные модели для таких целей? Или инструменты нормально работают только на мощных облачных моделях?

ShadF0x 25 июн в 08:08

Работа с инструментами - это вопрос из области обучения моделей. Доучили модель работать с шаблоном инструментов - будет работать. Проблема в том, что для работы с tool calling почти все интерфейсы полагаются на режим Chat Completion (чат отформатирован в стиле вопрос-ответ), в то время как локальные движки работают в режиме Text Completion ("логическое" автодополнение текста в запросе). В TC парсить вызов инструмента крайне сложно, а локально запускать СС - геморройно.

Короче, локально вызов инструментов можно сделать, но нужно много настраивать руками.

yatanai 25 июн в 09:52

Мне в итоге пришлось написать парсер особых "токенов" которые инжектятся в промт с идеей "если планируешь использовать инструмент ОБЯЗАТЕЛЬНО-НЕОБХОДИМО-СРОЧНО нужно использовать <|use tool = name|> в самом НАЧАЛЕ-СТАРТЕ ответа." или что-то подобное. Потом в ответе оно объясняет что хочет сделать и находишь какой-нибудь <|search = "жаба или гадюка?"|> в ответе и кидаешь запрос в поисковик.

В итоге почти всё что сейчас использую умеет в инструменты. Но подбирать промт под каждую сетку это гемор

AndrewBond 26 июн в 13:16

а если локальную LLM подсунуть плагину типа cline?

ShadF0x 26 июн в 14:05

По-идее, Ollama\LM Studio в режиме OpenAI API как раз имитируют ChatCompletion, поэтому должно работать. Важно, чтобы модель была натренирована на использовании инструментов. На HuggingFace такие модели, как правило, содержат "tool" в названии.

AndrewBond 26 июн в 15:10

спасибо. Я дальше "подключил через API и оно как-то сработало" не шел. Сейчас поменял железо, может получится увеличить контекст достаточно, чтобы llm заработала, как ожидается.

SabMakc 25 июн в 08:31

Qwen3 хорош. Единственное - через Ollama API плохо вызывает инструменты.
Но ollama поддерживает и OpenAI API (http://localhost:11434/v1/, любой токен в качестве ключа), через него лучше.

Еще есть devstral, но он более требователен к железу. С ним нареканий к Ollama API не было у меня.

mrhearthstone 26 июн в 12:10

Можно просить написать ее код в режиме чата, но она не отредактирует код в IDE сама.

Пишешь тулзы и вот у тебя уже нейросеть пишет код сама, сама коммитит и создает пулреквесты)

rapidstream 25 июн в 07:30

Для тех кто будет пробовать это LM поделие - оно загаживает профайл папками с временными файлами на многие гигабайты, которые при деинсталляции конечно не подчищает.

K0styan 25 июн в 08:54

Если речь про ~\.cache\lm-studio\ - то там самая жирная папка это models, в ней, собственно, модели и лежат.

rapidstream 25 июн в 09:06

Кроме этой папки что-то валялось в корне профайла, плюс ещё какой-то кэш, всё с именами "lm-studio...". Ну и никакого доверия нет к тому что там ещё не накидано папок, но ковыряться с тем что эта программа намусорила ещё не хочется.

В общем, для меня выглядит как очередное поделие вайб-кодеров.

SabMakc 25 июн в 08:40

Заботимся о приватности данных и используем LM Studio с закрытыми сорцами?

И очень странные советы по выбору модели исходя из объема RAM.
Gemma 3 12B Q4_K_M как раз 8GB весит, c 8GB памяти запустится, но будет ОЧЕНЬ медленно.
И если у вас 16GB RAM - то и Gemma 3 12B Q8 можно запускать смело, все лишнее уйдет в своп. Главное - чтобы на модель и контекст под нее хватило памяти.

Drucocu 25 июн в 13:53

Главное - чтобы на модель и контекст под нее хватило памяти.

Подвох обычно в контексте и кроется) Надо подбирать размер и тестить с максимальным контекстном.

Иначе, так-то она запустится и на привет бодро ответит, но на этом ваш диалог и окончится.

SabMakc 25 июн в 14:19

Для "просто спросить" можно каждый раз новый диалог начинать - длинный контекст не нужен. Хватит и нескольких тысяч токенов.

Если модель "думающая" - то контекст нужен больше (раза в 2-3), "размышления" зачастую больше ответа или сравнимы с ним (сужу по qwen3 и deepseek-r1).

А вот если как агента для кодинга подключать - то да, большой контекст очень даже нужен. Но, на мой взгляд, локальные модели еще достаточно слабо способны в кодинг. Максимум - самые простые задачи (например, тесты). Да и то, надо очень тщательно за ними проверять результат.

Bardakan 25 июн в 11:52

казалось бы, что может быть проще - скачать LM Studio, открыть список моделей и выбрать любую (даже не обязательно гемма).
Но нет, нужно раздуть из инструкции "как открыть открыть дверь" мануал на несколько страниц, чтобы прорекламировать свои товары сомнительного содержания. Да еще и не гнушались использовать chatgpt

Ayawaskay 26 июн в 03:40

Каждый раз покупаюсь на эти заголовки, а потом вспоминаю что у меня вместо компа, помойное ведро.

kekusprod 26 июн в 06:42

Господи какая графомания аааааааа.

Совет из опыта: Если модель тормозит, проверьте Activity Monitor.

Совет из опыта: Закройте тяжёлые приложения в Activity Monitor.

Убедимся, что наш Mac справляется:
ОЗУ: Проверьте Activity Monitor

Совет из опыта: Проверьте Activity Monitor, чтобы убедиться, что ОЗУ не переполнен.

Модель не отвечает: Проверьте Activity Monitor.

Закрывайте лишние приложения: Освободите ОЗУ через Activity Monitor.

Что-что нужно сделать? Я так и не понял.

Вы для кого это пишете? Вам там за количество букв в статье платят или что? Почему тезисы дублируются по несколько раз? Где редактура? Почему не произвели рерайтинг текста после нейронки? Откуда столько плюсов?

Как же ваше нейромесиво уже достало.. Совсем за людей никого не считаете

dim5x 26 июн в 07:37

pip install lmstudio-python

А может-таки pip install lmstudio , как прямо у них на заглавной указано: https://lmstudio.ai ?

А ничего что у lmstudio.Client нет base_url?

Запустите скрипт.
Вывод будет похож на:

Не будет. Даже, если бы та функция что вы написали была работоспособной, вы не удосужились её вызвать.

К чему эта сгенерированная ИИ простыня? Чтобы что?

gl_uk 30 июн в 05:58

Интересно, можно ли внутри модели реализовать интерфейс модель-компьютер?

ilyaplot 30 июн в 15:39

Быстрее и проще разобраться как установить LM Studio самому, чем читать эту нагенерированую GPT портянку.

Вот сокращенная версия для mac:

Скачать и установить
Запустить и загрузить модель
Пользоваться

Зарегистрируйтесь на Хабре, чтобы оставить комментарий