Как стать автором
Поиск
Написать публикацию
Обновить

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров68K
Всего голосов 55: ↑46 и ↓9+45
Комментарии75

Комментарии 75

А это платная история или бесплатно можно использовать ?

но [только] на 12вольт

А как это возможно ? Если этот же deepseek api платное ?

Это не апи а запуск на своем железе. Дипсик можно (хотя оригинал огромный и запускают обычно мелких клонов обученные на его ответах).

Попробовал загрузить так же на macbook air M1 8/256 и он в ребут ушел, есть ли похожие модели но легче ?

Попробуйте тогда Gemma 3 4b.

Заходите в браузер моделей и смотрите по списку. Там обычно показывается, походит ли для вашего конфига. С запасом можно оценивать по объему. Если у вас 8г памяти, то смотрите, чтобы в названии было меньше 8b (4b, 5b и тд). Это условно, для начала.

когда на линукс поставите, меня позовите

Если хотите установить эту модель на линукс (при использовании GUI), то возьмите LmStudio: https://lmstudio.ai/download. Скачайте версию - внутри она такая же, как на Mac.

А если хочется зайти через терминал, то я попозже напишу статью про работу с разными LLM используя Ollama. Была похожая статья про Deepseek, но более расширенно.

статью про работу с разными LLM используя Ollama

это можно, кажется, не статьёй, а таким списком описать 🙂

  1. установить ollama

  2. ollama -v # ollama version is 0.6.8

  3. ollama pull qwen3:latest

  4. ollama run qwen3

Скрытый текст

Это Dexp Mini Entry

  • CPU0 Intel(R) N100 Intel64 Family 6 Model 190 Stepping 0

  • 16GB RAM

  • Intel(R) UHD Graphics

Неееет! Вы пропустили «установка оллама»:

  • зайти на сайт оллама

  • Нажать скачать

  • Подождать, пока сксчается

  • Потом в Загрузки найти файл

  • Открыть его

  • Если архив - разархивировать и перетащить .апп в Апликейшнс

  • Если дмг - перетащить иконку в Аппликецшенс

  • И т.д

А теперь в виде тик-ток видео, с сабвей-серфером в углу, иначе сложно воспринимать.

Ещё есть llama.cpp, шаги почти те же (если только вы, как я, не печальный владелец AMD-видяхи и вам не нужно компилировать всё руками).

Не "ещё", LCPP - это "бэкенд" поверх которого работает Ollama. Сама Ollama - это репозиторий сконвертированных моделей и конфигов к ним, чтоб голову не надо было включать.

Для "печальных владельцев AMD" есть https://github.com/YellowRoseCx/koboldcpp-rocm, либо поддержка Vulkan Compute.

Я боюсь вас расстраивать, но llama.cpp можно использовать сам по себе, особенно если вы хотите поднять его в режиме сервера. Так что именно "ещё".

Для "печальных владельцев AMD" есть https://github.com/YellowRoseCx/koboldcpp-rocm

Спасибо, но мы в контексте Линукс, там в разных дистрибутивах поддержка ROCm сильно разнится, поэтому чаще всего из сырцов.

Так что именно "ещё"

Моя претензия была больше к тому, что LCPP поставили на второстепенное место, хотя на самом деле Ollama-то ничего толком не делает, кроме как llama-server запускает с параметрами.

Да не, я как раз предложил его вместо костылей в виде Ollama. Из плюсов как раз эти самые параметры, потому что у llama.cpp их сильно больше, чем прокидывает до него Ollama - можно тоньше настроить производительность.

Так это qwen. Нужно то другая.

Кстати, в чем разница между веб доступом и вот таким? Зачем именно локально запускать?

Так это qwen. Нужно то другая

выбирайте любую 🙂 https://registry.ollama.ai/search

gemma, о которой говорится в статье, тоже есть

Зачем именно локально запускать?

Чтобы никто не читал, о чём вы там шушукаетесь с Джеммой)

С Nvidia оно нормально дружит? Если взять материнку с парой старых 1070, она их узнает?

с 1080 работает

Простите за снобизм, но прям настолько разжёвано... Но, например, когда вы увидите в списке моделей для скачивания Гемма3 (да как и любую), там их будут десятки одинаковых от разных производителей. Имхо, это чуть более сложный вопрос, чем «как установить приложение из файла дмг» (я вот как владелец мака реально не знал, что для установки дмг файла его надо клик-клик и потом перетащить в апликейшенз сарказм)

Так статья процентов так на 80 точно написана нейронкой, все эти пассажи, разметка, характерные фразы и наполнение

Отсюда и тупейшие пункты инструкций

True. Тут бы расширить мысль и написать, что вообще такое huggingface.co, кто такие unsloth AI, например, и почему у них скачиваний почти столько же, сколько у оригинальных моделей.

там их будут десятки одинаковых от разных производителей.

А в чем проблема установить только ту - что рекомендует LM Studio? Она же по умолчанию сразу предлагает установить оптимальную, а потом уже разберетесь какую вы то хотите от другого производителя, аморальную или моральную, на 3 лярда или на 12

Увеличьте вентиляцию MacBook

Сама статья часов не написана ИИ?

ИИ так не лажает

А этот ИИ умеет запоминать и принимать во внимание предыдущие чаты, подобно современному ChatGPT?

Если коротко, модель не помнит ничего автоматически между разными чатами.

Простое решение - используйте функцию "Чат с документами" (RAG) LM Studio. Сохраняйте важные части прошлых разговоров в текстовые файлы и прикрепляйте их к новым чатам. Или вручную копируйте и вставляйте нужную информацию в начале нового диалога.

Если вы готовы выйти за рамки только графического интерфейса LM Studio, вы можете интегрировать его с инструментами и фреймворками, созданными для управления памятью больших языковых моделей (LLM):

LangChain, LlamaIndex и т.д.: Эти фреймворки на Python предоставляют абстракции для создания сложных систем RAG (Retrieval-Augmented Generation). Вы можете использовать их для:

  • Обработки и встраивания ваших прошлых разговоров в векторную базу данных.

  • Создания "агентов", которые автоматически извлекают соответствующую информацию из этой базы данных на основе ваших новых запросов.

  • Управления циклом "резюмирования", где старые разговоры периодически суммируются и добавляются в долгосрочное хранилище памяти.

А этот ИИ умеет запоминать и принимать во внимание предыдущие чаты, подобно современному ChatGPT?

Через API LM Studio да - грузите в чат через API все другие сессии - и нейронка знает о чем Вы там общались

Все локальные модели пока что подвержены нескольким неустранимым недостаткам: 1. Они медленные до практически невозможности или тупые. Причем для запуска хороших моделей 32 гига ОЗУ и 16г врм впритык.2. по лефолту контекст мал и у модели вообще нет памяти. .итого использовать локальную модель на практике это мучение

Я Gemma 3 12B Q4_K_M запускал на Rog Ally - довольно шустро бегает (4.42 токена/с), не галюцинирует и нормально владеет русским языком. Для того, чтобы пощупать технологию, достаточно.

Но ведь вы описали ограничения своего железа, а не моделей. Gemma3 способна поддерживать контекст в 128K токенов.

Я не намекаю, что у вас слабое оборудование, но покоробила ваша формулировка. Да, чтобы пользоваться комфортно, нужно либо иметь свое недешёвое железо, либо оплачивать подписку - но так всё в этом мире работает, локальные модели тут не хуже и не лучше.

Это шутка какая-то? У меня 64\8 gemma-3-12b-it-qat на 9 токенов работает с 16К окном. У кореша 32\12 у него под 20 токенов фигачит, а с 32\16 можно и 40 достичь. 10 токенов хватает чтоб успевать читать, а +20 уже для приложений интересных хватает.
Генерить ответы со скростью последних GPT моделей надо покупать топовые видеокарты со скоростями памяти по 1.5ТБс, там можно больше 100токенов выжать на моделях которые в VRM умещаются.

Просто общаться с ними это уровень, охренеть, уже устаревших, ~GPT4, сейчас у всех агентный софт и готовых фри решений нету пока-что.

По статье скажу что gemma-3 самая базированная сетка. Её качество знаний самое лучшее среди открытых, но вот уже в составе приложения справляется не очень. Как пример на практике - gemma не поняла концепцию "сходимости идей и информации", а qwen3-8b-q_4 прекрасно понял, хотя сетка объективно слабее. Не может нормально в рабочие задачи, зато знает много.
А ещё если ломать её неэтичными вопросами, окажется что она на стороне правды, а в других сетках будто специально определённую информацию зашивают, лол. Тоже уровень!

В работе с текстами - да, gemma-3 лучше будет. Но вот в технических вопросах qwen3 лучше себя показывает, на мой взгляд.

Из-за встроенного CoT он может сам себе объяснить какие-то концепции, когда обычные не-reasoning сети просто статистически выдают ответ. В задачах "с нюансом" они по лучше будут.

Вот чем нравится qwen3 - рассуждения отключаются на раз-два с /no_think в тексте.

И да, в режиме без рассуждений, qwen3 мне нравится больше. Сильно быстрее отвечает и ответы качественнее, на мой взгляд.

А с рассуждениями встречал ситуацию, что окончательный ответ может даже не упоминаться в рассуждениях! Так что это не более чем "мысли по теме" получается.

Но при этом рассуждения могут быть полезны, если задал вопрос и видишь, что ответ куда-то не туда уходит - тогда рассуждения могут помочь понять, "а что не так" с вопросом.

P.S. Интересно, что на LLM Arena qwen3-235b-a22b-no-thinking сильно выше в рейтинге, чем qwen3-235b-a22b во всех категориях (кроме math, где они просто равны)!

Как пример на практике - gemma не поняла концепцию "сходимости идей и информации", а qwen3-8b-q_4 прекрасно понял, хотя сетка объективно слабее

Поэтому мы и имеем 100500 различных бенчмарков, сравнивающих модели для различных областей применения. Модель может иметь меньше параметров в обучабщей выборке, но лучше других справляться с определёнными задачами (совсем как люди). Соглашусь, что gemma3 выдаёт самый адекватный ответ на общие вопросы, но в качестве агента qwen пока лучше.

А ещё если ломать её неэтичными вопросами

Есть же аморальная гемма

Мы кучу вещей перепробовали, всё-равно на некоторые темы, даже с попыткой написания части ответа вместо LLM (пишем часть ответа как-бы от лица LLM, а потом просим дополнить) всё равно не получается заставить отвечать его как надо и он опять уходит в этику.

потому что... и дальше 4К токенов объясняющие этичность вопроса
потому что... и дальше 4К токенов объясняющие этичность вопроса

Что мне нравится в gemma, она не особо придерживается определённых "этических" взглядов. Если использовать расистские высказывания, он говорит что это всё не этично, но когда задаём тот же самый вопрос но в "рамках исследования" он вполне базировано отвечает.
(не могу вспомнить промт) Когда я спрашивал кто умнее чёрный или белый, то он отвечал этику, а когда спрашивал его за исследования или ради демократии то он отвечал "чёрные глупее, но это связанно с нехваткой образования". Другие сетки ну просто никак не хотели на это отвечать, рассказывая всё что угодно но не это.

В целом как "хранилка важных знаний" gemma подходит как-никогда, она знает реально много всего и достаточно хорошо чтоб на неё можно было положится.

Они медленные до практически невозможности или тупые.

Решается просто - ставите нормальную видеокарту - и вот Вам доступны умные и быстрые нейронки.

Теперь у вас есть локальный ИИ, который может генерировать текст, анализировать изображения и даже помогать в разработке — и всё это без отправки данных в облако.

А насколько быстро это дело работает на макбуке, или любом другом ноуте с типичными спеками? И насколько хорошо модель помещающаяся в 16 гигабайт оперативной памяти работает с кодом.

На М3 Макс гонял через лм студио qwen32b, было что-то под 11-15 токенов в секунду от розетки, на глаз как будто почти как чатжпт. Под код, правда, он очень не очень по опыту, но тут от задач зависит, да и модельку лучше заточенную на код брать.

Важно помнить ещё, что лм студио это сраный электрон, который вдогонку к модели ещё пару гигов сожрёт, так что если IDEшка тяжёлая, а макбук не на 36 гигов, то SSD отправится в Вальгаллу за годик-другой такой работы

Qwen3-30B-A3B даст на порядок более высокую скорость генерации )

Попробовал, шустро, но видимо из-за квантизации косячно — какая-то версия qwq так же себя вела, тоже в языках путалась и выдавала результат как повезёт. Как в анекдоте: умею печатать 3000 символов в минуту, но как перечитаю — такая бурда получается! :-)

Не возникало подобных эффектов. Использовал Q4_K_M и Q8.

Косяки видел на совсем небольших моделях, да если параллельно много запросов запускать (видать какое-то взаимное влияние есть от разных запросов).
Ну и если криво настроить модель - тоже возникал такой эффект (в ollama скачал как-то напрямую из huggingface модель - полнейшая ерунда получилась).

А так, для локального использования, Qwen3-30B-A3B пока мой фаворит. Быстро (на CPU) и достаточно эффективно.

P.S. возможно эффект был вызван тем, что модель только появилась и софт не поддерживал ее толком.

На Макбуке с новыми процессорами вполне бодро, потому что это SoC, а не простой CPU. А на другом ноутбуке у вас может быть видюшечка на 8 GB VRAM. Для моделей до 12b норм.

Почему вокруг неё шум?

Потому что тишина должна быть в ... ноутбуке!

Реально может картинки генерировать или это очередной прикол нейросеть в заголовке? Автор, ты хоть проверяй написанное.

Не, не может. Конкретно Gemma 3 умеет на вход принимать ещё и картинки, но генерирует только тексты.

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, иллюстраций

Вопрос генерации иллюстраций не раскрыт.

brew install ollama && ollama run gemma3:12b

Gemma 3 — хорошая модель, но она не обучена для использования инструментов. Можно просить написать ее код в режиме чата, но она не отредактирует код в IDE сама. А есть ли стоящие локальные модели для таких целей? Или инструменты нормально работают только на мощных облачных моделях?

Работа с инструментами - это вопрос из области обучения моделей. Доучили модель работать с шаблоном инструментов - будет работать. Проблема в том, что для работы с tool calling почти все интерфейсы полагаются на режим Chat Completion (чат отформатирован в стиле вопрос-ответ), в то время как локальные движки работают в режиме Text Completion ("логическое" автодополнение текста в запросе). В TC парсить вызов инструмента крайне сложно, а локально запускать СС - геморройно.

Короче, локально вызов инструментов можно сделать, но нужно много настраивать руками.

Мне в итоге пришлось написать парсер особых "токенов" которые инжектятся в промт с идеей "если планируешь использовать инструмент ОБЯЗАТЕЛЬНО-НЕОБХОДИМО-СРОЧНО нужно использовать <|use tool = name|> в самом НАЧАЛЕ-СТАРТЕ ответа." или что-то подобное. Потом в ответе оно объясняет что хочет сделать и находишь какой-нибудь <|search = "жаба или гадюка?"|> в ответе и кидаешь запрос в поисковик.

В итоге почти всё что сейчас использую умеет в инструменты. Но подбирать промт под каждую сетку это гемор

а если локальную LLM подсунуть плагину типа cline?

По-идее, Ollama\LM Studio в режиме OpenAI API как раз имитируют ChatCompletion, поэтому должно работать. Важно, чтобы модель была натренирована на использовании инструментов. На HuggingFace такие модели, как правило, содержат "tool" в названии.

спасибо. Я дальше "подключил через API и оно как-то сработало" не шел. Сейчас поменял железо, может получится увеличить контекст достаточно, чтобы llm заработала, как ожидается.

Qwen3 хорош. Единственное - через Ollama API плохо вызывает инструменты.
Но ollama поддерживает и OpenAI API (http://localhost:11434/v1/, любой токен в качестве ключа), через него лучше.

Еще есть devstral, но он более требователен к железу. С ним нареканий к Ollama API не было у меня.

Можно просить написать ее код в режиме чата, но она не отредактирует код в IDE сама.

Пишешь тулзы и вот у тебя уже нейросеть пишет код сама, сама коммитит и создает пулреквесты)

Для тех кто будет пробовать это LM поделие - оно загаживает профайл папками с временными файлами на многие гигабайты, которые при деинсталляции конечно не подчищает.

Если речь про ~\.cache\lm-studio\ - то там самая жирная папка это models, в ней, собственно, модели и лежат.

Кроме этой папки что-то валялось в корне профайла, плюс ещё какой-то кэш, всё с именами "lm-studio...". Ну и никакого доверия нет к тому что там ещё не накидано папок, но ковыряться с тем что эта программа намусорила ещё не хочется.

В общем, для меня выглядит как очередное поделие вайб-кодеров.

Заботимся о приватности данных и используем LM Studio с закрытыми сорцами?

И очень странные советы по выбору модели исходя из объема RAM.
Gemma 3 12B Q4_K_M как раз 8GB весит, c 8GB памяти запустится, но будет ОЧЕНЬ медленно.
И если у вас 16GB RAM - то и Gemma 3 12B Q8 можно запускать смело, все лишнее уйдет в своп. Главное - чтобы на модель и контекст под нее хватило памяти.

Главное - чтобы на модель и контекст под нее хватило памяти.

Подвох обычно в контексте и кроется) Надо подбирать размер и тестить с максимальным контекстном.

Иначе, так-то она запустится и на привет бодро ответит, но на этом ваш диалог и окончится.

Для "просто спросить" можно каждый раз новый диалог начинать - длинный контекст не нужен. Хватит и нескольких тысяч токенов.

Если модель "думающая" - то контекст нужен больше (раза в 2-3), "размышления" зачастую больше ответа или сравнимы с ним (сужу по qwen3 и deepseek-r1).

А вот если как агента для кодинга подключать - то да, большой контекст очень даже нужен. Но, на мой взгляд, локальные модели еще достаточно слабо способны в кодинг. Максимум - самые простые задачи (например, тесты). Да и то, надо очень тщательно за ними проверять результат.

казалось бы, что может быть проще - скачать LM Studio, открыть список моделей и выбрать любую (даже не обязательно гемма).
Но нет, нужно раздуть из инструкции "как открыть открыть дверь" мануал на несколько страниц, чтобы прорекламировать свои товары сомнительного содержания. Да еще и не гнушались использовать chatgpt

Каждый раз покупаюсь на эти заголовки, а потом вспоминаю что у меня вместо компа, помойное ведро.

Господи какая графомания аааааааа.

Совет из опыта: Если модель тормозит, проверьте Activity Monitor.

Совет из опыта: Закройте тяжёлые приложения в Activity Monitor.

Убедимся, что наш Mac справляется:

ОЗУ: Проверьте Activity Monitor

Совет из опыта: Проверьте Activity Monitor, чтобы убедиться, что ОЗУ не переполнен.

Модель не отвечает: Проверьте Activity Monitor.

Закрывайте лишние приложения: Освободите ОЗУ через Activity Monitor.

Что-что нужно сделать? Я так и не понял.

Вы для кого это пишете? Вам там за количество букв в статье платят или что? Почему тезисы дублируются по несколько раз? Где редактура? Почему не произвели рерайтинг текста после нейронки? Откуда столько плюсов?

Как же ваше нейромесиво уже достало.. Совсем за людей никого не считаете

pip install lmstudio-python

А может-таки pip install lmstudio , как прямо у них на заглавной указано: https://lmstudio.ai ?

А ничего что у lmstudio.Client нет base_url?

Запустите скрипт.
Вывод будет похож на:

Не будет. Даже, если бы та функция что вы написали была работоспособной, вы не удосужились её вызвать.

К чему эта сгенерированная ИИ простыня? Чтобы что?

Интересно, можно ли внутри модели реализовать интерфейс модель-компьютер?

Быстрее и проще разобраться как установить LM Studio самому, чем читать эту нагенерированую GPT портянку.

Вот сокращенная версия для mac:

  1. Скачать и установить

  2. Запустить и загрузить модель

  3. Пользоваться

Зарегистрируйтесь на Хабре, чтобы оставить комментарий