Комментарии 26
После реализации такой инструкции начинающий юзер получит прекрасного домашнего помощника у которого он сможет спрашивать например, сколько будет 2+2. Вероятность ошибочного ответа крайне низка.
Да, но ведь олама имеет встроенный интерфейс для общения с недавних пор.
Кто-нибудь может объяснить зачем всё это, когда есть LM Studio?
Ещё в самом начала нейрохайпа LM Studio у меня нужные мне нейронки не запускал, а в ollama они сами скачиваются, выбирать можно из их репозитория с различными квантинизациями. Если нет в репозитории, то можно и hf скачать - тоже есть вариант как её подложить.
В общем LM Studio изначально не зашел, а потом ещё раз я не пробовал. В ollama постоянно что-то улучшается, есть offload на процессор, по мере роста истории диалога и исчерпания vram процесс может упасть, тогда ollama перезапустит его, увеличив offload слоёв на процессор - очень удобно не делать гигантский запас VRAM на kvcache.
Studio для систем с графическим окружением а оламу можно в контейнере на серваке с использованием консоли запустить.
Для чего ?
(Надеваем шапочку из фольги) Для чистоты цифрового следа и в условиях отсутствия глобальной сети.
В системах умного дома.
Персональных системах рекомендаций , подбор (музыка,кино,книги).
Локальный "умный" асистент Аля Алиса, Маруся итд.
(Снимаем шапочку из фольги)
Применений много. Я не думаю, что все это нужно вам на вашем условном ноуте. Ставить полновесную систему , для запуска костыля, бред.
А покрасноглазить?
А эти локальные ИИ тоже с лоботомией, или полноценные?
А что по требованиям железа? Какая скорость ответа?
Это решение было запущено на ASUS ZenBook 14 с 8Gb на борту и на других офисных буках. Отлично работает на Air M1. А скорость она же относительна. Понятно, что скорость будет медленне, чем с 5090 или L40. Но цель статьи была показать, что не боги горшки обжигают, и даже начинающий разбираться в этой теме может своими руками собрать то, о чем так много говорят.
I5 10 Gb Debian, примерно как человек тебе печатает, 75 % ram все 4 ядра загружены под 100. Доволел как слон. А, да забыл сказать, что ставил qwen38b.
Теперь у вас есть собственный ИИ. Ему не нужен интернет, он бесплатный и достаточно умный.
Gemma4b еще и квантованая на q4? "достаточно умный"? А вы, конечно, непритязательны...
А теперь давайте такой же гид как научить эту модель например переводить книжки по вархаммеру 40к, ведь ее как то тюнить и донастраивать дальше надо под твои конкретные задачи.
Есть что-то подобное чтобы ИИ агента локально запускать?
Мне он вот такие странные ответы выдаёт: "
Кто такой тигр?
<think> Охммм, ой Ой, пользователь напись ещй пишет что-то крий непонсмой рускими синой, но сини непони непонсочйм.
Приййййййййййййййййййййййййййййййй
"
Так и должно быть или Я что-то не так сделал?)
Ollama+OpenWebui+gemma3 7b работает, если выставить температуры, адекватный промт, но есть одно НО - файнтюинг и обучение на собственных данных не дало адекватного результата - система начинает галлюционировать. Даже при 30 загруженных документах сначала выдаёт вроде верно, а потом сильно выдумывать начинает. Если нужно сделать ии на основе своей базы знаний - то нужно разворачивать более специализированный RAG
Крайне сомневаюсь что локально скорость будет нормальной без хорошей видяхи. Пробовал qwen на яблоке m4 pro - все что выше 4B работает крайне медленно, а все что ниже откровенно бесполезно.
Собственный ИИ локально, бесплатно и без GPU