Как стать автором
Поиск
Написать публикацию
Обновить

Как запустить нейросеть у себя на компьютере: 4 простых инструмента

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров21K
Всего голосов 35: ↑30 и ↓5+28
Комментарии24

Комментарии 24

Какую модельку посоветуете для обобщения информации из видео? Есть ли опенсорсные варианты? На примере как сервис NoteGPT

Если рассматривать ваш сервис - есть ли API для решения подобной задачи?

Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.

Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.

бесплатный Subtitle Edit позволяет вытащить субтитрами текст из видео через Vosk/Kaldi или разные варианты Whisper (есть и с CUDA), может сконвертировать их в текст, и при необходимости сделать автоперевод через локальный сервер LM Studio. Полученный текст (или сами субтитры сразу) можно скормить моделям того же LM Studio.

Щас бы ответы чатгпт копипастить в хабр, а нам это читать. Зачем посредник в виде "автора"?

При написании этой статьи были применено несколько источников, а также три нейросети. Но затем результат редактировался вручную. Основной текст не был сгенерирован через нейросеть (хотя не вижу в этом ничего плохого — важна достоверность информации, а не способ её получения). Ну а двухуровневые списки тоже отформатированы лично мною, для удобства считывания, — но на сегодняшний день многим кажется, что это признак сгенерированности текста) Возникает парадокс, что более оптимальная структура пересекается с кажущейся сгенерированностью.

Причем тут списки?

За километр чувствуется стиль написания нейросетью.

Кстати спросите у нее когда LMStudio научился файнтюнить модели?

Знаете, сейчас часто говорят, что мы видим нейросетевые следы повсюду. Это явление слишком субъективно, чтобы на нём зацикливаться.

Спасибо большое, исправил про файнтюнинг — все источники подтверждают его отсутствие в указанной системе.

Это не следы.

те кто постоянно работают с ллм уже наизусть знают их стиль.

Это именно стиль "вашей" статьи.

Плюс непроверенные данные. не только по лмстудии а по многому другому.

Либо конечно я ошибаюсь и статью написал человек. Человек, который вообще не понимает в том что пишет.

Нет, это не так.

Нашёл крутой локальный кодер аналог курсора Void Editor. К сожалению моя 3060-12гб тянет тяжело. Плюс не все модели подходят доя void пока что. Но я ещё не сдался) ollama ещё попробую заменить на vLLN.

В Anaconda Navigator запускаем Anaconda AI Navigator.
Там для загрузки доступно 59 моделей. Каждая ещё и с разными вариантами квантизации.

Для "просто побаловаться" более чем достаточно, и проще некуда, если у вас уже стоит Анаконда.
Можно чатом воспользоваться, можно как локальный сервер запускать.

LM Studio кстати тоже умеет поднимать сервер, даже несколько моделей параллельно можно грузить.

Вот бы статью как эффективно использовать нейроннку запущенную локально. Вот у вас есть 4090 или 5090 сделай это и это и вот у тебя есть AI ассистент который в фоне поверяет каждый коммит или выполненные команду и в удобном интерфейсе собрал для тебя все ошибки и варианты для их решения, уже составил доку, юнит тесты, релиз нотесы и готов менять статус задач по твоей команде... эх мечты, мечты

Ради интереса грузил Qwen3 на 480b параметров с квантизацией Q3. Поручил писать алгоритм изменения яркости в духе

void DoBrightness(Bitmap batman, float multipler)

Попросил всё люто‑бешено оптимизировать с unsafe и LUT таблицами, и чтобы большие битмапы через Parallel. Пахало 12 часов, справилось, честно говоря, на троечку. Видимо квантизация помешала. Модельки на 32b и 72b справились примерно так же, зато ответ выдавали через 10–30 сек.

Выводов не будет, просто делюсь опытом.

Кстати, кто пробовал локальные LLM для кодинга, по субъективному мнению, какой ЯП более менее на них сносный результат дает?

Тестил с Python i Golang. Пишет не плохо. Реальная проблема - нужно постоянно поправлять и указывать на недостатки. Итого в сумме по времени часто больше чем написать самому. Личное мнение - прикольная штука для переключения вида деятельности писать/ревью

Спасибо, я примерно о таком и слышал. Видимо кодовая база наиболее мощная использовалась.
Что до поправок и контроля, то и на больших моделях, надо очень за ними следить. Вообще прихожу к выводу, что LLM мне нужен или как хороший стартовый пинок, для организации проекта (писал тут как раз свой SQL Wizard на js и ИИ очень не плохо справился в начале), либо для очень локальных коррекций готового кода. Все остальное зачастую просто трата времени, нервов и денег выходит. Ещё в чем ИИ очень хорош - в анализе и составлении документации или комментировании кода. Тут прям мегаэкономия всего перечисленного выше!

Вместо ollama используйте llama.cpp+llama-swap.
Я предлагаю забыть про ollama, это кривое и глючное паразитное ответвление от llama.cpp.

Ollama заметно отстаёт в поддержке от llama.cpp:

  1. Легко можете столкнуться с тем что одна и та же модель (уже не очень новая) у вас отлично работает на llama.cpp, но выдаёт мусор на ollama.

  2. У вас не будет вулкан бэкэнда, не будет RPC и многого другого.

  3. Были случаи с заметно более низкой производительностью (например у gemma3).

  4. Поддержка новых моделей отстаёт.

  5. Базовый webui c поддержкой картинок и аудио уже есть в llama.cpp (llama-server).

  6. У llama.cpp совместимое с openai api и вы можете пользоваться любыми сторонним webui или какими-то иными инструментами под него, просто переопределив baseurl.

Изначально ollama была обвязкой над llama.cpp, где реализовали своё апи со сваппером и вендорлокнули на собственное хранилище моделей и затруднили пользование моделями с HF.
Потом они стали тащить какие-то мутные PR и делать сами тяп-ляп правки в свой форк llama.cpp, по итогу они сильно разошлись с апстримом и теперь как могут латают своё чудовище.

>LLama*

Сервильные клоуны уже не знают, как сильнее лизнуть цензорам, что даже названия моделей начали писать со звездочками. Как бабки в старину, поминая чёрта, говорили "чур меня, чур".

Это штука не убьет ресурс ссд раньше времени?

Программы вроде Ollama обычно не вызывают существенной нагрузки на ресурс SSD. Ведь модели «складируются» на диск единожды (или, во всяком случае, редко, с учётом переустановок и обновлений), а ресурс твердотельного диска расходуется только при записи, а не чтении. Больше всего будут затронуты видеокарта и оперативная память, для которых обмен данными также не является трудоёмким. Единственное, на что стоит обратить внимание, — это размещение файла подкачки на SSD-диске: вероятно, стоит отказаться от этой идеи, взамен увеличив объём оперативной памяти.

Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок). И как происходит этот процесс впринципе. Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?

Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок).

Как вариант можно кормить ими ту же GPT либо модели с HugginFace. Увы конкретную модель не смогу подсказать.

Встречал несколько раз тут на хабре статьи на эту тему, в вашем случае это RAG, если нужно отвечать на основе данных в этих PDF'ках.

Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?

Если рассматриваем подход RAG, то данные сохраняются в векторную базу данных, после чего модель ищет ключевые слова запроса по этой БД и собирает ответ. И да, в этом случае модель можно доучить на новых документах.

lamafile удобен для демок - скачал и запускаешь. Как статическая сборка выполняемая.

Недавно проходил курс, и адаптировал его для прохождения с локальным сервером ollama - по ходу выяснил что ollama для совместимости с open ai (rest) нужно запускать с другим ключом.

Хорошо когда логика отделяется от имплементации.

https://docs.litellm.ai/docs/ - прокси адаптер для внешних и локальных серверов с моделями. Пишешь код используя клиента прокси, чтоб бизнес логика не загрязнялась, удобно портировать.

RAG проекты, их несть числа, очень часто код сырой, настройки для open ai в облаке по умолчанию, когда запускаешь с локальным железом, бывает очень грустно - минут 10 документ могут обрабатывать...

https://github.com/infiniflow/ragflow из свежих, еще не успел его помучать хорошо. Приехал на другой адрес (мотаюсь), привез видюху с oculink eGPU с собой, а блок питания забыл... читаю книжки в общем, без локальных тестов.

Не помню точно, https://github.com/PromtEngineer/localGPT либо https://github.com/zylon-ai/private-gpt проект запускал локально, сырой и медленный оказался.

Если интересуют бесплатные короткие курсы быстро войти в тему RAG, то понравились следующие:

Haystack в общем, продуманный матерый framework с хорошей архитектурой близкой к enterprise и привычным flow engine: https://learn.deeplearning.ai/courses/building-ai-applications-with-haystack

Langchain неплох, но RAG это не совсем его специализация, мне так показалось

https://learn.deeplearning.ai/courses/langchain-chat-with-your-data/lesson/snupv/introduction

RAG с llamaindex:

https://learn.deeplearning.ai/courses/building-agentic-rag-with-llamaindex

С MCP пока RAG не видел, но почему бы нет? RAG это не только векторный поиск, а зонтичное покрытие методов поиска информации во внешних источниках.

a особенно RAG с neo4j: https://learn.deeplearning.ai/courses/knowledge-graphs-rag

Если интересует RAG с парсингом контента с помощью LLM в knowledge graph, есть достаточно свежий проект (смотрю его): https://github.com/stair-lab/kg-gen , у них и работа не так давно вывешена: https://arxiv.org/abs/2502.09956

Тема knowledge graph зацепила, сейчас смотрю ее. Неплохой курс лекций: https://migalkin.github.io/kgcourse2021/, введение и шпаргалка (слайды): https://migalkin.github.io/kgcourse2021/assets/slides/Lecture2.pdf

Пардон за длинный коммент и флуд, если что.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий