dmitrifriend 28 июл в 12:55

Как запустить нейросеть у себя на компьютере: 4 простых инструмента

Простой

11 мин

15K

Блог компании BotHubИскусственный интеллектКомпьютерное железоМашинное обучение*

Обзор

+22

Комментарии 19

IIIIIIIIII1234 28 июл в 14:47

Какую модельку посоветуете для обобщения информации из видео? Есть ли опенсорсные варианты? На примере как сервис NoteGPT

Если рассматривать ваш сервис - есть ли API для решения подобной задачи?

pol_pot 29 июл в 00:10

Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.

Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.

muraview 12 часов назад

бесплатный Subtitle Edit позволяет вытащить субтитрами текст из видео через Vosk/Kaldi или разные варианты Whisper (есть и с CUDA), может сконвертировать их в текст, и при необходимости сделать автоперевод через локальный сервер LM Studio. Полученный текст (или сами субтитры сразу) можно скормить моделям того же LM Studio.

kaibruneji 28 июл в 15:31

Щас бы ответы чатгпт копипастить в хабр, а нам это читать. Зачем посредник в виде "автора"?

dmitrifriend 29 июл в 09:13

При написании этой статьи были применено несколько источников, а также три нейросети. Но затем результат редактировался вручную. Основной текст не был сгенерирован через нейросеть (хотя не вижу в этом ничего плохого — важна достоверность информации, а не способ её получения). Ну а двухуровневые списки тоже отформатированы лично мною, для удобства считывания, — но на сегодняшний день многим кажется, что это признак сгенерированности текста) Возникает парадокс, что более оптимальная структура пересекается с кажущейся сгенерированностью.

mckokos 28 июл в 16:17

Нашёл крутой локальный кодер аналог курсора Void Editor. К сожалению моя 3060-12гб тянет тяжело. Плюс не все модели подходят доя void пока что. Но я ещё не сдался) ollama ещё попробую заменить на vLLN.

eresik 28 июл в 19:06

В Anaconda Navigator запускаем Anaconda AI Navigator.
Там для загрузки доступно 59 моделей. Каждая ещё и с разными вариантами квантизации.

Для "просто побаловаться" более чем достаточно, и проще некуда, если у вас уже стоит Анаконда.
Можно чатом воспользоваться, можно как локальный сервер запускать.

VBDUnit 28 июл в 23:05

LM Studio кстати тоже умеет поднимать сервер, даже несколько моделей параллельно можно грузить.

DANic 28 июл в 20:20

Вот бы статью как эффективно использовать нейроннку запущенную локально. Вот у вас есть 4090 или 5090 сделай это и это и вот у тебя есть AI ассистент который в фоне поверяет каждый коммит или выполненные команду и в удобном интерфейсе собрал для тебя все ошибки и варианты для их решения, уже составил доку, юнит тесты, релиз нотесы и готов менять статус задач по твоей команде... эх мечты, мечты

VBDUnit 28 июл в 23:12

Ради интереса грузил Qwen3 на 480b параметров с квантизацией Q3. Поручил писать алгоритм изменения яркости в духе

void DoBrightness(Bitmap batman, float multipler)

Попросил всё люто‑бешено оптимизировать с unsafe и LUT таблицами, и чтобы большие битмапы через Parallel. Пахало 12 часов, справилось, честно говоря, на троечку. Видимо квантизация помешала. Модельки на 32b и 72b справились примерно так же, зато ответ выдавали через 10–30 сек.

Выводов не будет, просто делюсь опытом.

starfair 29 июл в 07:30

Кстати, кто пробовал локальные LLM для кодинга, по субъективному мнению, какой ЯП более менее на них сносный результат дает?

max851 29 июл в 08:09

Тестил с Python i Golang. Пишет не плохо. Реальная проблема - нужно постоянно поправлять и указывать на недостатки. Итого в сумме по времени часто больше чем написать самому. Личное мнение - прикольная штука для переключения вида деятельности писать/ревью

starfair 29 июл в 08:26

Спасибо, я примерно о таком и слышал. Видимо кодовая база наиболее мощная использовалась.
Что до поправок и контроля, то и на больших моделях, надо очень за ними следить. Вообще прихожу к выводу, что LLM мне нужен или как хороший стартовый пинок, для организации проекта (писал тут как раз свой SQL Wizard на js и ИИ очень не плохо справился в начале), либо для очень локальных коррекций готового кода. Все остальное зачастую просто трата времени, нервов и денег выходит. Ещё в чем ИИ очень хорош - в анализе и составлении документации или комментировании кода. Тут прям мегаэкономия всего перечисленного выше!

EvilFox 29 июл в 08:39

Вместо ollama используйте llama.cpp+llama-swap.
Я предлагаю забыть про ollama, это кривое и глючное паразитное ответвление от llama.cpp.

Ollama заметно отстаёт в поддержке от llama.cpp:

Легко можете столкнуться с тем что одна и та же модель (уже не очень новая) у вас отлично работает на llama.cpp, но выдаёт мусор на ollama.
У вас не будет вулкан бэкэнда, не будет RPC и многого другого.
Были случаи с заметно более низкой производительностью (например у gemma3).
Поддержка новых моделей отстаёт.
Базовый webui c поддержкой картинок и аудио уже есть в llama.cpp (llama-server).
У llama.cpp совместимое с openai api и вы можете пользоваться любыми сторонним webui или какими-то иными инструментами под него, просто переопределив baseurl.

Изначально ollama была обвязкой над llama.cpp, где реализовали своё апи со сваппером и вендорлокнули на собственное хранилище моделей и затруднили пользование моделями с HF.
Потом они стали тащить какие-то мутные PR и делать сами тяп-ляп правки в свой форк llama.cpp, по итогу они сильно разошлись с апстримом и теперь как могут латают своё чудовище.

Licemery 29 июл в 12:04

>LLama*

Сервильные клоуны уже не знают, как сильнее лизнуть цензорам, что даже названия моделей начали писать со звездочками. Как бабки в старину, поминая чёрта, говорили "чур меня, чур".

maertor 29 июл в 22:14

Это штука не убьет ресурс ссд раньше времени?

dmitrifriend 29 июл в 22:43

Программы вроде Ollama обычно не вызывают существенной нагрузки на ресурс SSD. Ведь модели «складируются» на диск единожды (или, во всяком случае, редко, с учётом переустановок и обновлений), а ресурс твердотельного диска расходуется только при записи, а не чтении. Больше всего будут затронуты видеокарта и оперативная память, для которых обмен данными также не является трудоёмким. Единственное, на что стоит обратить внимание, — это размещение файла подкачки на SSD-диске: вероятно, стоит отказаться от этой идеи, взамен увеличив объём оперативной памяти.

allsan 17 часов назад

Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок). И как происходит этот процесс впринципе. Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?

Zeus42 2 часа назад

Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок).

Как вариант можно кормить ими ту же GPT либо модели с HugginFace. Увы конкретную модель не смогу подсказать.

Встречал несколько раз тут на хабре статьи на эту тему, в вашем случае это RAG, если нужно отвечать на основе данных в этих PDF'ках.

Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?

Если рассматриваем подход RAG, то данные сохраняются в векторную базу данных, после чего модель ищет ключевые слова запроса по этой БД и собирает ответ. И да, в этом случае модель можно доучить на новых документах.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий