Как стать автором
Обновить

Комментарии 26

Так дистиллированные модели тоже ведь рассуждающие, в ответе локально запущенной модели также появляется блок <think> </> с рассуждениями.

Какой GPU нужен для запуска модели 1.5B и более лучших?

В зависимости от хотелок, движка и степени шакальности "ужатия" модели - минимально хватит 8GB. Конкретно для DeepSeek-R1-Distill-Qwen-1.5B хватит 4 гигов, ~2 гига если использовать модели с квантованием.

Linux, 96GB RAM, Nvidia 4060M (8GB), получается примерно по 4 токена в секунду. Система, конечно, работает на пределе, можно голову сушить вместо фена.

Неинформативно. Что за модель, что за движок (vLLM, TabbyAPI, Aphrodite, LlamaCPP), какое качество модели (FP16 или что-то подрезанное)?

Результат похож на работу CPU над крупной моделью, без участия видеокарты.

Мне понравилась идея с R1-Zero. Явно навеяна гугловским AlphaZero - он тоже учился играть без всяких датасетов и назначенных продукционных правил. Просто сам с собой. Точнее предок с потомком.

Кстати, deepseek уже несколько недель пользуюсь. Впечатления самые положительные.

Я тоже про AlphaZero вспомнил. Однако в шахматах есть четкий критерий выигрыша, а во всеобщих вопросах - нет. Задачка сложная для робота.

Для человека ничуть не легче, проще в целом дается (пока) лишь потому, что у нас сильно больше вычислительной мощности в мозге, и она используется для более эффективного выжимания максимума из получаемых данных, даже при менее эффективном способе подстройки весов.

Но и у ИИ будет не меньше мощности, за дорого - так уже скоро. И в отличии от нас, у него сильно меньше ограничение пропускной способности на распознавание символов, концептов, и вывод действий (пока что без робо-тел). То есть учиться он сможет ~так де глубоко, как и человек, но на данных со всего интернета и более, анализировать далёкие связи и противоречия.

Особенно если хватит размера моделей и вычислительных мощностей, тобы сделать это одной из целей обучения - формировать "воспоминания", что, где "прочел", как это согласуется со свежепрочитанным, и кто врёт или ошибается. Сейчас они учатся сильно проще в этом плане, поэтому в том числе и с более глубоким анализом может быть больше проблем.

Мы недооцениваем, сколько вычислительной мощности у мозга. И как эффективно (но не всегда, не у всех, отсюда в том числе разницы в интеллектуальных способностях) она в нем используется. Как мало нейронов-синапсов, из миллиардов-сотен троиллионов, и как редко, активируется. DeepSeek в том числе в этом направлении двигается, активации меньшего количества нейронов за проход, потому (и не только) у них настолько дешевле и тренировка и инференс, и потому у западных компаний так полыхнуло.

Поболтал в чате на остро техническую тему - впечатляет. Единственное в чем были косяки - часть запрошенных ссылок на внешние источники оказались битыми. Возможно обучалась на ныне устаревших версиях сайтов.

Поправочка - пока что ВСЕ проверенные ссылки (около десятка) никуда не ведут, под частью находятся вообще левые документы с другими названиями и авторами. Вопщем к достоверности данных есть большие вопросы. Ответ выглядит очень стройно и структурированно, но с большой вероятностью это стройная и структурированная куча говна.

так вы спросите то, что знаете и провалидируйте ответ..?

Я так и сделал. Основные банальные знания были изложены хорошо. В менее тривиальных были вещи которые мне были известны и вещи которые выглядели новыми. Я попросил ссылок и примеров на новые. Мне дали ссылок примеров. Я восхитился. Потом как было время пошел в целях самообразования по ссылкам. И тут выяснилось что все проверенные ссылки или в никуда или галлюцинация. Типа дана ссылка на статью по некой теме за авторством некого японца и ее DOI. Иногда такие статьи не существуют, иногда по идентификатору находится статья, но совсем не про это и без японцев.

Ссылки модели не запоминают при обучении, особенно сложные, длинные, составные. Это слишком уникальные и редкие в тренировочных данных штуки, а у них слишком мало параметров, чтобы можно было просто втупую все запоминать.

Хотя домены сайтов запомнит, как и какие-нибудь часто встречающиеся ссылки целиком.

Закинул в r1 на сайте дипсика небольшую функцию на питоне для рефакторинга, получил типичную бредятину от нейросетей, нерабочую. Клод обычно справляется лучше, его бредятина хотя бы сразу запускается и бежит до ближайшей ямы.

у меня было наоборот, хотя никто до конца не отработал. но клод вместо простого парсера начал селениум тянуть, чатгпт просто не запустился, дипсик дальше всех продвинулся

gguf версии для локального запуска все варианты: https://huggingface.co/collections/unsloth/deepseek-r1-all-versions-678e1c48f5d2fce87892ace5

В llama.cpp поддержка была добавлена вчера, поэтому все проекты построенные на нем, вроде ollama, lm studio или oobabooga/text-generation-webui получат обновление позже. Пока можно запустить используя веб-сервер от самой llama.cpp:

.\llama-server.exe -m "DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf" -ngl 99

-ngl 99 - это количество слоев, которые будут выгружены на видеокарту, нужно установить в зависимости от количества видеопамяти.
Для windows, если у вас не новые amd или любой intel, то качайте vulkan версию, если новые amd, то hip, если nvidia, то cuda версию.

По идее, чтобы заработало нормально, лучше следовать рекомендациям от создателей:

  1. Задать системный промпт:
    A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.

  2. Установить температуру в диапазоне от 0.5 до 0.7, иначе может быть бесконечный вывод и непоследовательное рассуждение.

После этого модель будет работать нормально и вести диалог в чате самостоятельно фильтруя теги размышления.

Не знаю, это из-за квантования пишет водород как гидрород, или просто так удобнее размышлять. 极高 - "очень велико"
Не знаю, это из-за квантования пишет водород как гидрород, или просто так удобнее размышлять. 极高 - "очень велико"
Не довел ответ до гелия-4, но и вопрос был про другое
Не довел ответ до гелия-4, но и вопрос был про другое

KoboldCPP могёт запускать вообще без проблем. Проверено 21 января (вчера). Скачиваете все 10 кусков, натравливаете на первый и алга

Речь не про просто запуск, стандартные трансформеры можно сразу запускать на чем угодно. Речь про квантованные модели gguf, которые снижают требования к железу в несколько раз, позволяя запускать такие тяжелые модели на обычном ПК.

Например, модель DeepSeek-R1-Distill-Qwen-32B:

  • в оригинальных трансформерах модель требует 67гб памяти.

  • если взять gguf с квантованием Q4_K_M, то модель требует всего 20гб памяти.

Потеря качества между Q4_K_M и оригинальной моделью будет несколько процентов, что вполне приемлемо.

Больше тянет на статью, чем на новость

Жаль, только, что рассуждает она только на английском(

Я пока писал - она начала на русском рассуждать. Извиняюсь, не проверил.

Очень впечатляющая модель. Я люблю погонять новые ИИ-чаты в режиме имитации гейм-мастера для текстовой приключенческой игры. И даже у самых неплохих замечаю проблему "забывания". Спустя 20-30 ходов (итераций "ситуация"-"действия игрока") модели перестают следовать оригинальному (первому) промпту. Забывают события игры, ранее придуманные ситуации и персонажей. DeepSeek помнил почти все. На протяжении 50 ходов он вспоминал мельчайшие детали ранее придуманных персонажей, не упускал из виду общую последовательность событий, не забывал следовать первоначальному промпту. Неидеально. Была пара ошибок. Забыл про существование одного минорного персонажа из 8. Забыл про придуманный около 5 ходов назад план, и "персонажу" пришлось напоминать, о чем договорились, и что он должен делать. По факту напоминать ИИ, но в игровой форме, чтобы не выпадать из формата взаимодействия игрок-игра. Было еще несколько не критичных для повествования оговорок относительно событий прошлого, но в целом очень впечатляет. Игра прекратилась только когда уперся в ограничение на длину чата. Тот же Gemini "забывал" правила игры и предыдущие события и дальнейшая игра теряла смысл (какой смысл играть с гейм-мастером склеротиком?), так что ограничения на длину чата (если оно у них есть) я никогда не достигал.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости