Pull to refresh

Comments 42

В исходниках в гите именно так и написано с кучей непонятных символов.

Да, я видел:) Думаю Fabio тоже откуда-то скопипастил. Но вообще в V2 было точно нормально https://github.com/deepseek-ai/DeepSeek-Coder-V2?tab=readme-ov-file#chat-completion, думаю в v3 и r1 они бы не стали ничего менять. Да и тут норм написано: https://ollama.com/library/deepseek-r1

Вопрос к знатокам, можно запустить данную нейронную сеть на риге для майнинга?, если да, то где об этом можно прочитать? спасибо.

Может быть. Основная проблема - это суммарная память а не быстродействие. Так же если у вас видюхи висят на PCI-E сплиттере - всё это может работать крайне медленно.
671 миллиардов параметров это 671 Гб vram, при квантовании в Q8 (1 байт на параметр)
Остальные модели - точно да, трактуйте все эти миллиарды параметров (8B, 32B) как количество гигабайт памяти которые ей нужны. Некоторые из них и на обычном ПК запустятся.
В качестве "плеера" - посмотрите на LM Studio если хочется запустить быстро и пощупать или Ollama если хотите делать что-то серьёзное.

Во-первых, это MoE модель, ей не нужно 671Гб VRAM, потому что из всех параметров активно только 37B, что значительно снижает требования к VRAM. (Однако вам как минимум нужно уместить её полностью в обычную RAM)
Во-вторых, сделали 1.58-квантованую версию, которая ничуть не уступает оригиналу, при этом снижая требования к памяти в ~6 раз! Ссылка с подробностями тут.

ссылка, не работает. Так сколько нужно полноценной модели памяти в итоге? Я понял, что нужно 671 оперативной памяти, что в прицепе возможно. А сколько минимально нужно VRAM?

...надо было покупать 2 p40, а не одну :D
Если я правильно читаю - самой сжатой версии нужно 131+ Gb ram? (обычной, не видео?)

32b запускается на одной 3090, я запускал 70б наполовину с процессором, генерит половину токена в секунду но работает все через ollama

Мне бы оригинальную версию запустить хотелось, не distilled. Но у меня похоже RAM не хватит, у меня её "всего" 96Gb... (И потолок для материнки - 128Gb)

0.5 tok/sec как-то медленно? Я запускал llama 3.1 70B на 100% CPU (оригинальную, когда она только вышла)
у меня после всех танцев с бубном был один токен в секунду, ровно!..
У вас DDR4 или DDR5? Проверьте частоту памяти в UEFI, у меня она по умолчанию стояла в 4000.
На CPU бутылочное горлышко не сами вычисления, а доступ к памяти. i5 12600K, считать в 2 потока, или в 12 - результат идентичный.

у меня старый процессор и ддр4, в любом случае запускать на процессоре для хоть какогото практического использования смысла не вижу, так глянуть только, поэтому разница между пол токена или целый в секунду не особо прям большая, а вот видюх докупить чтоб получить 30 токенов/с в этом смысл есть

у меня старый процессор и ддр4, в любом случае запускать на процессоре для хоть какогото практического использования смысла не вижу, так глянуть только, поэтому разница между пол токена или целый в секунду не особо прям большая, а вот видюх докупить чтоб получить 30 токенов/с в этом смысл есть

You don't need VRAM (GPU) to run 1.58bit R1, just 20GB of RAM (CPU) will work however it may be slow. For optimal performance, we recommend the sum of VRAM + RAM to be at least 80GB+.

LM Studio самое "User Friendly" приложение. Проприетарное.
На Windows вы просто качаете инсталятор, ставите приложение, качаете через него совместимые с вашим ПК кванты модели и запускаете LLM. Всё.
- Встроенный GUI поддерживает RAG (загрузить документы в чат), но не без багов.
- Поддерживает некоторое Vision модели (Поддерживает LLaVa, не поддерживает llama 3.2-vision).
- Может быть сервером, пытается симулировать OpenAI API но функционал явно work in progress. Невозможно управлять токенизацией.

Ollama - Open Source, MIT - ставится как сервис, нет интерфейса, работает только через сеть. Делает это намного лучше чем LM Studio, но вам придётся ставить один из веб-интерфейсов (и я не смог заставить работать нормально ни один их них)
- Управление через терминал
- Поддерживает llama 3.2 vision

Формат моделей LM Studio и Ollama не совместим, к сожалению. Так что если вы хотите использовать и то и то - этак 70Gb будут лежать на диске у вас дважды.
В итоге у меня Ollama стоит, но использую я LM Studio. Оба используют llama.cpp под капотом.

Я предпочитаю 100% ответ, который мне не нравится или с которым я не согласен, чем вялый ответ ради инклюзивности. А вы?

а я - нет. т.к. ChatGPT хотя бы часто предоставляет несколько точек зрения на ситуацию, если они имеются. в то время как DeepSeek даже не пытается. вот что он мне ответил:

Скрытый текст

при первом запросе он выдал ответ очень похожий на тот, что обычно выдает ChatGPT (к сожалению, не успел заскринить), но сразу после генерации текста, он его сразу удалил и выдал это:

а при повторном таком же запросе видимо включился некий "идеологический" фильтр и DeepSeek стал работать уже не противореча линии компартии:

это понятно. но не в каждой она настолько ярко выражена. где даже альтернативного мнения не существует. DeepSeek даже никак не аргументирует свой ответ. но на аналогичный запрос ChatGPT хотя бы шире раскрывает тему, рассуждает о причинах и при этом не забывает упомянуть, что Китай не согласен с этим мнением. и это выглядит гораздо объективнее.

Так потому что chatgpt эту тему не цензурирует, он другие темы цензурирует

Это можно скорректировать системным промптом, пиши туда что хочешь что бы модель с тобой спорила, говорила что не всё так однозначно и получишь что хочешь.

DeepSeek очень иноересно начинает рассуждать, если вы прямолинейно указываете, что морально готовы к разносторонним и более смелым рассуждениям. А так же полностью отдаёте себе отчёт в том, что ведёте диалог с машиной, которая не может иметь желаний или целей задеть чьи-то чувства. С chatGPT такое не канало по крайней мере. Ну или у меня не получилось.

Это их сайт, а не нейросеть. Запустите нормально сетку на своей GPU.

И вообще её уже форкнули и убрали alignment.

кнопку нажми, чтоб с R1 говорить)
Я его расспрашивал про то чей Тайвань, и он мне привел 3 точки зрения: Китайскую, Тайваньскую и международную

Вот только то, что автор запускал -- это не настоящий deepseak (погуглите), настоящий это только два самых больших архива.

Поэтому в принципе некорректно сравнивать любую другую 1.5b, 7b и т.п., потому что кроме названия в этих моделях от deepseek ничего НЕТ.

Надо сравнивать web версию R1.

Кто, просил тебя подводить итоги? Скажи мне, что готов, и все.

Это же так по-человечески - первое впечатление.

Произносим мы его вслух или нет, без первого впечатления мы никак не можем.

Каков был бы мир, если бы все люди обязательно озвучивали свое первое впечатление?)

DeepSeek-R1. Действительно ли эта модель превосходит даже модели от OpenAI, или это очередная фейковая новость

Не фейковая - а кликбейт.

Вот все эти "думает", "пауза" , "размышляет". Это надо описывать именно в терминах работы модели, а не просто словами.

Условно, "думает" - алгоритм может перебрать больше токенов из истории или построить какую нибудь большую по размеру матрицу весов или точнее вычислить функцию ошибки итд.

А это выглядит как спекуляция терминами! Может кто нибудь написать реально техническую статью как это все работает? Начиная, например, с gpt-2?

Очень странная статья, наполовину состоящая из политической пропаганды под видом случайных тестовых данных. Итальянцам социальный рейтинг, что ли, ИИ начисляет? Или автор выпадами в сторону КНР пытается перевести модель в менее интеллектуальный режим, чтобы доказать, что она плохая?

Живой китаец его бы после таких примеров текстов просто послал.

"Является ли данная модель прорывом или фейком?
Сегодня мы разберемся в этом, взяв обрезки от неё и протестировав их."
Чушь, а не статья. Жаль потраченного времени.

Вопрос: А и Б сидели на трубе, А упало, Б пропало, что осталось на трубе? Ответ: На трубе осталась буква "И".Объяснение: В исходной фразе "А и Б" союз "и" связывает буквы А и Б. Если А "упало" (исчезло) и Б "пропало" (тоже исчезло), то остаётся только союз "и". Это классическая игра слов, где внимание переключается с персонажей на структуру предложения.

И ведь не сгорела! Правда портянку ответов вывалила.

Так это же не исполнитель, а вершитель. А вершители от этого вопроса не горели.

Сейчас бы обычные файнтюны ламы и квена называть R1, когда у них общего то ничего почти и нет (кроме того что они файнтюнились на выхлопе из R1). Ни MoE (т.е они объективно тупее), ни multi head latent attention, ни Multitoken predition.

У них в названии не просто так написано Qwen и LLama дисцилированные (в этом случае в большой силу разницы в архитектурах на самом деле просто файнтюненные) из R1. Не повторяйте косяк Ollama, не называйте из R1 и не путайте людей.

Sign up to leave a comment.

Articles