Воздух в помещении всё таки должен вентилироваться. У меня прошлым летом кондишка в 35С потекла внутри помещения. Выключать при такой погоде не вариант, пришлось пластиковый ящик ставить чтоб в него текла. За сутки литров 50 набралось.
Я поспорю с тезисом что LLM может повысить качество. LLM чаще всего просто наливает воды в текст, причём всегда используя одни и те же обороты. Если вы видите в фразу "delve into <topic>" вместо "dive into <topic>" - это 99% AI. (0.95% человек который читал слишком много AI текстов и 0.05% - выходец из ЮАР)
Вот это коммент - отличный пример почему люди не любят LLM-тексты. Букв много, а смысла почти нет. Смотришь на это счастье, и хочется tl;dr у этой самой нейронки спросить.
При всём уважении, статья на волне хайпа. > Сейчас доступно 2 модели: Все они доступны. То, что вы видите - это featured модели, а не доступные в принципе. Просто наберите "R1 Distill" в поиск, или посмотрите модели вот этого пользователя: https://huggingface.co/bartowski
Запускать любую сетку, а особенно большую на CPU обычного ПК - идея довольно плохая. Оно в доступ к памяти упирается.
Ещё, если у вас DDR5 и Intel 12 gen - отключите e-cores в UEFI. p-cores поддерживают частоту 4800GHz, e-cores - только 3300, в результате когда они активны (в на Windows они активны всегда) - частота внутренней шины снижается до 3300GHz.
LM Studio самое "User Friendly" приложение. Проприетарное. На Windows вы просто качаете инсталятор, ставите приложение, качаете через него совместимые с вашим ПК кванты модели и запускаете LLM. Всё. - Встроенный GUI поддерживает RAG (загрузить документы в чат), но не без багов. - Поддерживает некоторое Vision модели (Поддерживает LLaVa, не поддерживает llama 3.2-vision). - Может быть сервером, пытается симулировать OpenAI API но функционал явно work in progress. Невозможно управлять токенизацией.
Ollama - Open Source, MIT - ставится как сервис, нет интерфейса, работает только через сеть. Делает это намного лучше чем LM Studio, но вам придётся ставить один из веб-интерфейсов (и я не смог заставить работать нормально ни один их них) - Управление через терминал - Поддерживает llama 3.2 vision
Формат моделей LM Studio и Ollama не совместим, к сожалению. Так что если вы хотите использовать и то и то - этак 70Gb будут лежать на диске у вас дважды. В итоге у меня Ollama стоит, но использую я LM Studio. Оба используют llama.cpp под капотом.
Мне бы оригинальную версию запустить хотелось, не distilled. Но у меня похоже RAM не хватит, у меня её "всего" 96Gb... (И потолок для материнки - 128Gb)
0.5 tok/sec как-то медленно? Я запускал llama 3.1 70B на 100% CPU (оригинальную, когда она только вышла) у меня после всех танцев с бубном был один токен в секунду, ровно!.. У вас DDR4 или DDR5? Проверьте частоту памяти в UEFI, у меня она по умолчанию стояла в 4000. На CPU бутылочное горлышко не сами вычисления, а доступ к памяти. i5 12600K, считать в 2 потока, или в 12 - результат идентичный.
Они по сути сделали то, что принято в ИИ-коммунити (каким бы малым оно ни было, там всего с десяток открытых крупных игроков) Они использовали свою и чужую открытую работу, улучшили её и отдали результат в открытое же использование. То же самое желает Meta* с их llama'ми.
Обойти же OpenAI не то чтобы трудно было, они больше финансами и прибылью увлеклись, чем научной работой.
В задачах программирования, в частности, Nemotron от nVidia (файнтюн llama 3.1 70b instruct) обходил ChatGPT, и местами даже Claude.
Вообще это всё выглядит как подготовка почвы для выдавливания конкурента. Проблема в том, что это "почва" не выдерживает даже поверхностной критики (не говоря даже о самой практике). DeepSeek просто пришли и отдали результат: "на, пользуйтесь бесплатно и без нашего участия". У них даже патентов в США нет (на данный момент).
DeepSeek isn’t hiding any of this — far from it. “The personal information we collect from you may be stored on a server located outside of the country where you live,” it tells users. “We store the information we collect in secure servers located in the People's Republic of China.” As for what that information might be —everything.
Мне нравится этот уровень лицемерия. Оно такое простое и незамутнённое. Смотришь и восхищаешься прямо как котёнком. Когда Россия требовала перевести данные от сервисов на свою территорию - сколько криков про тоталитаризм-то было...
И это всё при том, что вы можете скачать модель и запустить её локально: не делясь ни какими данными в принципе.
95% инструкций AI проектов выглядят так. На данный момент это территория специализированных проектов и энтузиастов, для простых решений эта область слишком молода. Они ещё не успели появиться и завоевать рынок.
Может быть. Основная проблема - это суммарная память а не быстродействие. Так же если у вас видюхи висят на PCI-E сплиттере - всё это может работать крайне медленно. 671 миллиардов параметров это 671 Гб vram, при квантовании в Q8 (1 байт на параметр) Остальные модели - точно да, трактуйте все эти миллиарды параметров (8B, 32B) как количество гигабайт памяти которые ей нужны. Некоторые из них и на обычном ПК запустятся. В качестве "плеера" - посмотрите на LM Studio если хочется запустить быстро и пощупать или Ollama если хотите делать что-то серьёзное.
Вообще, в случае именно с LLM, бутылочное горлышко - это скорость доступа к памяти, причём значительное. Вам нужно перелопатить этак 70Gb памяти, провести пару арифметических операций над каждым байтом.
При этом энтузиасты успешно запускают LLM на современных Маках, именно из-за того что у них оперативная память быстрая (насколько я понимаю от того, что это расшаренная память в том числе и с GPU)
В общем кажется мне NVidia лидирует только от того, что никто больше серьёзно не попытался.
Детали обучения мы проверить не можем, а вот скорость работы вполне - DeepSeek опубликовали модель. Кто угодно может пойти скачать саму модель и провести тесты самостоятельно: https://huggingface.co/deepseek-ai/DeepSeek-R1
Впрочем сам R1 обычный ПК не потянет, от всё таки большеват, этак на порядок. Но всего лишь на порядок. Distill модели вполне, но это не сам DeepSeek R1, это другие опенсорсные модели тренированные на данных сгенерированных с помощью R1 и под его наблюдением.
Сколько же ChatGPT использует вычислительный мощностей вроде никто и не знает.
Насколько я слышал, при СДВГ мозгу нужна постоянная стимуляция. Если её нет - он начинает создавать её себе сам, и вы внезапно обнаруживаете, что вместо работы "витаете в облаках", пошло 2 часа времени и ничего не сделанно. Музыка повышает уровень фонового шума, да это по прежнему тратит "ману", но она затыкает дырку в которую иначе она бы просто вытекла. (я несколько не соглашусь с тем, что "маны меньше", её столько же, просто при СДВГ не возможно напрямую контролировать на что она тратится, и в результате тратится она на всякую фигню чаще всего)
Парадоксальным образом нужно уточнить что такое "внимание" в этом названии - способность концентрироваться на чём либо, а не желание быть в центре внимания.
Выборы в США заметили. Не заметили логической цепочки с этими событиями. Тем более что Трамп вот буквально 21г января (в день получения письма) тормознул с пол сотни указов Байдена. До этого же момента он никакой власти не имел.
Если вы указываете на все известные события, то они "начали случаться" 3 года назад. Так что почему они проснулись только сейчас - действительно не понятно.
Воздух в помещении всё таки должен вентилироваться. У меня прошлым летом кондишка в 35С потекла внутри помещения. Выключать при такой погоде не вариант, пришлось пластиковый ящик ставить чтоб в него текла. За сутки литров 50 набралось.
Так что в теории оно таки может "работать****"
Я поспорю с тезисом что LLM может повысить качество. LLM чаще всего просто наливает воды в текст, причём всегда используя одни и те же обороты. Если вы видите в фразу "delve into <topic>" вместо "dive into <topic>" - это 99% AI. (0.95% человек который читал слишком много AI текстов и 0.05% - выходец из ЮАР)
Вот это коммент - отличный пример почему люди не любят LLM-тексты. Букв много, а смысла почти нет.
Смотришь на это счастье, и хочется tl;dr у этой самой нейронки спросить.
По-моему только Meta* заморачивается тем, чтобы их сети отвечали кто они такие более или менее правильно
При всём уважении, статья на волне хайпа.
> Сейчас доступно 2 модели:
Все они доступны. То, что вы видите - это featured модели, а не доступные в принципе.
Просто наберите "R1 Distill" в поиск, или посмотрите модели вот этого пользователя:
https://huggingface.co/bartowski
Или, например, вот "abliterated" версия
https://huggingface.co/mradermacher/DeepSeek-R1-Distill-Llama-70B-abliterated-GGUF
Если вы хотите чтобы вам AI рассказывал матные частушки - вам нужна эта (модифицированная) версия.
И, главное, distill модели это не R1
Запускать любую сетку, а особенно большую на CPU обычного ПК - идея довольно плохая. Оно в доступ к памяти упирается.
Ещё, если у вас DDR5 и Intel 12 gen - отключите e-cores в UEFI. p-cores поддерживают частоту 4800GHz, e-cores - только 3300, в результате когда они активны (в на Windows они активны всегда) - частота внутренней шины снижается до 3300GHz.
LM Studio самое "User Friendly" приложение. Проприетарное.
На Windows вы просто качаете инсталятор, ставите приложение, качаете через него совместимые с вашим ПК кванты модели и запускаете LLM. Всё.
- Встроенный GUI поддерживает RAG (загрузить документы в чат), но не без багов.
- Поддерживает некоторое Vision модели (Поддерживает LLaVa, не поддерживает llama 3.2-vision).
- Может быть сервером, пытается симулировать OpenAI API но функционал явно work in progress. Невозможно управлять токенизацией.
Ollama - Open Source, MIT - ставится как сервис, нет интерфейса, работает только через сеть. Делает это намного лучше чем LM Studio, но вам придётся ставить один из веб-интерфейсов (и я не смог заставить работать нормально ни один их них)
- Управление через терминал
- Поддерживает llama 3.2 vision
Формат моделей LM Studio и Ollama не совместим, к сожалению. Так что если вы хотите использовать и то и то - этак 70Gb будут лежать на диске у вас дважды.
В итоге у меня Ollama стоит, но использую я LM Studio. Оба используют llama.cpp под капотом.
Мне бы оригинальную версию запустить хотелось, не distilled. Но у меня похоже RAM не хватит, у меня её "всего" 96Gb... (И потолок для материнки - 128Gb)
0.5 tok/sec как-то медленно? Я запускал llama 3.1 70B на 100% CPU (оригинальную, когда она только вышла)
у меня после всех танцев с бубном был один токен в секунду, ровно!..
У вас DDR4 или DDR5? Проверьте частоту памяти в UEFI, у меня она по умолчанию стояла в 4000.
На CPU бутылочное горлышко не сами вычисления, а доступ к памяти. i5 12600K, считать в 2 потока, или в 12 - результат идентичный.
Они по сути сделали то, что принято в ИИ-коммунити (каким бы малым оно ни было, там всего с десяток открытых крупных игроков)
Они использовали свою и чужую открытую работу, улучшили её и отдали результат в открытое же использование. То же самое желает Meta* с их llama'ми.
Обойти же OpenAI не то чтобы трудно было, они больше финансами и прибылью увлеклись, чем научной работой.
В задачах программирования, в частности, Nemotron от nVidia (файнтюн llama 3.1 70b instruct) обходил ChatGPT, и местами даже Claude.
Вообще это всё выглядит как подготовка почвы для выдавливания конкурента. Проблема в том, что это "почва" не выдерживает даже поверхностной критики (не говоря даже о самой практике). DeepSeek просто пришли и отдали результат: "на, пользуйтесь бесплатно и без нашего участия". У них даже патентов в США нет (на данный момент).
https://www.forbes.com/sites/zakdoffman/2025/01/27/warning-deepseek-is-a-chinese-security-nightmare-come-true/
Мне нравится этот уровень лицемерия. Оно такое простое и незамутнённое. Смотришь и восхищаешься прямо как котёнком. Когда Россия требовала перевести данные от сервисов на свою территорию - сколько криков про тоталитаризм-то было...
И это всё при том, что вы можете скачать модель и запустить её локально: не делясь ни какими данными в принципе.
...надо было покупать 2 p40, а не одну :D
Если я правильно читаю - самой сжатой версии нужно 131+ Gb ram? (обычной, не видео?)
95% инструкций AI проектов выглядят так. На данный момент это территория специализированных проектов и энтузиастов, для простых решений эта область слишком молода. Они ещё не успели появиться и завоевать рынок.
Может быть. Основная проблема - это суммарная память а не быстродействие. Так же если у вас видюхи висят на PCI-E сплиттере - всё это может работать крайне медленно.
671 миллиардов параметров это 671 Гб vram, при квантовании в Q8 (1 байт на параметр)
Остальные модели - точно да, трактуйте все эти миллиарды параметров (8B, 32B) как количество гигабайт памяти которые ей нужны. Некоторые из них и на обычном ПК запустятся.
В качестве "плеера" - посмотрите на LM Studio если хочется запустить быстро и пощупать или Ollama если хотите делать что-то серьёзное.
Вообще, в случае именно с LLM, бутылочное горлышко - это скорость доступа к памяти, причём значительное. Вам нужно перелопатить этак 70Gb памяти, провести пару арифметических операций над каждым байтом.
При этом энтузиасты успешно запускают LLM на современных Маках, именно из-за того что у них оперативная память быстрая (насколько я понимаю от того, что это расшаренная память в том числе и с GPU)
В общем кажется мне NVidia лидирует только от того, что никто больше серьёзно не попытался.
"я не специалист, но мои 5 копеек"
Детали обучения мы проверить не можем, а вот скорость работы вполне - DeepSeek опубликовали модель. Кто угодно может пойти скачать саму модель и провести тесты самостоятельно:
https://huggingface.co/deepseek-ai/DeepSeek-R1
Впрочем сам R1 обычный ПК не потянет, от всё таки большеват, этак на порядок. Но всего лишь на порядок. Distill модели вполне, но это не сам DeepSeek R1, это другие опенсорсные модели тренированные на данных сгенерированных с помощью R1 и под его наблюдением.
Сколько же ChatGPT использует вычислительный мощностей вроде никто и не знает.
...но вообще всё это пахнет очередным хайпом.
Насколько я слышал, при СДВГ мозгу нужна постоянная стимуляция. Если её нет - он начинает создавать её себе сам, и вы внезапно обнаруживаете, что вместо работы "витаете в облаках", пошло 2 часа времени и ничего не сделанно.
Музыка повышает уровень фонового шума, да это по прежнему тратит "ману", но она затыкает дырку в которую иначе она бы просто вытекла. (я несколько не соглашусь с тем, что "маны меньше", её столько же, просто при СДВГ не возможно напрямую контролировать на что она тратится, и в результате тратится она на всякую фигню чаще всего)
Парадоксальным образом нужно уточнить что такое "внимание" в этом названии - способность концентрироваться на чём либо, а не желание быть в центре внимания.
Выборы в США заметили. Не заметили логической цепочки с этими событиями. Тем более что Трамп вот буквально 21г января (в день получения письма) тормознул с пол сотни указов Байдена. До этого же момента он никакой власти не имел.
Если вы указываете на все известные события, то они "начали случаться" 3 года назад. Так что почему они проснулись только сейчас - действительно не понятно.