Как стать автором
Обновить

Комментарии 26

Но не топ

Можно примеры с пояснениями, почему ответ конкурента лучше?

Задавал задачу

Чтение файла Excel с учётом поворота текста и генерация html таблицы с учётом этого. Rust+ python

Есть подвох что отсутствуют rust библиотеки позволяющие читать поворот текста. Ну вот такие молодые библиотеки.

Gpt 4.5 сразу это понял и предложил поворот читать питоном. Но потом понадобилось 8 подсказок до хорошего решения: сначала предложил всё написать на питоне, что медленно, потом читать только поворот или только стили и кидать их в файл, что тоже медленно, потом через входные параметры командной строки, потом сказал: хочешь быстро - давай вручную парсить XML которые внутри Excel (а это раз в 5 больше кода) и только после моего вмешательства написал на PyO3 https://github.com/PyO3/pyo3

Итого: он сразу написал рабочее решение, только медленное.

Deepseek v3 март и Grok начали с тяжёлых глюков. Deepseek соврал что такие функции есть в библиотеке rust, Grok сообразил, но интеграцию написал совсем криво. Понадобилось 10 итераций (старался напрямую не подсказывать) до разумного решения

Тяжёлые глюки = правдоподобно, но потратишь много своего времени пока поймёшь что это не лечится.

Возможно, на hf что-то новое, но на сайте работает старая:

На сайте новая версия, смысла спрашивать новая она или нет у самой модели ровно ноль. Она этого попросту не знает.

не осознает себя ещё

Осознаёт. Но там дистиллят. Полную версию только через API за деньги. Или ищите на lmarena.ai и тому подобных экспериментальных сайтах

На chat.deepseek,com работает существенно иная модель, нежели через platform.deepseek.com?

Да

И тому 3 довода, хоть каждый и не 100% факт

  1. Он мне сам так сказал )

  2. Апи платная, чат бесплатный. Deepseek ничего не говорила про это, но Open AI говорила, можно поискать.

  3. По качеству ответов

Жаль, что не говорят, что там на самом деле. Получается, что все эти тесты и сравнения к чату в браузере имеют слабое отношение.

Другие (которыми я пользуюсь) вроде честно указывают используемые модели, просто сильно ограничивают использование дорогих, а не тихо подсовывают вместо них нечто урезанное.

В целом очень похоже на правду. В браузере качество написания кода меня не восхитило, а вот через API я вполне с удовольствием пользуюсь. Похуже Sonnet 3.7, конечно, но за в разы меньшую цену очень даже устраивает.

Это уже какая-то теория заговоров, где аргумент "модель мне сама сказала, что она не новая".

Deepseek в новостях писали, что чтобы включить новую V3, надо отжать кнопку DeepThink, а это возможно только в chat.deepseek.com.
Дистиллятов V3 вообще не существует, как и не существует каких-то урезанных версий V3. Разница с platform в настройках системного промпта и температуры. По умолчанию в api температура 1.0, софт для кода сам будет, скорее всего, устанавливать её в 0.0, в chat не известно какая.

На chat.deepseek.com новая V3, она может написать стих с правильной рифмой:

Напиши стих с рифмой АБАБ. Проверь чтобы рифма была правильная. Продолжай подбирать рифму, пока она не будет верна.
Напиши стих с рифмой АБАБ. Проверь чтобы рифма была правильная. Продолжай подбирать рифму, пока она не будет верна.

С этим не справлялась старая V3 и не справляются дистилляты R1 (только оригинальная R1):

R1 Distill Llama 70B
R1 Distill Llama 70B

В коде тоже достаточно отличий, в новой V3 код лучше оформлен, лучше выполняет задачу, результат выглядит лучше:

Новый V3 против старого V3
Новый V3 против старого V3

Только что вышедший дипсик я еще не гонял. Вполне возможно, что действительно еще лучше стал.

Про разницу в температурах - хорошая мысль, спасибо!

Интересно, что теперь через API ей можно отправлять изображение. Но вот распознавать текст на изображении она не хочет.

А в чем суть претензий, что модель обучалась на других моделях? Это не комильфо или есть какая-то законодательная база для этого?

Как бы нечестно (по мнению американцев), плюс юридические последствия тоже могут быть (нарушение правил использования, будут пять лет в судах обсуждать потенциальный ущерб)

Грустно от того как трясёт "некоммерческую" организацию которая своей целью ставила доступный ИИ в каждый дом как когда-то интернет. Трёх лет хватило чтобы от бабла напрочь снесло крышу и все высокие цели отошли на последний план.

Модель от DeepSeek - около 700GB, так что запустить на своём компьютере непросто.

Bartowsky сейчас заливает кванты на эту модель: https://huggingface.co/bartowski/deepseek-ai_DeepSeek-V3-0324-GGUF

Ребята из Unsloth работают над продвинутой квантизацией: https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF

Все эти кванты - продолжают пока заливать... Интересно будет сравнить их размеры и качество...

Нужно все 700 грузить в GPU mem?

Если без квантизации - то нужно грузить все 700.

В GPU или в RAM - куда есть туда и грузить. Понятно, что GPU работает раз в 10 быстрее, но у кого есть столько?

Когда вышла прошлая версия DeepSeek V3, то народ запускал инференцию даже с SSD дисков... Скорость конечно была очень медленная, но в принципе - можно...

Я прошлую версию (q4_K_M 400GB) запускал в памяти DDR4-2666 - получалось около 2 токена в секунду.

Сейчас выпустят продвинутые кванты, и я себе поставил 72GB VRAM, то думаю получится нормальной скорости достичь...

Unsloth написали блог про то, как запустить модель с "умными" квантами:

https://docs.unsloth.ai/basics/tutorial-how-to-run-deepseek-v3-0324-locally

Квантированные весят в разы меньше, и есть способ использовать гибридные способы загрузки.

А дистилляты уже сделали? Что лучше для домашней машины, запускать сильно квантованный оригинал или дистиллят с квантизацией повыше? По прошлому опыту как будто бы дистилляты по соотношению объем/качество выигрывали.

В начале года пробовал этот DeepSeek и не впечатлился. Явно хуже был, чем ChatGPT и Grok.

Что-то он все такой же, даже не sonnet 3.5. На доку кладет, на инструкции кладет, пишу ему ты сделал неправильную авторизацию, сделай как в доке (я же вижу что дока в контексте, 40к забито) а он просто берет и выпиливает авторизацию =\

Почему такие результаты в бэнчах? На маленьких задачах тестят?

Потому что вы приспособились к сонет. Там ведь чудес нет. Если в тестах лучше значит лучше. Но в боевых условиях ещё оператор решает. Как он к этим локальным минимумам сети приспосабливается.

Что-то мне Qwen больше понравился после дипсика. Особенно что первый умеет еще генерить фото, понимает, что на фото и на видео. Плюсом имеет несколько разных моделей

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости