Как стать автором
Обновить

Комментарии 41

DeepSeek остаётся тем самым выбором, который оправдывает себя, когда ошибаться нельзя

Когда ошибаться нельзя - никакая ИИ не подходит. Не доросли ИИ ещё до этого.

Как и люди.

А чего как однобоко? Кроме дип сика полно же еще (более) мощных моделей Claude 3.7, Grok 3, GPT o3, Gemini Flash Thinking 2.0. Но нет - статья требует дип сик, и баста.

Ну, во-первых открытые модели по стоимости эксплуатации кардинально отличаются от облачных SOTA моделей. Во-вторых в России в качестве заказчиков чаще всего выступает или крупный бизнес или гос структуры которые не могут или не хотят использовать западные облака

И подобных областей много: автопилоты автомобилей, финансовые прогнозы, управление инфраструктурой.

Там LLM используется, серьёзно? Такое ощущение, что статью сам DeepSeek написал. Промпт (я не старался) :

Напиши длинную статью, где ты доказываешь, что ошибаешься меньше Qwen, ссылайся на самые труднопроверяемые и не интересные области, добавь несколько несвязных фактов про ИИ и дополни несколькими абзацами о том, что ошибки могут быть очень опасными в обществе, поэтому тебя нужно ценить выше.

Грань между языковыми моделями и мультимодальными - довольно тонкая. ИИ мне конечно помогал в написании статьи, но в процессе написания были использованы множество ИИ инструментов, множество запросов и мое активное участие. Попробовал ради интереса вбить в DeepSeek предложенный Вами запрос, результат мне понравился еще меньше, чем Вам моя статья :)

Грань между языковыми моделями и мультимодальными - довольно тонкая

Сяду-ка я в теслу, да попрошу её мультмодальную модель autopilot мне по дороге всех котиков замеченных в пути в короткие аудиорассказы о их жизни перевести. Зачем для финансовых прогнозов сверточные сети, они же хоть иногда работают, проще просто через LLM наболтать о темпах роста спада отрицательной динамики, а уж инфраструктурой управлять так точно буду не экспертными моделями, а дождусь AGI.

Уж извините. И неловко вроде, Вы без сарказма ответили, но боюсь, что надо, по крайней мере, чуть побольше вопросов LLM ИИ задавать.

Вы когда пишете про «демонстрирует высочайшую надёжность и точность», вы это осознанно делаете? То есть это не реклама дипсик, не реклама телеги, а ваша уверенность?

Имеется ввиду высочайшую из открытых моделей - это сравнительная характеристика, а не абсолютная

Нейросети это не про точность а про вероятности. Точность конечно может повышаться, но всегда можно будет найти темы где будут ошибки. Повышать количество параметров можно бесконечно и все-равно это не будет гарантией.

Мне кажется нормальное и разумное решение этой проблемы - подключение и использование внешних источников. Например онлайн поиск, для добавления его результатов в контекст решаемой задачи. Также это могут быть специализированные справочники.

Не про "вероятности", а про "степени доверия", всё же.
Но вообще-то, конечно, предполагать, что нейросеть на 30 млрд параметрах будет столь же хорошо помнить содержание какой-то придуманной истории, чем сеть на 600 млрд параметрах при том, что её никто специально не собирался учить этой истории, было бы странно.
А давайте ещё на примере "Унесенных ветром" вопросы позадаем. Или по какому-нибудь "Конану варвару".

Это же культовые произведения, их совсем не много и стыдно не знать.

Культовые? Серьёзно?

Где в космосе сражаются со звуками "Пиу-пиу!"? В вакууме?

"Звёздные воины" - это говнище, символ деградации т.н. "Запада" - отхода от технического прогресса в сторону маркетинга (фантазии).

Переход от научной фантастики к фэнтэзи

Можно по разному относиться к звёздным войнам, но сложно по разному относиться к утверждению что это произведение культовое

Это пиу пиу в космосе в своё время видели примерно все, и подавляющему большинству это даже понравилось и запомнилось, оставило большой след в культуре.

Мелкие нейросети действительно меньше знают, и больше фантазируют о том о чем не знают, видели бы вы какой бред пишет qwq32b про сюжет книги Незнайка на луне.

Но зато qwq32b намного лучше отвечает на простые вопросы где старые гиганские нейросети садятся в лужу (сколько букв r в слове strawberry итп тупняк).

Прогресс очень большой и быстрый. Год назад на обычный вопрос по математике все топы отвечали по разному, никто считать не умел, теперь все отвечают одинаково - научились.

В некоторых направлениях прогресса почти нет, ответы по картинкам например хорошо работают у чатгпт и джемини (и клода), у всех остальных заметно хуже и прогресса почти нет ни у кого.

TTS почему то жутко дорогой, дороже чем живые люди, и при этом заметно чаще чем люди путает ударения и разворачивает сокращения, и похоже нет прогресса.

Хочется отметить, что mistral-small на 24b параметров и то лучше отвечает чем qwq. Прошу еще ее попробовать.

Глупость какая-то. Смысл специализированных сетей как раз в том и состоит, что они могут эффективно решать задачи из узкого класса, и не могут - задачи, выходящие за пределы этого класса. Благодаря чему и получается экономия.
Если вам нужен дворник, то вас интересуют его навыки работы с метлой и совершенно не интересуют навыки игры на губной гармошке или умение танцевать гопак. Более того - эти лишние навыки вредны, если вдруг дворник захочет за них получить надбавку к зп.

Собственно, сама дипсик р1 - это МоЕ модель, и при генерации каждого конкретного токена активно не более 37б параметров. Так что вполне логично, что на некотором узком классе задач специализированная модель сравнимого размера будет давать сравнимый перформанс.

Когда модель, свободно запускающаяся на 24 ГБ памяти

Простите, а как вы QwQ 32b запустите всего на 24 Гб? Или речь о квантизированных версиях? Но тогда это уже другое качество и сравнивать некорректно.

Почему, даже для задач программирования достаточно и q6.

Тогда что и с чем сравнивается вообще в данной статье? Речь про QwQ 32b без всяких квантизаций в сравнении с deepseek. Но QwQ 32b вы никак не запустите на 24 Гб!

В сравнении я использовал FP16, он и на 2 видеокарты не поместится. Q4 выдавал ответы куда веселее. Когда люди рассуждают о том что "зачем платить больше когда есть Xiaomi" они обычно не вникают не только в квантизацию модели, но и в размер контекста, не говоря уже о квантизации контекста. Помню читал недавно в уважаемой прессе, что DeepSeek, который не уступает o1 можно запустить на старом ноутбуке (имелась ввиду модель 1.5B). Когда я писал о возможности запустить на одной видеокарте, я имел ввиду в первую очередь восприятие обывателей.

Кому как. На моих задачах я ничего ниже Claude 3.7 предпочитаю не использовать и то потому, что это сейчас максимум. Выйдет что-то лучше, перейду.

Какая "абсолютная точность"? Этот дипсик, да и все другие модели врут постоянно и не краснеют. Тыкаешь их мордой в ошибки, они такие: да, вы совершенно правы, мой косяк, и опять лажают :)

А DeepSeek-R1-Distill-Qwen-32B как? Сравнима с R1?

Еще хуже чем QwQ, хотя до выхода QwQ это был (и сейчас остается) очень достойный вариант, просто в другой весовой категории.

Мне кажется по одному примеру еще более странно делать выводы про общее качество модели, тем более, что QwQ позицинируется как сильный компактный ризонер для решения задач по математике/логике/коду, требующих цепочек рассуждений. Никто и не обещал, что модель будет состязаться с DeepSeek-R1 в world knowledge, storytelling.

Полагаю, что в задачах, где требуется знание фактов, размер более принципиален, чем в построении логических цепочек.

А общий посыл статье верен - каждую модель надо оценивать соответственно целевому применению, и академические бенчмарки не очень показательны.

Еще пара примечаний по поводу памяти, требуемой для запуска моделей:

  • DeepSeek-R1 залит в специфичном fp8 формате и на картах более нового поколения (от Hopper/Lovelace) будет требовать ~650 Гигов

  • QwQ в половинной точности будет весить в районе 64 гигов VRAM, что далеко не пользовательский ПК. Но 4-битной квантизацией можно гонять на 3090 c не очень длинным контекстом.

Да, возможно стоило более четко проговорить, что для логических рассуждений не требующих специальных знаний QwQ все еще показывает блестящие результаты

Уважаемый автор. Для чего вам нужен ИИ. Как вы его используете?

Помимо кодинга, исследований, и других вещей, встраиваю его в бизнес процессы. А что?

Да, был тест q4 70b ollama 3.2 против такой же ламы q4 но 8b - разница заметна в пользу первой. Даже если я дам q8 или int16, все равно q4 70b выглядит более аккуратно что-ли, это как настройка полигонов в играх :)

Грустно улыбнуло про 5% ошибки ИИ в медицине … С «мясными докторами» сравнили, с их «безошибочностью» и профессионализмом ?

Серьезно, делать вывод по одному вопросу? Я не сторонник квен, но статьей в качестве аргумента против нее делиться не стану - легко разнесут.

Неубедительно на 1 примере. Вода.

Это не один вопрос, это иллюстрация. Есть исследования о том что маленькие модели хуже всего вывозят рассуждения о вымышленных вселенных - так как они лучше всего выявляют их недостатки, потеря производительности порядка 80%

Интересно, какая "температура" у квена? Вроде бы от неё зависит креативность модели с придумыванием дополнительных сведений и точность ответов... Или другие параметры отвечающие за стандартизацию ответов?

Ведь то что он добавляет несуществующие вещи как раз и намекает на эти настройки.

0.7 - по умолчанию. 0 сильно не улучшит и он в целом сильно ограничивает сценарии использования модели

Наверно все таки стоит тестировать на рекомендованных параметрах.

Usage Guidelines

To achieve optimal performance, we recommend the following settings:

  • Sampling Parameters:

    • Use Temperature=0.6, TopP=0.95, MinP=0 instead of Greedy decoding to avoid endless repetitions.

    • Use TopK between 20 and 40 to filter out rare token occurrences while maintaining the diversity of the generated output.

    • For supported frameworks, you can adjust the presence_penalty parameter between 0 and 2 to reduce endless repetitions. However, using a higher value may result in occasional language mixing and a slight decrease in performance.

Гм, вот автор пишет, что обычные тесты модель может "запоминать" и "подстраиваться"... А чем тест из вселенной ЗВ лучше? Только тем, что история длиннее и персонажей больше? Так тогда очевидно, почему 670 миллиардов побеждает 32. Тогда уж надо придумать свои собственные истории, которые гарантировано не входили в обучающую выборку. Дать их в промте и потом задавать вопросы по ним. Вот это будет настоящий тест. Только проблема в том, что как только вы один раз так сделаете и если ваш тест станет хоть сколько-нибудь популярным и важным, создатели llm тут же всунут его в обучающую выборку. Подобного рода действия с их стороны вообще говоря являются жульничеством. Но чего не сделаешь для привлечения инвестиций и внимания публики. Впрочем описанная методика все еще годиться, пока вам нужно оценить llm приватно, без публикации самих вопросов теста. Интересно, по каким базам и тестам оценивают свои модели сами создатели? Очень сомневаюсь, что эти данные в открытом доступе...

Странноватая аналитика. Кажется очевидным, что модель в 20 раз больше - может хранить внутри себя больше данных. Однако есть иные способы управлять фактами - векторные базы знаний например. Я думаю QWQ с подгружаемым лором звездных войн вполне вероятно уделает DeepSeek без оного.

Сравнивать надо способности к ризонингу а не наполненность весов знаниями. Кажется в современных условиях базы знаний обойдутся дешевле, и тащить это все в веса не лучший вариант (если альтернатива будет сопоставима по качеству).

Плюсую. Тут ещё стоит заметить, что QwQ поддерживает вызов функций (tool calling). А значит, можно создавать агентов, удобно работать с базами знаний, с поиском в Интернете — и всё это на reasoning-модели.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории