Так тут речь не о том, что под конкретные задачи может больше подойти какой-то другой чатбот. Чел безапелляционно заявляет, что DeepSeek барахло без каких-либо даже примеров промптов, когда это просто по факту не так и подтверждается как юзерами, так и бенчмарками.
Возвращаясь к Deepseek и Chat GPT - я сейчас для интереса параллельно ввожу запросы (оба бесплатные). Да, Deepseek хорош. Но случаев, когда я предпочел бы его ответ крайне мало. Что в коде, что в генерации каких-то текстов.
Ну я лично не нашел кейсов где бы o3-mini-low или тем более 4o-mini были лучше чем R1 в кодинге или генерации текста, но возможно на ваших кейсах так и есть или вам больше нравится стилистика GPT. Платные o1 или o3-mini-high - да, я в целом их тоже рейчу выше чем R1, хотя последним все равно пользуюсь часто несмотря на наличие подписки на GPT, т.к. иногда в токенах "рассуждения" у него что-то интересное проскакивает.
Ну да, результаты бенчмарков (в т.ч. тех, на которых нельзя переобучиться), арены и т.д., а также отзывы кучи других пользователей - это все херня. Главное что именно у вас что-то не получилось на каком-то там кейсе с каким-то там промптом и из этого следует однозначное утверждение, что модель барахло. Пик логического мышления.
Вообще говоря, это файнтюн LLaMA-3.1-405B. Будет интересно посмотреть как она выступит на livebench, aider, livecodebench и арене. Обычно по этим 4 можно уже +- судить о качестве нейронки. Всякие MMLU и HumanEval уже слишком нерепрезентативны из-за того протечки в трейн сеты.
Ну на RAM это будет мучительная история, ожидайте скорость в 1-3 токена в секунду + еще не забываем, что R1 генерит <think> токены, поэтому ответов можно по часу ждать.
Ну и бред) начнем хотя бы с того, что LLaMA это Dense модель, а DeepSeekV3 - MoE. Уже одно это принципиальное архитектурное отличие сводит все эти утверждения в ноль.
Что за QwenLM? Моделей Qwen великое множество, самые последние - Qwen 2.5, а рассуждающий вариант QwQ-32b, которая в другой весовой категории по сравнению с o1 и r1, у которых сотни миллионов параметров)
Из забавного, можно заставить её рассуждать в стиле кого-то, т.е. отыгрывать роль по рассуждении. Видел твит, где её запромптили рассуждать в стиле Джа-Джа Бинкса и Трампа.
Вы пару месяцев назад могли тестить только старую версию DeepSeek v2.5, которая сильно уступала SOTA моделям. В конце декабря вышла v3, а сейчас уже R1, которая выдает перформанс примерно на уровне o1 (med) на английском.
Так и не надо верить, есть факты в виде кучи бенчмарков. Таргетные языки у модели - английский и китайский, если на русском не очень работает, то увы, ничего не поделаешь. Он как раз от o1 на livebench сильно отстает именно в плане языков.
Лол, Gigachat и рядом с Мистралем/DeepSeek/Qwen не валялся.
DeepSeekV3 на английском мне куда больше нравится по сравнению с 4o или Gemini 1.5 Pro, но меньше Claude 3.5 Sonnet. Новый R1 по ощущениям пока где-то на уровне o1 с low compute - т.е. лучше o1-mini, но до o1 pro пока недотягивает. С учетом цены токенов, это убер мощно.
На русском DeepSeek так себе, они прямо в тех. репорте пишут что упор на английский и китайский.
4o-mini это сейчас хорошая рабочая лошадка, которая способна решать многие задачи относительно дешево.
Для чего-то простого - да, но в целом 4o-mini весьма слабенькая модель. В курсоре пользовался 4o-mini часто (т.к. на него лимиты большие), он был прямо плох, сливал в ноль тем же опенсорсным Qwen 2.5 32B-Coder или DeepSeek v2.5 Coder.
Ну и, ясное дело, ИИ команда Сбера это не монстры типа Antropic или Open AI, чтобы ожидать от них конкуренции с топовыми моделями. Весовая категория, опять же, разная
Они и с Alibaba/DeepSeek/01.ai/Mistral не могут конкурировать. Причем дело не только в вычислительных ресурсах - те же DeepSeek выкатили DeepSeekV3, которую тренили на 2048 H800 (урезанная версия H100), и она сейчас обходит многие закрытые, в том числе от OpenAI/Antropic - LiveBench.
Причем даже если ограничиваться чисто русским языком, то и тут GigaChat Max проигрывает Qwen 2.5-72b, а с файнтюном его обходит уже 32b версия.
Тут скорее речь о том, что практического смысла юзать GigaChat с текущей ценой за токены - нет. Для большой компании проще поднять опенсорсную модель - это в конечном счете выйдет дешевле и намного лучше по приватности; ну а для персонального юзкейса и так понятно.
Тут загвоздка в том, что фирма в этом случае согласно восточной этике "потеряет лицо"
Бред. По вашему карточки типа A4000-A6000 покупают исключительно "восточные" компании из-за своей этики?) Или все-таки лицензионные соглашения в некоторых частях мира это не просто бумажка и тут "потеря лица" не при чем?
Про потолок я писал именно как комментарий про 5 лет опыта. 300К-350К — это средняя для сениоров с опытом лет 8-10. За 5 лет в принципе мало кто станет сениором.
Сильно зависит от сферы. В условном ML/DL/DS для людей с опытом в ~5 лет 300-400к это вполне себе рыночная вилка зп. В финтехе вроде тоже, может даже лучше.
Так тут речь не о том, что под конкретные задачи может больше подойти какой-то другой чатбот. Чел безапелляционно заявляет, что DeepSeek барахло без каких-либо даже примеров промптов, когда это просто по факту не так и подтверждается как юзерами, так и бенчмарками.
Ну я лично не нашел кейсов где бы o3-mini-low или тем более 4o-mini были лучше чем R1 в кодинге или генерации текста, но возможно на ваших кейсах так и есть или вам больше нравится стилистика GPT. Платные o1 или o3-mini-high - да, я в целом их тоже рейчу выше чем R1, хотя последним все равно пользуюсь часто несмотря на наличие подписки на GPT, т.к. иногда в токенах "рассуждения" у него что-то интересное проскакивает.
Ну да, результаты бенчмарков (в т.ч. тех, на которых нельзя переобучиться), арены и т.д., а также отзывы кучи других пользователей - это все херня. Главное что именно у вас что-то не получилось на каком-то там кейсе с каким-то там промптом и из этого следует однозначное утверждение, что модель барахло. Пик логического мышления.
В бесплатной доступен только low режим.
Вообще говоря, это файнтюн LLaMA-3.1-405B. Будет интересно посмотреть как она выступит на livebench, aider, livecodebench и арене. Обычно по этим 4 можно уже +- судить о качестве нейронки. Всякие MMLU и HumanEval уже слишком нерепрезентативны из-за того протечки в трейн сеты.
Для этого их надо штуки эдак 24 - 21 чтобы модель поместилась + еще 3 чтобы контекст какой-никакой влез :)
Ну на RAM это будет мучительная история, ожидайте скорость в 1-3 токена в секунду + еще не забываем, что R1 генерит <think> токены, поэтому ответов можно по часу ждать.
Все верно, даже при пустом контексте будет скорость в 1-2 токена в секунду.
Ну и бред) начнем хотя бы с того, что LLaMA это Dense модель, а DeepSeekV3 - MoE. Уже одно это принципиальное архитектурное отличие сводит все эти утверждения в ноль.
У DeepSeek R1 нет мультимодальности.
Что за QwenLM? Моделей Qwen великое множество, самые последние - Qwen 2.5, а рассуждающий вариант QwQ-32b, которая в другой весовой категории по сравнению с o1 и r1, у которых сотни миллионов параметров)
Из забавного, можно заставить её рассуждать в стиле кого-то, т.е. отыгрывать роль по рассуждении. Видел твит, где её запромптили рассуждать в стиле Джа-Джа Бинкса и Трампа.
Вы пару месяцев назад могли тестить только старую версию DeepSeek v2.5, которая сильно уступала SOTA моделям. В конце декабря вышла v3, а сейчас уже R1, которая выдает перформанс примерно на уровне o1 (med) на английском.
По-моему вы юзали V3, а не R1, судя по отсутствию "think". У меня R1 все верно выдал.
Скрытый текст
Из приколов - по референсам любит ссылаться на китайские сайты.
Так и не надо верить, есть факты в виде кучи бенчмарков. Таргетные языки у модели - английский и китайский, если на русском не очень работает, то увы, ничего не поделаешь. Он как раз от o1 на livebench сильно отстает именно в плане языков.
Лол, Gigachat и рядом с Мистралем/DeepSeek/Qwen не валялся.
DeepSeekV3 на английском мне куда больше нравится по сравнению с 4o или Gemini 1.5 Pro, но меньше Claude 3.5 Sonnet. Новый R1 по ощущениям пока где-то на уровне o1 с low compute - т.е. лучше o1-mini, но до o1 pro пока недотягивает. С учетом цены токенов, это убер мощно.
На русском DeepSeek так себе, они прямо в тех. репорте пишут что упор на английский и китайский.
Для чего-то простого - да, но в целом 4o-mini весьма слабенькая модель. В курсоре пользовался 4o-mini часто (т.к. на него лимиты большие), он был прямо плох, сливал в ноль тем же опенсорсным Qwen 2.5 32B-Coder или DeepSeek v2.5 Coder.
Они и с Alibaba/DeepSeek/01.ai/Mistral не могут конкурировать. Причем дело не только в вычислительных ресурсах - те же DeepSeek выкатили DeepSeekV3, которую тренили на 2048 H800 (урезанная версия H100), и она сейчас обходит многие закрытые, в том числе от OpenAI/Antropic - LiveBench.
Причем даже если ограничиваться чисто русским языком, то и тут GigaChat Max проигрывает Qwen 2.5-72b, а с файнтюном его обходит уже 32b версия.
Тут скорее речь о том, что практического смысла юзать GigaChat с текущей ценой за токены - нет. Для большой компании проще поднять опенсорсную модель - это в конечном счете выйдет дешевле и намного лучше по приватности; ну а для персонального юзкейса и так понятно.
DeepThink включает другую модель - как раз DeepSeek-R1-Lite-Preview с CoT обучением аля o1.
Все еще проще - модель себя ничем не считает.
Бред. По вашему карточки типа A4000-A6000 покупают исключительно "восточные" компании из-за своей этики?) Или все-таки лицензионные соглашения в некоторых частях мира это не просто бумажка и тут "потеря лица" не при чем?
Сильно зависит от сферы. В условном ML/DL/DS для людей с опытом в ~5 лет 300-400к это вполне себе рыночная вилка зп. В финтехе вроде тоже, может даже лучше.