Где-то в соцсетях Додо пиццы видел, почти прямым текстом говорилось - "да, лучше вы вообще не будете иметь возможности заказать пиццу, чем она приедет к вам позже".
Модель не знает, кто она такая. Её специально не учили отвечать на этот вопрос (по крайней мере так не делают deepseek). На сайте точно новая R1, у неё значительно отличается стиль цепочек мыслей относительно старой R1.
Не знаю как там ваш ИИ, но мой вполне пишет. Проекты маленькие и простые, от это рабочий и полноценный функционал. Надобность от человека только писать что нужно и проверять, работает ли (хотя думаю хороший агент и такое сможет). До настоящих проектов в прод ещё прям очень далеко, но писать, что прям вообще не может - неправда.
Некоммерческие лицензии сейчас встречаются всё реже и реже, а остальные ограничения не такие уж и важные. Даже mistral обратно перешли на apache 2.0. Печально, что Яндекс не следует этому хорошему тренду.
Да, это очень не очень выглядит. Для своей Pro модели они использовали в качестве базы по-настоящему опенсорный Qwen под Apache, а выложить даже свою маленькую модель под нормальной лицензией не хотят.
Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)
Если перечитаешь моё предыдущее сообщение, поймешь, что на данных OpenAI (возможно) обучали Deepseek-V3-Instruct, которая никак не относится к R1 (R1 делали с Base модели). Если ты не понимаешь, чем отличается V3-Instruct от R1, я искренне не понимаю, зачем ты написал эту статью.
Данные "выкачивали" (странный термин, будто там есть какая-то исчерпаемая бочка с информацией) для обучения Deepseek-V3-Instruct (связи с R1 никакой) и в этом нет ничего такого. Данные собираются для SFT и честно говоря особо не влияют ни на что, потому что нынче самая важная часть instruction-tuning'а это RLHF. Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя. Рекомендую лучше исследовать тему и не распространять дезинформацию, потому что это она и есть.
Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT
Всё бы хорошо, но это ложь. Это можно легко понять, если открыть статью о R1, где достаточно подробно описан процесс обучения. То, что описание процесса обучения не выдумка можно понять хотя бы потому, что его уже пару раз воспроизвели в масштабах поменьше (1, 2). Tl;dr обучающего процесса:
Собирается набор вопросов по математике, программированию, логики и прочим областям, ответы на которые можно легко верифицировать (например, автотестами для кода или ответ цифрой для математики)
Берется base model (то есть модель, которая не умеет отвечать на вопросы, а только продолжает текст, в нашем случае - Deepseek-V3-Base) и посредством rule based вознаграждений через RL учим модель отвечать правильно на вопросы (да, она учится сама, без всяких размеченых человеком/внешней моделью данных).
После этого дела у нас получается R1-Zero, её веса авторы тоже опубликовали. Незадача только в том, что после RL модель генериует нечитабельные цепочки размышлений (миксует языки и так далее). Это нам не подходит.
Через R1-Zero авторы генерируют ответы с размышлениями на набор вопросов по тем же доменам, чистят всё это дело от совсем нечитабельных штук и обучают на получившихся данных V3-Base.
После, снова обучают получившуюся модель через RL с rule based вознаграждениями. В итоге получается R1, которая отвечает чуть-чуть хуже, чем R1-Zero, но зато её размышления можно спокойно читать.
Почему в процессе обучения в теории не может быть места дистилляции из ChatGPT: o1, размышляющая модель от OpenAI, скрывает цепочки мыслей (кажется на днях перестала, но я не уверен). У Deepseek не было возможности их получить для дистиляции, а без них модель рассуждения дистиллировать невозможно. Прям вообще никак.
Они теоретически не могли дистилировать o1, потому что OpenAI скрывают цепочки мыслей (дистилировать не на чём). Эти обвинения бредовые. В статье R1 подробно рассказан алгоритм обучения - модель училась сама, без человеческой обратной связи или каких-то других данных.
У них нет шансов, скорее всего. Во-первых, уже были прецеденты, в которых кроулинг копирайченых данных был признан fair use, если использование данных было "преобразующим", например Author Guild v. Google (2013). Но вообще, это, конечно, не самый главный аргумент. Главный аргумент - Nvidia стоит уже 3 триллиона долларов, OpenAI почти 160 миллиардов, а в целом рынок ИИ оценивают в пол миллиарда долларов. Вообщем, стрелять себе по ногам и убивать эту сферу никто не будет. Все понимают, что без копирайченых данных невозможно обучить хорошую модель.
Я думаю, что он всё-таки первый человек, выбросивший на свалку вещь, ценностью почти в миллиард долларов. Но требования его глупые, да и диск на этой свалке уже скорее всего сломан и вряд-ли подлежит восстановлению.
А какова будет эффективность, если как в анекдоте, просто выбрасывать случайно половину резюме? Что-то мне подсказывает, что с таким количеством откликов разница будет невелика.
Qwen3-32B - dense модель, а не MoE. MoE - Qwen3-30B.
Говорят, что веса выложат позже.
Не обязательно покупать блек айвори, чтобы пить вкусный кофе. Достаточно базовой спешелти Бразилии или Колумбии.
Где-то в соцсетях Додо пиццы видел, почти прямым текстом говорилось - "да, лучше вы вообще не будете иметь возможности заказать пиццу, чем она приедет к вам позже".
У меня в мобильном приложении новое отображение дорог очень сильно лагает при отдалении и приближении. Прям неприятно пользоваться.
Модель не знает, кто она такая. Её специально не учили отвечать на этот вопрос (по крайней мере так не делают deepseek). На сайте точно новая R1, у неё значительно отличается стиль цепочек мыслей относительно старой R1.
Не знаю как там ваш ИИ, но мой вполне пишет. Проекты маленькие и простые, от это рабочий и полноценный функционал. Надобность от человека только писать что нужно и проверять, работает ли (хотя думаю хороший агент и такое сможет). До настоящих проектов в прод ещё прям очень далеко, но писать, что прям вообще не может - неправда.
Так это и не эспрессо, а фильтр воронка.
Некоммерческие лицензии сейчас встречаются всё реже и реже, а остальные ограничения не такие уж и важные. Даже mistral обратно перешли на apache 2.0. Печально, что Яндекс не следует этому хорошему тренду.
Да, это очень не очень выглядит. Для своей Pro модели они использовали в качестве базы по-настоящему опенсорный Qwen под Apache, а выложить даже свою маленькую модель под нормальной лицензией не хотят.
Если перечитаешь моё предыдущее сообщение, поймешь, что на данных OpenAI (возможно) обучали Deepseek-V3-Instruct, которая никак не относится к R1 (R1 делали с Base модели). Если ты не понимаешь, чем отличается V3-Instruct от R1, я искренне не понимаю, зачем ты написал эту статью.
Данные "выкачивали" (странный термин, будто там есть какая-то исчерпаемая бочка с информацией) для обучения Deepseek-V3-Instruct (связи с R1 никакой) и в этом нет ничего такого. Данные собираются для SFT и честно говоря особо не влияют ни на что, потому что нынче самая важная часть instruction-tuning'а это RLHF. Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя. Рекомендую лучше исследовать тему и не распространять дезинформацию, потому что это она и есть.
Всё бы хорошо, но это ложь. Это можно легко понять, если открыть статью о R1, где достаточно подробно описан процесс обучения. То, что описание процесса обучения не выдумка можно понять хотя бы потому, что его уже пару раз воспроизвели в масштабах поменьше (1, 2). Tl;dr обучающего процесса:
Собирается набор вопросов по математике, программированию, логики и прочим областям, ответы на которые можно легко верифицировать (например, автотестами для кода или ответ цифрой для математики)
Берется base model (то есть модель, которая не умеет отвечать на вопросы, а только продолжает текст, в нашем случае - Deepseek-V3-Base) и посредством rule based вознаграждений через RL учим модель отвечать правильно на вопросы (да, она учится сама, без всяких размеченых человеком/внешней моделью данных).
После этого дела у нас получается R1-Zero, её веса авторы тоже опубликовали. Незадача только в том, что после RL модель генериует нечитабельные цепочки размышлений (миксует языки и так далее). Это нам не подходит.
Через R1-Zero авторы генерируют ответы с размышлениями на набор вопросов по тем же доменам, чистят всё это дело от совсем нечитабельных штук и обучают на получившихся данных V3-Base.
После, снова обучают получившуюся модель через RL с rule based вознаграждениями. В итоге получается R1, которая отвечает чуть-чуть хуже, чем R1-Zero, но зато её размышления можно спокойно читать.
Почему в процессе обучения в теории не может быть места дистилляции из ChatGPT: o1, размышляющая модель от OpenAI, скрывает цепочки мыслей (кажется на днях перестала, но я не уверен). У Deepseek не было возможности их получить для дистиляции, а без них модель рассуждения дистиллировать невозможно. Прям вообще никак.
Они теоретически не могли дистилировать o1, потому что OpenAI скрывают цепочки мыслей (дистилировать не на чём). Эти обвинения бредовые. В статье R1 подробно рассказан алгоритм обучения - модель училась сама, без человеческой обратной связи или каких-то других данных.
Без шуток Nintendo очень сильно влияет на законодательство Японии.
Почти на всех (или вообще на всех) маркетплейсах это запрещено. Там не дураки сидят и трафик свой никому не отдадут.
У них нет шансов, скорее всего. Во-первых, уже были прецеденты, в которых кроулинг копирайченых данных был признан fair use, если использование данных было "преобразующим", например Author Guild v. Google (2013). Но вообще, это, конечно, не самый главный аргумент. Главный аргумент - Nvidia стоит уже 3 триллиона долларов, OpenAI почти 160 миллиардов, а в целом рынок ИИ оценивают в пол миллиарда долларов. Вообщем, стрелять себе по ногам и убивать эту сферу никто не будет. Все понимают, что без копирайченых данных невозможно обучить хорошую модель.
Я думаю, что он всё-таки первый человек, выбросивший на свалку вещь, ценностью почти в миллиард долларов. Но требования его глупые, да и диск на этой свалке уже скорее всего сломан и вряд-ли подлежит восстановлению.
Справедливости ради:
ARC Prize не скрывают (а сообщают в первых строчках отчета) то, что OpenAI обучили o3 на публичной части бенчмарка.
"Обычные" LLM, обученные на бенчмарке все равно решают задачи плохо.
Прогрон бенчмарка стоил 1,5 миллиона долларов на вычисления. Лимит, установленный ARC Prize - 10 тысяч.
А какова будет эффективность, если как в анекдоте, просто выбрасывать случайно половину резюме? Что-то мне подсказывает, что с таким количеством откликов разница будет невелика.