Pull to refresh

Comments 31

Да, одновременно 2 посыла:

  1. ИИ в массы, дешевая нейросеть, которую можно поднять дома на видеокарте

  2. Теперь видеокарты никому не нужны

Вызывали определённый когнитивный диссонанс :)

Уточнишь про места, где такое впечатление вышло? Я не часто пишу такие большие статьи, так что буду понемногу качать скилл :)

Так это посыл от мировых СМИ такой. Они почему-то решили, что AGI достигнут, и больше никому не нужны дорогие GPU...

К сожалению не хватает кармы поставить плюс, но за объяснение спасибо (и за котов и за доходчивое про дистиллят). Единственное, не понятно, каким образом обучаются на других моделях, откуда берут вопросы: генерируют или переадресовывают вопросы от пользователей (поэтому и сделали модель открытой, чтобы было больше пользователи с разносторонними запросами и поэтому такая большая задержка в ответе у deepseek)?

Первые часто делают свой "прокси" до чужих моделей, накапливая в себе все коммуникации, а далее уже обучают у себя с учетом накопленных данных

Вторые как раз таки собирают пул тем и по API их выгружают, а потом уже учат свои модели на сгенерированных как раз :)

Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT

Ну, если это так, то китайцы первые, которым удалось вывести дистиллят на уровень учителя, да ещё и в широком диапазоне данных. Кстати, кто-нибудь подумал, что это один шаг до сильного ИИ? До сих пор считалось, что нейросеть на синтетике не особо потренируешь, она заглючит. А теперь привет, кожаные мешки.

Да! И это супер круто, то есть я никак не планирую умаливать их достижения, это действтиельно невероятно круто реализовано, просто хотел донести мысль, что они не стали формировать свой датасет осбственно ручно, а фактически генерили его

Первыми это сделали в Стэндфортском университете аж в марте 2023 года, выпустив Alpaca.

Ну так то просто эксперимент был, проверка самого концепта. До них никто и не думал, что синтетика вообще даст результат.

ChatGPT использовался для проверки качества, а DeepSeek это десяток моделей в разных областях сведенных к урезанной DeepSeek-r1 , если бы был дистиллят сразу из ChatGPT получилась бы одна нейросеть, вывод у DeepSeek есть что то более мощное не для всех, что требует не 2000, а 10000 gpu, что не каждый углядел, вот этого и боится Альтман, что при отсутствии сопоставимых серверов они выложат в открытый доступ нечто более мощное.

Тоже сразу подумал, что у DeepSeek есть что то более мощное не для всех, раз они выложили DeepSeek-r1 в свободный доступ. Но зачем им выкладывать это более мощное в открытый доступ?

И вот теперь самый важный момент — они сделали всё open source. Буквально всё: и саму модель, и механику обучения, и все идеи опубликовали на своей странице Hugging Face.

Кроме датасетов ;)

Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT

Всё бы хорошо, но это ложь. Это можно легко понять, если открыть статью о R1, где достаточно подробно описан процесс обучения. То, что описание процесса обучения не выдумка можно понять хотя бы потому, что его уже пару раз воспроизвели в масштабах поменьше (1, 2). Tl;dr обучающего процесса:

  1. Собирается набор вопросов по математике, программированию, логики и прочим областям, ответы на которые можно легко верифицировать (например, автотестами для кода или ответ цифрой для математики)

  2. Берется base model (то есть модель, которая не умеет отвечать на вопросы, а только продолжает текст, в нашем случае - Deepseek-V3-Base) и посредством rule based вознаграждений через RL учим модель отвечать правильно на вопросы (да, она учится сама, без всяких размеченых человеком/внешней моделью данных).

  3. После этого дела у нас получается R1-Zero, её веса авторы тоже опубликовали. Незадача только в том, что после RL модель генериует нечитабельные цепочки размышлений (миксует языки и так далее). Это нам не подходит.

  4. Через R1-Zero авторы генерируют ответы с размышлениями на набор вопросов по тем же доменам, чистят всё это дело от совсем нечитабельных штук и обучают на получившихся данных V3-Base.

  5. После, снова обучают получившуюся модель через RL с rule based вознаграждениями. В итоге получается R1, которая отвечает чуть-чуть хуже, чем R1-Zero, но зато её размышления можно спокойно читать.

Почему в процессе обучения в теории не может быть места дистилляции из ChatGPT: o1, размышляющая модель от OpenAI, скрывает цепочки мыслей (кажется на днях перестала, но я не уверен). У Deepseek не было возможности их получить для дистиляции, а без них модель рассуждения дистиллировать невозможно. Прям вообще никак.

Сама механика обучения, сами процедуры и так далее, действительно были разработаны, однако "мыслительный" процесс не совсем относится к дистиляции

Не совсем могу согласится, так как это была одна из крупных причин, почему началось активное давление на DeepSeek, когда ребята из OpenAI начали активно трубить, что у них по API были большие выкачки данных, просто юридически - это не запрещено, что и не привело к продолжению

Можно много спорить на тему способа обучения, но дата сет собран в том числе на базе выкачки из ChatGPT - https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data

Данные "выкачивали" (странный термин, будто там есть какая-то исчерпаемая бочка с информацией) для обучения Deepseek-V3-Instruct (связи с R1 никакой) и в этом нет ничего такого. Данные собираются для SFT и честно говоря особо не влияют ни на что, потому что нынче самая важная часть instruction-tuning'а это RLHF. Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя. Рекомендую лучше исследовать тему и не распространять дезинформацию, потому что это она и есть.

и в этом нет ничего такого

Да, я и не говорил, что это плохо :)

выкачивали

Да, хорошо, формировали гигантский пул дата сета, чтобы на нем обучать :)

Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя


Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)

Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)

Если перечитаешь моё предыдущее сообщение, поймешь, что на данных OpenAI (возможно) обучали Deepseek-V3-Instruct, которая никак не относится к R1 (R1 делали с Base модели). Если ты не понимаешь, чем отличается V3-Instruct от R1, я искренне не понимаю, зачем ты написал эту статью.

Претензии по дистилляции относятся к нерассуждающей модели DeepSeek-V3. А на четвёртом шаге в вашем списке к данным, сгенерированным R1-Zero, добавляют также SFT, который содержит в том числе данные, использовавшиеся для DeepSeek-V3:

... we adopt the DeepSeek-V3 pipeline and reuse portions of the SFT dataset of DeepSeek-V3.

В итоге этот дистиллят перетёк из DeepSeek-V3 в DeepSeek-R1.

Да, команда DeepSeek проделала колоссальную работу. Да, им удалось сделать это значительно дешевле, чем традиционным путем. Но обвал акций технологических гигантов на десятки процентов? Давайте будем честны — это явный перебор.

Мне кажется, это не столько заслуга DeepSeek, сколько чересчур завышенные ожидания рынка от OpenAI и Nvidia. Ожидания, что никто не может и близко создавать подобные модели. В результате всего лишь намека от DeepSeek, что потенциально это возможно, вызвало панику.

Еще летом, если верно помню, были интересные посты на тему, что OpenAI фиксировали какое-то гигантское число запросов. Так вот, это и была дистилляция, как в итоге уже выяснилось, что уже привело к блокировке в некоторых странах приложения DeepSeek.

Дистилляция и обучение на синтетических данных это разные вещи. Для дистилляции необходимо обучатся не на тексте от другой модели, а на самом вероятностном распределении следующего токена старшей модели. Сомневаюсь, что такие данные можно получить через API.

ИМХО Дипсик порвал всех не как нейросеть, а именно как поисковый движок нового поколения. Когда включаешь вебсерч и ризонинг, то результаты поиска получаются просто бомбические. И это не 3-7 ссылок как у конкурентов, он выгребает по 40-50 страниц из довольно качественного индекса и тщательно их пережевывает перед тем как дать ответ. Вот это реально разрыв, совершенно новый пользовательский опыт. Перплексити просто курит в слезах на обочине.

Sign up to leave a comment.

Articles