Комментарии 31
Объяснение "на котах" самое классное и доходчивое.
Да, одновременно 2 посыла:
ИИ в массы, дешевая нейросеть, которую можно поднять дома на видеокарте
Теперь видеокарты никому не нужны
Вызывали определённый когнитивный диссонанс :)
К сожалению не хватает кармы поставить плюс, но за объяснение спасибо (и за котов и за доходчивое про дистиллят). Единственное, не понятно, каким образом обучаются на других моделях, откуда берут вопросы: генерируют или переадресовывают вопросы от пользователей (поэтому и сделали модель открытой, чтобы было больше пользователи с разносторонними запросами и поэтому такая большая задержка в ответе у deepseek)?
Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT
Ну, если это так, то китайцы первые, которым удалось вывести дистиллят на уровень учителя, да ещё и в широком диапазоне данных. Кстати, кто-нибудь подумал, что это один шаг до сильного ИИ? До сих пор считалось, что нейросеть на синтетике не особо потренируешь, она заглючит. А теперь привет, кожаные мешки.
Да! И это супер круто, то есть я никак не планирую умаливать их достижения, это действтиельно невероятно круто реализовано, просто хотел донести мысль, что они не стали формировать свой датасет осбственно ручно, а фактически генерили его
Первыми это сделали в Стэндфортском университете аж в марте 2023 года, выпустив Alpaca.
ChatGPT использовался для проверки качества, а DeepSeek это десяток моделей в разных областях сведенных к урезанной DeepSeek-r1 , если бы был дистиллят сразу из ChatGPT получилась бы одна нейросеть, вывод у DeepSeek есть что то более мощное не для всех, что требует не 2000, а 10000 gpu, что не каждый углядел, вот этого и боится Альтман, что при отсутствии сопоставимых серверов они выложат в открытый доступ нечто более мощное.
И вот теперь самый важный момент — они сделали всё open source. Буквально всё: и саму модель, и механику обучения, и все идеи опубликовали на своей странице Hugging Face.
Кроме датасетов ;)
Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT
Всё бы хорошо, но это ложь. Это можно легко понять, если открыть статью о R1, где достаточно подробно описан процесс обучения. То, что описание процесса обучения не выдумка можно понять хотя бы потому, что его уже пару раз воспроизвели в масштабах поменьше (1, 2). Tl;dr обучающего процесса:
Собирается набор вопросов по математике, программированию, логики и прочим областям, ответы на которые можно легко верифицировать (например, автотестами для кода или ответ цифрой для математики)
Берется base model (то есть модель, которая не умеет отвечать на вопросы, а только продолжает текст, в нашем случае - Deepseek-V3-Base) и посредством rule based вознаграждений через RL учим модель отвечать правильно на вопросы (да, она учится сама, без всяких размеченых человеком/внешней моделью данных).
После этого дела у нас получается R1-Zero, её веса авторы тоже опубликовали. Незадача только в том, что после RL модель генериует нечитабельные цепочки размышлений (миксует языки и так далее). Это нам не подходит.
Через R1-Zero авторы генерируют ответы с размышлениями на набор вопросов по тем же доменам, чистят всё это дело от совсем нечитабельных штук и обучают на получившихся данных V3-Base.
После, снова обучают получившуюся модель через RL с rule based вознаграждениями. В итоге получается R1, которая отвечает чуть-чуть хуже, чем R1-Zero, но зато её размышления можно спокойно читать.
Почему в процессе обучения в теории не может быть места дистилляции из ChatGPT: o1, размышляющая модель от OpenAI, скрывает цепочки мыслей (кажется на днях перестала, но я не уверен). У Deepseek не было возможности их получить для дистиляции, а без них модель рассуждения дистиллировать невозможно. Прям вообще никак.
Сама механика обучения, сами процедуры и так далее, действительно были разработаны, однако "мыслительный" процесс не совсем относится к дистиляции
Не совсем могу согласится, так как это была одна из крупных причин, почему началось активное давление на DeepSeek, когда ребята из OpenAI начали активно трубить, что у них по API были большие выкачки данных, просто юридически - это не запрещено, что и не привело к продолжению
Можно много спорить на тему способа обучения, но дата сет собран в том числе на базе выкачки из ChatGPT - https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data
Данные "выкачивали" (странный термин, будто там есть какая-то исчерпаемая бочка с информацией) для обучения Deepseek-V3-Instruct (связи с R1 никакой) и в этом нет ничего такого. Данные собираются для SFT и честно говоря особо не влияют ни на что, потому что нынче самая важная часть instruction-tuning'а это RLHF. Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя. Рекомендую лучше исследовать тему и не распространять дезинформацию, потому что это она и есть.
и в этом нет ничего такого
Да, я и не говорил, что это плохо :)
выкачивали
Да, хорошо, формировали гигантский пул дата сета, чтобы на нем обучать :)
Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя
Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)
Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)
Если перечитаешь моё предыдущее сообщение, поймешь, что на данных OpenAI (возможно) обучали Deepseek-V3-Instruct, которая никак не относится к R1 (R1 делали с Base модели). Если ты не понимаешь, чем отличается V3-Instruct от R1, я искренне не понимаю, зачем ты написал эту статью.
Претензии по дистилляции относятся к нерассуждающей модели DeepSeek-V3. А на четвёртом шаге в вашем списке к данным, сгенерированным R1-Zero, добавляют также SFT, который содержит в том числе данные, использовавшиеся для DeepSeek-V3:
... we adopt the DeepSeek-V3 pipeline and reuse portions of the SFT dataset of DeepSeek-V3.
В итоге этот дистиллят перетёк из DeepSeek-V3 в DeepSeek-R1.
обвал акций технологических гигантов на десятки процентов? Давайте будем честны — это явный перебор.
Это не столько достижение DeepSeek, сколько «достижение» спекулянтов, игравших в горячую картошку последние два года.
Да, команда DeepSeek проделала колоссальную работу. Да, им удалось сделать это значительно дешевле, чем традиционным путем. Но обвал акций технологических гигантов на десятки процентов? Давайте будем честны — это явный перебор.
Мне кажется, это не столько заслуга DeepSeek, сколько чересчур завышенные ожидания рынка от OpenAI и Nvidia. Ожидания, что никто не может и близко создавать подобные модели. В результате всего лишь намека от DeepSeek, что потенциально это возможно, вызвало панику.
Еще летом, если верно помню, были интересные посты на тему, что OpenAI фиксировали какое-то гигантское число запросов. Так вот, это и была дистилляция, как в итоге уже выяснилось, что уже привело к блокировке в некоторых странах приложения DeepSeek.
Дистилляция и обучение на синтетических данных это разные вещи. Для дистилляции необходимо обучатся не на тексте от другой модели, а на самом вероятностном распределении следующего токена старшей модели. Сомневаюсь, что такие данные можно получить через API.
Вы про Soft-label дистилляцию. Она более дорогая и требует доступа к весам основной модели.
А при парсинге через API используют Hard-label дистилляцию. Подробнее тут - https://habr.com/ru/companies/yandex/articles/878230/
ИМХО Дипсик порвал всех не как нейросеть, а именно как поисковый движок нового поколения. Когда включаешь вебсерч и ризонинг, то результаты поиска получаются просто бомбические. И это не 3-7 ссылок как у конкурентов, он выгребает по 40-50 страниц из довольно качественного индекса и тщательно их пережевывает перед тем как дать ответ. Вот это реально разрыв, совершенно новый пользовательский опыт. Перплексити просто курит в слезах на обочине.
Опять DeepSeek? Побудем в роли детектива