Как стать автором
Обновить

Комментарии 31

Да, одновременно 2 посыла:

  1. ИИ в массы, дешевая нейросеть, которую можно поднять дома на видеокарте

  2. Теперь видеокарты никому не нужны

Вызывали определённый когнитивный диссонанс :)

Уточнишь про места, где такое впечатление вышло? Я не часто пишу такие большие статьи, так что буду понемногу качать скилл :)

Так это посыл от мировых СМИ такой. Они почему-то решили, что AGI достигнут, и больше никому не нужны дорогие GPU...

К сожалению не хватает кармы поставить плюс, но за объяснение спасибо (и за котов и за доходчивое про дистиллят). Единственное, не понятно, каким образом обучаются на других моделях, откуда берут вопросы: генерируют или переадресовывают вопросы от пользователей (поэтому и сделали модель открытой, чтобы было больше пользователи с разносторонними запросами и поэтому такая большая задержка в ответе у deepseek)?

Первые часто делают свой "прокси" до чужих моделей, накапливая в себе все коммуникации, а далее уже обучают у себя с учетом накопленных данных

Вторые как раз таки собирают пул тем и по API их выгружают, а потом уже учат свои модели на сгенерированных как раз :)

Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT

Ну, если это так, то китайцы первые, которым удалось вывести дистиллят на уровень учителя, да ещё и в широком диапазоне данных. Кстати, кто-нибудь подумал, что это один шаг до сильного ИИ? До сих пор считалось, что нейросеть на синтетике не особо потренируешь, она заглючит. А теперь привет, кожаные мешки.

Да! И это супер круто, то есть я никак не планирую умаливать их достижения, это действтиельно невероятно круто реализовано, просто хотел донести мысль, что они не стали формировать свой датасет осбственно ручно, а фактически генерили его

Первыми это сделали в Стэндфортском университете аж в марте 2023 года, выпустив Alpaca.

Ну так то просто эксперимент был, проверка самого концепта. До них никто и не думал, что синтетика вообще даст результат.

ChatGPT использовался для проверки качества, а DeepSeek это десяток моделей в разных областях сведенных к урезанной DeepSeek-r1 , если бы был дистиллят сразу из ChatGPT получилась бы одна нейросеть, вывод у DeepSeek есть что то более мощное не для всех, что требует не 2000, а 10000 gpu, что не каждый углядел, вот этого и боится Альтман, что при отсутствии сопоставимых серверов они выложат в открытый доступ нечто более мощное.

Тоже сразу подумал, что у DeepSeek есть что то более мощное не для всех, раз они выложили DeepSeek-r1 в свободный доступ. Но зачем им выкладывать это более мощное в открытый доступ?

И вот теперь самый важный момент — они сделали всё open source. Буквально всё: и саму модель, и механику обучения, и все идеи опубликовали на своей странице Hugging Face.

Кроме датасетов ;)

Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT

Всё бы хорошо, но это ложь. Это можно легко понять, если открыть статью о R1, где достаточно подробно описан процесс обучения. То, что описание процесса обучения не выдумка можно понять хотя бы потому, что его уже пару раз воспроизвели в масштабах поменьше (1, 2). Tl;dr обучающего процесса:

  1. Собирается набор вопросов по математике, программированию, логики и прочим областям, ответы на которые можно легко верифицировать (например, автотестами для кода или ответ цифрой для математики)

  2. Берется base model (то есть модель, которая не умеет отвечать на вопросы, а только продолжает текст, в нашем случае - Deepseek-V3-Base) и посредством rule based вознаграждений через RL учим модель отвечать правильно на вопросы (да, она учится сама, без всяких размеченых человеком/внешней моделью данных).

  3. После этого дела у нас получается R1-Zero, её веса авторы тоже опубликовали. Незадача только в том, что после RL модель генериует нечитабельные цепочки размышлений (миксует языки и так далее). Это нам не подходит.

  4. Через R1-Zero авторы генерируют ответы с размышлениями на набор вопросов по тем же доменам, чистят всё это дело от совсем нечитабельных штук и обучают на получившихся данных V3-Base.

  5. После, снова обучают получившуюся модель через RL с rule based вознаграждениями. В итоге получается R1, которая отвечает чуть-чуть хуже, чем R1-Zero, но зато её размышления можно спокойно читать.

Почему в процессе обучения в теории не может быть места дистилляции из ChatGPT: o1, размышляющая модель от OpenAI, скрывает цепочки мыслей (кажется на днях перестала, но я не уверен). У Deepseek не было возможности их получить для дистиляции, а без них модель рассуждения дистиллировать невозможно. Прям вообще никак.

Сама механика обучения, сами процедуры и так далее, действительно были разработаны, однако "мыслительный" процесс не совсем относится к дистиляции

Не совсем могу согласится, так как это была одна из крупных причин, почему началось активное давление на DeepSeek, когда ребята из OpenAI начали активно трубить, что у них по API были большие выкачки данных, просто юридически - это не запрещено, что и не привело к продолжению

Можно много спорить на тему способа обучения, но дата сет собран в том числе на базе выкачки из ChatGPT - https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data

Данные "выкачивали" (странный термин, будто там есть какая-то исчерпаемая бочка с информацией) для обучения Deepseek-V3-Instruct (связи с R1 никакой) и в этом нет ничего такого. Данные собираются для SFT и честно говоря особо не влияют ни на что, потому что нынче самая важная часть instruction-tuning'а это RLHF. Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя. Рекомендую лучше исследовать тему и не распространять дезинформацию, потому что это она и есть.

и в этом нет ничего такого

Да, я и не говорил, что это плохо :)

выкачивали

Да, хорошо, формировали гигантский пул дата сета, чтобы на нем обучать :)

Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя


Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)

Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)

Если перечитаешь моё предыдущее сообщение, поймешь, что на данных OpenAI (возможно) обучали Deepseek-V3-Instruct, которая никак не относится к R1 (R1 делали с Base модели). Если ты не понимаешь, чем отличается V3-Instruct от R1, я искренне не понимаю, зачем ты написал эту статью.

Претензии по дистилляции относятся к нерассуждающей модели DeepSeek-V3. А на четвёртом шаге в вашем списке к данным, сгенерированным R1-Zero, добавляют также SFT, который содержит в том числе данные, использовавшиеся для DeepSeek-V3:

... we adopt the DeepSeek-V3 pipeline and reuse portions of the SFT dataset of DeepSeek-V3.

В итоге этот дистиллят перетёк из DeepSeek-V3 в DeepSeek-R1.

обвал акций технологических гигантов на десятки процентов? Давайте будем честны — это явный перебор.

Это не столько достижение DeepSeek, сколько «достижение» спекулянтов, игравших в горячую картошку последние два года.

Да, команда DeepSeek проделала колоссальную работу. Да, им удалось сделать это значительно дешевле, чем традиционным путем. Но обвал акций технологических гигантов на десятки процентов? Давайте будем честны — это явный перебор.

Мне кажется, это не столько заслуга DeepSeek, сколько чересчур завышенные ожидания рынка от OpenAI и Nvidia. Ожидания, что никто не может и близко создавать подобные модели. В результате всего лишь намека от DeepSeek, что потенциально это возможно, вызвало панику.

Еще летом, если верно помню, были интересные посты на тему, что OpenAI фиксировали какое-то гигантское число запросов. Так вот, это и была дистилляция, как в итоге уже выяснилось, что уже привело к блокировке в некоторых странах приложения DeepSeek.

Дистилляция и обучение на синтетических данных это разные вещи. Для дистилляции необходимо обучатся не на тексте от другой модели, а на самом вероятностном распределении следующего токена старшей модели. Сомневаюсь, что такие данные можно получить через API.

Вы про Soft-label дистилляцию. Она более дорогая и требует доступа к весам основной модели.

А при парсинге через API используют Hard-label дистилляцию. Подробнее тут - https://habr.com/ru/companies/yandex/articles/878230/

ИМХО Дипсик порвал всех не как нейросеть, а именно как поисковый движок нового поколения. Когда включаешь вебсерч и ризонинг, то результаты поиска получаются просто бомбические. И это не 3-7 ссылок как у конкурентов, он выгребает по 40-50 страниц из довольно качественного индекса и тщательно их пережевывает перед тем как дать ответ. Вот это реально разрыв, совершенно новый пользовательский опыт. Перплексити просто курит в слезах на обочине.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации