ruslandevlabs Jan 28 at 08:10

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

3 min

11K

Artificial IntelligenceMachine learning *

+19

Comments 8

sshmakov Jan 28 at 09:01

Это потребовало всего лишь 1 эпохи на 2 NVIDIA A100 в облаке.

А сколько по времени это заняло?

ruslandevlabs Jan 28 at 16:35

примерно час

Armmaster Jan 28 at 10:44

Т.е. 6 млн долларов ушло только на обучение базовой модели. А есть какие-то оценки, сколько GPGPU часов потребовалось на дообучение до уровня R1 с базовой модели?

Ingref Jan 28 at 10:47

Вероятно, потому что он содержит выборки, сгенерированнные OpenAI o1?

Ну наконец хоть кто-то об этом прямо заявил. А их успехи в математическом бенчмарке обусловлены выцеживанием математических примеров из Common Crawl. Янник Киллчер на днях у себя на ютубе разбирал их статью про DeepSeekMath - аналогичный подход, очевидно, применили и в DeepSeek-R1.

dolovar Jan 28 at 18:20

не особенно известный до сих пор стартап

Deepseek - это не стартап, а подразделение хэдж-фонда High-Flyer, где решили нагрузить имеющийся массив GPU для занятия перспективной ниши. На протяжении нескольких лет они успешно бодались с конкурентами на внутреннем рынке, теперь вышли за пределы страны.

P.S. Этак скоро узнают и о других аналогах, которые тоже понемногу выползают из иероглифов.

Devpiligrim Jan 29 at 05:06

Руслан спасибо.
Вопрос: Сам пробовал дообучать LLM на синтетических данных?

ruslandevlabs Jan 29 at 17:31

Да, вот была статья https://habr.com/ru/articles/830332/ там ссылки на веса и датасет

DarkSin363 Jan 30 at 05:15

Позавчера когда сервера DeepSeek висели, на вопрос на основе какой модели ты создан, ДипСик говорил, что создан на основе ChatGpt4 от OpenAi от 2023года, но вчера он уже отвечал, что создан на своей модели