Comments 8
Т.е. 6 млн долларов ушло только на обучение базовой модели. А есть какие-то оценки, сколько GPGPU часов потребовалось на дообучение до уровня R1 с базовой модели?
Вероятно, потому что он содержит выборки, сгенерированнные OpenAI o1?
Ну наконец хоть кто-то об этом прямо заявил. А их успехи в математическом бенчмарке обусловлены выцеживанием математических примеров из Common Crawl. Янник Киллчер на днях у себя на ютубе разбирал их статью про DeepSeekMath - аналогичный подход, очевидно, применили и в DeepSeek-R1.
не особенно известный до сих пор стартап
Deepseek - это не стартап, а подразделение хэдж-фонда High-Flyer, где решили нагрузить имеющийся массив GPU для занятия перспективной ниши. На протяжении нескольких лет они успешно бодались с конкурентами на внутреннем рынке, теперь вышли за пределы страны.
P.S. Этак скоро узнают и о других аналогах, которые тоже понемногу выползают из иероглифов.
Руслан спасибо.
Вопрос: Сам пробовал дообучать LLM на синтетических данных?
Да, вот была статья https://habr.com/ru/articles/830332/ там ссылки на веса и датасет
Позавчера когда сервера DeepSeek висели, на вопрос на основе какой модели ты создан, ДипСик говорил, что создан на основе ChatGpt4 от OpenAi от 2023года, но вчера он уже отвечал, что создан на своей модели
Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт