Как стать автором
Обновить

Почему создание больших ИИ обходится в миллиарды — и как китайский стартап DeepSeek кардинально изменил рынок

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.5K
Всего голосов 8: ↑3 и ↓5+1
Комментарии12

Комментарии 12

НЛО прилетело и опубликовало эту надпись здесь

Почему тогда операционки не переделывают на работу с GPU, чтобы CPU разгрузить? Там же тоже полно простых операций.

НЛО прилетело и опубликовало эту надпись здесь

Точно ли, что Deepseek кардинально изменил рынок? Мне кажется, что прошло слишком мало времени для таких громких заголовков

Изменил в момент появления. Опенсорс, дешевый в запуске и обучении по качеству не сильно хуже очень дорогого чатгпт. Теперь все знают что так можно. И что нет смысла платить кучу денег за дорогие модели.

Это такой же опенсорс, как и Llama и множество других моделей на huggingface. Tülu ещё больший опенсорс, т.к. есть не только веса, но и код, данные для обучения, но такого хайпа не создают. Насчёт цены вообще не понятно, т.к. достоверно неизвестно сколько потрачено на Deepseek (и сколько им нужно на поддержание рабочего состояния) и на его конкурентов, тем более сравнение с ChatGPT не уместно, потому что ChatGPT - мультимодальный. Но, конечно, стоит отметить новации в обучении Deepseek.

Другие опенсорс заметно хуже. Даже без тестов видно что Дипсик качественнее отвечает.

Раньше был выбор или не очень, но опенсорс. Или хорошо но дорого чатгпт. Сейчас стало хорошо, дешево и опенсорс.

Цена на запуск Дипсика на своем железе несложно считается. Для бизнеса копейки. Статей как Дипсик учили некоторое количество есть, не вижу почему ваша оценка должна быть правдивее того что авторы написали.

Модальности и прочие бантики прокручиваются дообучением Дипсика совсем просто и совсем недорого. Увидите как быстро поумнеют всякие Алисы и прочие СберГпт (не помню как он там называется). Это будет дообученный Дипсик или аналог.

"Вода это водный раствор воды в воде, используется в качестве воды" - зачем такие статьи переводить и здесь публиковать? В хабе "Искусственный интеллект" такого шлака вываливается больше десятка в сутки.

Автор оригинальной статьи (и подобных) лично присутствовал и точно знает каким образом китайцы создали DeepSeek и сколько на него потратили? Есть версия, что это просто дистилляция с ChatGPT от OpenAI.

Использовать другую модель для разметки - это не дистилляция. Плюс у них архитектура другая. Есть статьи, где они подробно описывают, сама модель в опенсорсе с частью кода. Есть удачные попытки других команд добавить ризонинг по схеме, которую описали дипсик. Если сюда добавить, что сами openAI не рассказали толком, как сделать рассуждающую модель и дипсику пришлось изобретать способ обучения самим, версия, которую вы озвучили, выглядит полной ерундой.

Нет. Они изменили архитектуру. И именно в этом главная заслуга deepseek.

https://planetbanatt.net/articles/mla.html

Все остальное стало возможным благодаря этим изменениям. Если бы они взяли lora и на ее базе сделали такую большую модель, то ни какая дистилляция тут не спасла бы. А так благодаря изменениям, дистилляция ускоряет обучение на их архитектуре. Но это лишь следствие.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории