SLY_G 11 фев в 16:13

Почему создание больших ИИ обходится в миллиарды — и как китайский стартап DeepSeek кардинально изменил рынок

Простой

4 мин

2.6K

Искусственный интеллектМашинное обучение*Научно-популярное

Перевод

Комментарии 12

НЛО прилетело и опубликовало эту надпись здесь

uranik 11 фев в 20:00

Почему тогда операционки не переделывают на работу с GPU, чтобы CPU разгрузить? Там же тоже полно простых операций.

НЛО прилетело и опубликовало эту надпись здесь

Fizikoleg 11 фев в 19:02

Точно ли, что Deepseek кардинально изменил рынок? Мне кажется, что прошло слишком мало времени для таких громких заголовков

BugM 12 фев в 02:34

Изменил в момент появления. Опенсорс, дешевый в запуске и обучении по качеству не сильно хуже очень дорогого чатгпт. Теперь все знают что так можно. И что нет смысла платить кучу денег за дорогие модели.

Fizikoleg 12 фев в 04:20

Это такой же опенсорс, как и Llama и множество других моделей на huggingface. Tülu ещё больший опенсорс, т.к. есть не только веса, но и код, данные для обучения, но такого хайпа не создают. Насчёт цены вообще не понятно, т.к. достоверно неизвестно сколько потрачено на Deepseek (и сколько им нужно на поддержание рабочего состояния) и на его конкурентов, тем более сравнение с ChatGPT не уместно, потому что ChatGPT - мультимодальный. Но, конечно, стоит отметить новации в обучении Deepseek.

BugM 12 фев в 07:54

Другие опенсорс заметно хуже. Даже без тестов видно что Дипсик качественнее отвечает.

Раньше был выбор или не очень, но опенсорс. Или хорошо но дорого чатгпт. Сейчас стало хорошо, дешево и опенсорс.

Цена на запуск Дипсика на своем железе несложно считается. Для бизнеса копейки. Статей как Дипсик учили некоторое количество есть, не вижу почему ваша оценка должна быть правдивее того что авторы написали.

Модальности и прочие бантики прокручиваются дообучением Дипсика совсем просто и совсем недорого. Увидите как быстро поумнеют всякие Алисы и прочие СберГпт (не помню как он там называется). Это будет дообученный Дипсик или аналог.

Giperoglif 12 фев в 07:43

по мне так без Batch API он вообще бесполезен в энтерпрайзе

Ostan 11 фев в 20:00

"Вода это водный раствор воды в воде, используется в качестве воды" - зачем такие статьи переводить и здесь публиковать? В хабе "Искусственный интеллект" такого шлака вываливается больше десятка в сутки.

Автор оригинальной статьи (и подобных) лично присутствовал и точно знает каким образом китайцы создали DeepSeek и сколько на него потратили? Есть версия, что это просто дистилляция с ChatGPT от OpenAI.

Hardcoin 11 фев в 22:31

Использовать другую модель для разметки - это не дистилляция. Плюс у них архитектура другая. Есть статьи, где они подробно описывают, сама модель в опенсорсе с частью кода. Есть удачные попытки других команд добавить ризонинг по схеме, которую описали дипсик. Если сюда добавить, что сами openAI не рассказали толком, как сделать рассуждающую модель и дипсику пришлось изобретать способ обучения самим, версия, которую вы озвучили, выглядит полной ерундой.

proxy3d 12 фев в 19:50

Нет. Они изменили архитектуру. И именно в этом главная заслуга deepseek.

https://planetbanatt.net/articles/mla.html

Все остальное стало возможным благодаря этим изменениям. Если бы они взяли lora и на ее базе сделали такую большую модель, то ни какая дистилляция тут не спасла бы. А так благодаря изменениям, дистилляция ускоряет обучение на их архитектуре. Но это лишь следствие.

artalex 11 фев в 20:01

Вот здесь намнго лучше описано, как удалось добиться такой эффективности https://habr.com/ru/companies/airi/articles/879178/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий