Комментарии 11
Почему именно графических? Оказывается, и компьютерная графика, и искусственные нейронные сети, лежащие в основе больших языковых моделей, опираются на одну и ту же область математики, известную как линейная алгебра.
не совсем так, или совсем не так.
то есть алгебра, конечно, присутствует в ответе, но не в этом смысл.
что такое современный CPU? это 4-64 ядер, способных параллельно друг дружке выполнять вычисления (ну, может и больше ядер CPU есть - но это не принципиально, если и есть - не на много больше).
а что такое GPU? это тысячи (или уже десятки тысяч) ядер.
Да, более простых, но вот этой самой линейной алгебре сложные и не нужны.
то есть в вопросе "сделать много-много простых вычислений уровня y=ax+b
" GPU за счёт параллельности уделывает CPU на несколько порядков.
Почему тогда операционки не переделывают на работу с GPU, чтобы CPU разгрузить? Там же тоже полно простых операций.
Хороший вопрос и на него есть несколько ответов.
Во-первых, эти процессоры очень простые (усечённый набор команд), они, например, не могут адресовать большие объёмы памяти (то есть заточены именно под вычисления). То есть вместе все эти 10 тыс процессоров адресуют допустим 10 гигабайт памяти, но у каждого регистр адреса небольшой.
Именно подобное упрощение и позволяет на такой же кристалл (по степени интеграции), как у центрального CPU запихать больше ядер.
Во-вторых у этих процессоров из-за упрощения отсутствуют средства поддержки операционной системы: виртуальная память, уровни изолляции и так далее.
В-третьих, здесь играет рояль ещё и шина данных между центральным CPU и GPU. Условно говоря GPU не может работать с произвольным набором данных из доступного диапазона RAM, она там отображается в окна: DMA и вот это вот всё - это где-то и про интерфейс с GPU тоде.
То есть, например хотим мы картинку перекрасить из цветного в чёрнобелый. 16 ядер основного CPU могут в 16 потоков сделать это условно говоря за 10 секунд.
а 1600 ядер GPU - получается за 0.1 секунду сделают. Но чтобы у 1600 ядер это случилось, нужно чтобы центральный CPU им задание подготовил, программу им загрузил, память отобразил, конвейер сообразил и так далее.
эти накладные расходы по подготовке GPU-вычислений достаточно большие и окупаются только тогда, когда потом GPU обрабатывает огромный табун одинаковых задачек. То есть, например, меняет цвета миллиона точек, вычисляет веса миллиона нейронов и так далее. А для задач вроде "следить за нажатиями кнопок" подходит фигово.
Точно ли, что Deepseek кардинально изменил рынок? Мне кажется, что прошло слишком мало времени для таких громких заголовков
Изменил в момент появления. Опенсорс, дешевый в запуске и обучении по качеству не сильно хуже очень дорогого чатгпт. Теперь все знают что так можно. И что нет смысла платить кучу денег за дорогие модели.
Это такой же опенсорс, как и Llama и множество других моделей на huggingface. Tülu ещё больший опенсорс, т.к. есть не только веса, но и код, данные для обучения, но такого хайпа не создают. Насчёт цены вообще не понятно, т.к. достоверно неизвестно сколько потрачено на Deepseek (и сколько им нужно на поддержание рабочего состояния) и на его конкурентов, тем более сравнение с ChatGPT не уместно, потому что ChatGPT - мультимодальный. Но, конечно, стоит отметить новации в обучении Deepseek.
Другие опенсорс заметно хуже. Даже без тестов видно что Дипсик качественнее отвечает.
Раньше был выбор или не очень, но опенсорс. Или хорошо но дорого чатгпт. Сейчас стало хорошо, дешево и опенсорс.
Цена на запуск Дипсика на своем железе несложно считается. Для бизнеса копейки. Статей как Дипсик учили некоторое количество есть, не вижу почему ваша оценка должна быть правдивее того что авторы написали.
Модальности и прочие бантики прокручиваются дообучением Дипсика совсем просто и совсем недорого. Увидите как быстро поумнеют всякие Алисы и прочие СберГпт (не помню как он там называется). Это будет дообученный Дипсик или аналог.
по мне так без Batch API он вообще бесполезен в энтерпрайзе
"Вода это водный раствор воды в воде, используется в качестве воды" - зачем такие статьи переводить и здесь публиковать? В хабе "Искусственный интеллект" такого шлака вываливается больше десятка в сутки.
Автор оригинальной статьи (и подобных) лично присутствовал и точно знает каким образом китайцы создали DeepSeek и сколько на него потратили? Есть версия, что это просто дистилляция с ChatGPT от OpenAI.
Использовать другую модель для разметки - это не дистилляция. Плюс у них архитектура другая. Есть статьи, где они подробно описывают, сама модель в опенсорсе с частью кода. Есть удачные попытки других команд добавить ризонинг по схеме, которую описали дипсик. Если сюда добавить, что сами openAI не рассказали толком, как сделать рассуждающую модель и дипсику пришлось изобретать способ обучения самим, версия, которую вы озвучили, выглядит полной ерундой.
Вот здесь намнго лучше описано, как удалось добиться такой эффективности https://habr.com/ru/companies/airi/articles/879178/
Почему создание больших ИИ обходится в миллиарды — и как китайский стартап DeepSeek кардинально изменил рынок