
Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого человека в космос. Тогда США осознали свое отставание от технического прогресса — и вот опять.
Но почему это вдруг произошло так резко? Ведь DeepSeek и другие китайские, европейские нейросети существовали и до 2025 года. Давайте разберемся, почему все вдруг обратили внимание на чат-бота из Поднебесной, когда вокруг так много аналогов.
Откуда взялся DeepSeek
Deepseek — это китайская лаборатория, которая занимается исследованиями в сфере ИИ. Ее основал хедж-фонд High-Flyer Capital Management в 2023 году — им нужна была нейросеть для предсказаний поведения фондового рынка. В ноябре этого же года разработчики представили первые модели: DeepSeek Coder, DeepSeek LLM и DeepSeek Chat. Они были не такими продвинутыми, как американские аналоги, но требовали таких же вычислительных мощностей, поэтому остались незамеченными.
Весной 2024 года появилась модель DeepSeek-V2. Она стоила гораздо дешевле своих китайских конкурентов и уже тогда показывала высокие результаты бенчмарков. Внимание обратили в основном китайские компании и снизили стоимость своих моделей, чтобы не уступать позиции.
И вот в январе 2025 года Deepseek представили мультимодальную размышляющую ИИ-модель R1. Использовать или даже установить к себе на устройство ее можно бесплатно, а по мощности она не уступает GPT-o1 от OpenAI и даже превосходит по некоторым функциям. Например, GPT-o1 пока не поддерживает поиск в интернете и загрузку файлов, в отличие от чат-бота Deepseek. Тестов бенчмарков со сравнениями последних моделей нет, но можно посмотреть, насколько сильно GPT-4o отстает по некоторым метрикам от R1.

Как и у последней модели OpenAI, у DeepSeek-r1 контекстное окно в 128 тысяч токенов. Но ни тесты, ни мультимодальность не сделали модель популярной.
Почему новая модель привлекла внимание
OpenAI потратили около $100 миллионов и около 3 лет на разработку GPT-4. Данные о последней модели не разглашаются. Deepseek же обучили модель за 2 месяца и потратили на это $5,5 миллионов — это в 18 раз меньше, чем американская компания. При этом специалисты из Китая задействовали всего 2 тысячи чипов NVIDIA H800. Тогда как ведущие компании в сфере ИИ используют не менее 16 тысяч, еще и более мощных чипов H100. До выпуска Deepseek инвесторы думали, что чем больше чипов — тем лучше, поэтому несли деньги в NVIDIA. Оказалось, что нет. Вот акции и обвалились.
Еще один важный показатель, на который стоит обратить внимание, — количество параметров. У DeepSeek-r1 их 671 миллиард, тогда как по неофициальным данным у GPT-4 их около 1,7 триллиона. Китайская модель не уступает американской из-за особой архитектуры. За счет применения технологии Mixture-of-Experts (MoE) во время обработки одного запроса задействуется только примерно 37 миллиардов параметров. Такой подход позволяет значительно сократить нагрузку на вычислительные мощности, сохраняя при этом высокую эффективность модели.
И последнее — цена. Модель находится в открытом доступе, любой может установить ее себе на железо. Чат-бот от DeepSeek полностью бесплатный — на февраль 2025 дополнительных подписок нет. Для разработчиков модель тоже оказалась выгодной. Вывод 1 миллиона токенов обойдется в $2,19. За GPT-o1 надо отдать $60. Думаю, вы уже посчитали, что это в 27 раз дешевле.
Если упростить все эти три абзаца: DeepSeek удалось создать мощную модель за небольшие деньги и с меньшим количеством процессоров. Это определенно инновация в мире ИИ.
Действительно ли DeepSeek так хорош
Нельзя не упомянуть недавнюю утечку данных. Событие скорее забавное, чем тревожное: пользователи сразу же обнаружили, что база оказалась в открытом доступе, и начали писать сотрудникам компании в LinkedIn. Доступ закрыли через полчаса, но остается неизвестным, успел ли кто-то сохранить файлы. В базе находились логины пользователей, списки чатов и загруженные документы. В результате конгрессменам США и сотрудникам BMC запретили скачивать и использовать чат-бот.
Кроме того, у многих вызывает вопросы качество данных, на которых обучался бот. Недавно всплыли любопытные подробности: DeepSeek обучали на общедоступных материалах, включая тексты, созданные ChatGPT и другими ИИ-ботами. Сам разговорный бот выдал себя в беседах, где неожиданно представился ChatGPT и даже продуктом компании Yandex. Сейчас эти галлюцинации исправили, но осадок остался.
Еще один нюанс — у r1 нет памяти, в отличие от моделей GPT. Промпты придется вводить заново при каждом запросе. Например, ChatGPT-4o можно поручить исправлять ошибки в тексте, не меняя в нем слова. Он будет следовать инструкции на протяжении 5–6 сообщений, а затем ее придется обновить. DeepSeek же справляется с большинством сложных задач, таких как написание кода или решение уравнений, но делает это медленнее — иногда на выполнение уходит до двух минут. GPT и Claude справляются за считанные секунды.
Мы попросили DeepSeek и GPT-4o написать каноническое уравнение прямой, проходящей через точки A=(2;2;5) и B=(0;2;−4). Оба бота справились, но у китайской модели ушло более минуты на расчеты.

С креативностью у DeepSeek-r1 все в порядке. Он составил неплохой лид к статье, хотя вышел он довольно длинным. Но времени на это ушло в два раза больше, чем у GPT-4o и Claude 3.5 Sonnet.


Сильных галлюцинаций у модели r1 не обнаружили. Без доступа к браузеру она без проблем перечислила провальные рекламные кампании и составила список книг о викторианской эпохе. Но снова — ответ пришлось ждать больше минуты.

С простым кодом нейросеть разобралась без проблем. Причем не просто выдала результат, а расписала каждый шаг в деталях. Это особенно полезно — можно сразу заметить ошибки в логике или даже подтянуть свои навыки, если только начинаешь разбираться в программировании.
В целом особого чуда не произошло. Модель DeepSeek немного уступает популярным чат-ботам. Поэтому важно самостоятельно тестировать новые модели, и проще всего это сделать на платформе LLM Arena. Здесь не требуется авторизация или оплата, а сравнивать можно сразу две модели, например DeepSeek-r1 и GPT-4o или YandexGPT.

На платформе есть своя таблица лидеров, и вы можете повлиять на расстановку сил. Но есть нюанс: чтобы оценка была честной, нужно включить анонимное сравнение. Система сама выберет две нейросети для дуэли, а вам останется только сравнить их ответы без оглядки на популярность модели.
Скандалы, интриги, расследования
SemiAnalysis опубликовал разоблачительный материал, где утверждается, что реальные расходы на обучение DeepSeek-R1 сильно превышают официальные данные. По их оценкам, сумма могла достигнуть $1,6 миллиарда. Главный аргумент: в процессе использовали 10 тысяч чипов NVIDIA H800, созданных специально для Китая, а также 10 тысяч мощных H100 — процессоров, запрещенных в стране из-за санкций США. Эксперты уверены: размах вычислений явно не вписывается в заявленный бюджет.

Американские специалисты считают, что заявленные $5 миллионов — это лишь расходы на обучение финальной модели. Зарплаты сотрудников и тестирование гипотез в эту сумму не входят.
Правительство США начало собственное расследование. Власти пытаются установить, приобретали ли в компании DeepSeek мощные процессоры H100 в обход санкций через Сингапур. В NVIDIA официально заявили, что китайский стартап не нарушал санкционные ограничения.
Сэм Альтман и Марк Цукерберг тоже очень обеспокоены, хотя и поприветствовали нового конкурента. OpenAI вместе с Microsoft начали свое расследование против DeepSeek, намереваясь доказать, что сотрудники китайской лаборатории ИИ незаконн�� использовали их облачные сервисы. Пока результатов нет.
Все это показывает, насколько сильно американские компании недооценили китайского соперника. И DeepSeek — далеко не единственный игрок. В январе 2025 года Alibaba представили новую модель ИИ — qwen 2.5 max, которая, согласно их тестам, превосходит чат-бота от DeepSeek и Llama-3.1-405(B). Компании SenseTime и Tencent получают значительные государственные субсидии на развитие ИИ-технологий.
Возможно, 2025 год станет рассветом китайских нейросетей. А что думаете вы?
Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.
Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Какие данные нужны для обучения LLM?
В чем специфика работы с GenAI проектами? И какие бенчмарки сравнения LLM есть на российском рынке?
Обо всем этом читайте в “Роман с данными”
