Съездили к ByteDance и Z.ai: роботы по паспорту, серверные карты на рынке и восемь дней внутри китайского AI / Хабр

В прошлой статье я обещал рассказать про Китай. Рассказываю.

В июне мы с командой провели восемь дней в Китае — Шанхай, Пекин, встречи каждый день. Здесь расскажу про четырёх поставщиков: SiliconFlow, ByteDance, MiniMax и Z.ai. Со всеми работаем давно, их модели стоят у нас в продукте.

Заметил, что стоит упомянуть эти поездки — на встрече с клиентом, на конференции, да просто в разговоре, — и меня начинают расспрашивать. Оно понятно: про китайский AI обычно читают короткие новости про бенчмарки, а как этот рынок выглядит вблизи, мало кто знает. Поэтому решил написать подробно.

Меня зовут Климент Викулов, я сооснователь GPTunneL. Мы делаем платформу AI-инструментов на базе 200+ нейросетей, плюс у нас есть своя модель GROM. Через нас с моделями работают больше 2 миллионов пользователей и 4500 компаний — так что китайские модели я каждый день покупаю и продаю, и на рынок смотрю с этой стороны.

Владелец компании нёс наши чемоданы

Начну с истории из аэропорта.

Прилетаем в Шанхай. В аэропорту нас встречают трое китайцев: улыбаются, помогают с багажом, катят чемоданы к машине. Мы фотографируемся, я мысленно отмечаю: «хороший сервис, прислали встречающих». И только по дороге мне сказали, что один из встречающих — владелец SiliconFlow. Не аккаунт-менеджер. Владелец. Сам приехал в аэропорт и сам катил наши чемоданы.

Дальше — больше. Наша встреча была в понедельник в Шанхае, хотя сами они из Пекина. А в среду у него была назначена встреча с Anthropic в США — жена улетела в Штаты раньше него, а он сделал крюк: прилетел в Шанхай к нам, снял номер в той же гостинице, что и мы, провёл встречу, поужинал с нами — и только после этого улетел в Америку. Неделя у человека: Пекин, Шанхай, Сан-Франциско.

В Китае жёстко работает правило: уровень встречает уровень. Приехал фаундер — за столом фаундер. Хочешь серьёзного разговора — мало общаться в чатах и созваниваться по zoom, надо прилететь. Мы прилетели сами, поэтому и разговаривали везде с первыми лицами.

И про стол отдельно. Каждый вендор организовывал обед или ужин, и это не «поесть после встречи» — за столом продолжаются переговоры и появляется доверие. Иногда совместный обед говорит о партнерстве больше, чем пол дня в переговорке. Одна команда, узнав, что мы только заселились и голодные, просто заказала обед нам в номер. Другие предлагали снять нам гостиницу.

Главный вывод из всего этого: Китай не понять через API и бенчмарки — сначала надо понять людей.

SiliconFlow: слой, на котором всё стоит

Первая встреча хорошо объясняет, как китайский рынок устроен под капотом.

В новостях AI выглядит как парад моделей: вышла новая — все обсуждают. Но модель — это верхушка айсберга. Под ней лежит слой, о котором пишут редко, хотя именно он определяет, кто в итоге выиграет: данные и вычисления.

С данными всё давно не сводится к «спарсили интернет». Претрейн на сыром вебе — только фундамент; то качество, за которое хвалят современные модели, добирается на пост-трейнинге. А для него нужны совсем другие данные: инструктивные датасеты, разметка человеческих предпочтений — то, на чём строится RLHF, — отфильтрованная синтетика, доменные наборы под код и математику. На этом этапе хорошо размеченный датасет на десятки тысяч примеров двигает модель сильнее, чем лишний триллион токенов сырого веба. В Китае под это выстроена целая индустрия: конвейеры разметки, контроль качества, пайплайны эвалов.

SiliconFlow работает сразу в обоих слоях. Данные — это разметка, которую у них покупают крупнейшие мировые лаборатории: OpenAI, Anthropic, Meta. Вычисления — собственные серверные мощности и инфраструктура инференса, железа у них много. А поверх этого есть и продукты, например TOKEN Gateway — единое API к десяткам моделей. Фаундер за ужином буднично показывает нам фотографии с Сэмом Альтманом — с той же интонацией, с какой мы показываем фотки с корпоратива.

С разметкой мы не пересекаемся, а вот остальное хорошо знакомо: свой инференс мы тоже гоняем — GROM крутится на собственных мощностях. А единое окно доступа к моделям — вообще наша история, только у нас оно собрано для российского рынка, с оплатой в рублях. Как чистый бизнес такая модель была актуальна где-то до 2024 года — тогда сам доступ к нейросетям был дефицитом, и за него платили. Сейчас доступ стал базой, а ценность сместилась в продукты поверх — и мы, и они идём именно туда. Поэтому за столом быстро сошлись в главном: пользователю не нужна витрина из моделей, ему нужен результат.

И общее ощущение после этой встречи: глобальный AI-рынок на самом деле очень маленький. Все со всеми знакомы.

Встреча с владельцем и командой топ-менеджеров SiliconFlow

Владелец и CEO SiliconFlow в брендированных мерчах GPTunneL

ByteDance: гонка за цену генерации уже началась

Встреча с ByteDance — самая насыщенная по фактуре. Это компания, стоящая за TikTok, CapCut, Doubao и Seedance, и первое, что бросается в глаза: лидеры рынка не ведут себя как победители — каждый день дерутся заново.

Деталь, которая меня поразила: с нами за столом сидели люди из нескольких продуктовых направлений — и они честно признались, что при текущей скорости разработки сами не всегда знают полный список предстоящих релизов внутри компании. Линейка растёт быстрее, чем её успевают синхронизировать между отделами. Вот такой темп.

Теперь по существу. Главный инсайт встречи — про экономику.

Флагманский Seedance 2.0 — одна из сильнейших видеомоделей мира. Но он дорогой для регулярного использования, и ByteDance это прекрасно понимает: если модель слишком дорогая, её берут только там, где качество критично — кино, дорогой продакшн, крупные бренды. А креаторы, маркетинг и энтузиасты уходят к более дешёвым аналогам, даже если качество там чуть ниже. Рынку уже мало «самой мощной видеомодели» — нужны модели, которые не страшно запускать каждый день: креативы, UGC, сторис, тесты гипотез.

Поэтому ByteDance готовит облегчённую линейку: Seedance Mini, Seedance Light и Seedance Fast. Разные задачи — разный уровень качества, скорости и цены. Это не «ухудшенная версия», это нормальная сегментация, как у процессоров или автомобилей. В видеогенерации началась гонка не только за качество, но и за стоимость генерации — и массовый рынок выиграют модели, которые можно гонять ежедневно, не глядя на счётчик.

Сам флагман при этом тоже не стоит на месте: в конце июня ByteDance показали Seedance 2.5 — ролики до 30 секунд одним проходом, без склейки коротких кусков, с 50 референсами на вход. Большинство видеомоделей сегодня упирается в 5–15 секунд, а 30 секунд — это уже целый рекламный ролик с завязкой и финалом, а не фрагмент.

Из прикладного. Часть показанного — под NDA, поэтому здесь только то, о чём говорить можно::

По image-моделям — точечное редактирование: поменять цвет, предмет, одежду, деталь в кадре, сохранив композицию. Это не про «красивую картинку с нуля», а про быструю адаптацию готового визуала под бренд или кампанию — то, чем маркетинг занимается каждый день.

По видео — изменение деталей в готовом ролике, замена объектов, удлинение видео, дорисовка начала или конца так, чтобы новый фрагмент совпадал с исходным кадром. Когда нужно протестировать десять вариантов одного ролика, это важнее прироста в бенчмарках.

По аудио — модель, которая шире обычного text-to-speech: задаётся не только текст, но и голос, интонация, стиль, настроение фразы. Это Seed Audio 1.0, она сейчас в закрытой бете — уже после возвращения нам вайтлистнули аккаунт для тестов. Пока модель работает на английском и китайском, новые языки обещают к началу августа. Гоняем.

И маленький анонс, которого пока нет в новостях: 10 июля выходит Seedream 5.0 Pro — новое поколение их image-модели. Нам доступ уже открыли, тестируем до релиза — и сразу после него модель появится в GPTunneL. Ранний доступ отдаем и нашей партнёрской сети - креаторам и маркетинговым командам, которые каждый день делают контент на GPTunneL, чтобы к релизу они подошли готовыми. Кстати, если вам тоже актуальны ранние доступы в креативной среде — пишите в личку, обсудим партнёрство.

Отдельно — культурный контекст, который многое объясняет про будущее видеогенерации. В Китае гигантский рынок коротких вертикальных сериалов — простые сюжеты, серии по паре минут, смотрятся с телефона. Такие сериалы уже начинают собирать на Seedance. Для ByteDance это идеальное совпадение: лучшая в мире экспертиза в коротком видео и удержании внимания, и теперь под неё есть генеративный конвейер. Этот формат доедет и до нас — вспомните этот абзац через год.

MiniMax: не одна модель, а стек

То, что у ByteDance видно на примере одной видеолинейки, MiniMax возводят в принцип: сильные команды больше не строят одну универсальную модель. Они собирают стек — языковая модель, видеогенерация, синтез речи, музыка — и быстро проверяют, какие сценарии доводятся до массового использования, а какие остаются красивым демо. Логика простая: LLM сама по себе коммодитизируется, а вот связка «текст + голос + видео» под конкретный сценарий — это уже продукт, за который платят.

Обсуждали с ними всю линейку — новую языковую модель, видеомодель, speech и music с cover-решениями, в том числе релизы, которые выйдут только через несколько месяцев. Но для нас самое важное — не линейка, а применимость на русскоязычном рынке. Отдельно и довольно занудно прошлись по акцентам, кириллице, качеству синтеза речи на русском. И тут хороший сигнал: технически они готовы дорабатывать качество под русский — если видят подтверждённый спрос от крупных компаний. А спрос мы можем подтверждать цифрами: на GPTunneL работают 4500 компаний, и голосовые с видеосценариями многим из них нужны уже сейчас.

Ради этого и летишь девять часов. В слаке просьбы «доработайте русский» висят годами, а тут за полдня дошли до предметного разговора.

Разбирали с ними и наш Workflow — конструктор, где из моделей собираются пайплайны под задачу: сценарий, картинки, видео, озвучка одним процессом. Через MiniMax проходят AI-продукты со всего мира, им есть с чем сравнивать — и, по их оценке, наш Workflow в топе сильнейших мировых решений в этом направлении. Приятно. Тем более что на мировой рынок мы как раз постепенно выходим.

Обсуждаем коллаборацию AI продуктов Minimax и GPTunneL

Z.ai: команда, у которой наука впереди маркетинга

Если из всей поездки выбирать команду, которая впечатлила меня больше всех, — это Z.ai.

Z.ai выросли из Цинхуа — одного из двух главных университетов Китая. Их лаборатория занималась языковыми моделями ещё до всеобщего хайпа, поэтому за GLM стоят годы исследований, а не только продуктовая команда. Плюс они одни из самых активных в open source: их модели используют разработчики и университеты по всему миру — с ними удобно проверять гипотезы и собирать проекты.

При этом зрелость у них продуктовая, не только научная: огромное количество китайских сервисов используют Z.ai «под капотом». Пользователь не видит бренда — модель просто работает внутри приложения или корпоративного инструмента. Это и есть настоящая зрелость продукта.

Но главное вот что. Z.ai адаптирует свои модели под китайское железо, включая Huawei Ascend. То есть строит фундаментальный AI без зависимости от NVIDIA и американской цепочки чипов.

Дальше — главная мысль всей поездки. Если китайские компании научатся стабильно выдавать сильное качество на своём железе, вопрос «у кого модель умнее» перестаёт быть главным. Главным становится вопрос «у кого есть доступ к compute».

Для России это не абстракция. С картами сейчас тяжело у всех — очереди к NVIDIA расписаны, гиперскейлеры выгребают поставки на годы вперёд. Но у нас другой порядок проблемы: по нашей оценке, за прошлый год в РФ завезли порядка 700 карт действительно топового уровня. Семьсот. Это не кластер для обучения фронтир-модели — это скромный инференс-парк одной средней компании. На таком объёме можно дообучать и ускорять, но нельзя конкурировать в предобучении. Сбер уже купил долю в «Элементе» — ставка на своё железо у нас сделана, но между ставкой и работающим стеком лежат годы. А Z.ai показывают, как выглядит финал этой дороги, если пройти её до конца: своя модель на своём чипе в своём дата-центре.

Из прикладного: обсуждали enterprise — как крупные компании встраивают LLM во внутренние процессы, поддержку, поиск по корпоративным данным. Кто следит за нами, знает: с телекомами мы работаем давно, а на ПМЭФ-2026 ещё и подписали партнёрство с билайн big data & ai. Поэтому хотелось понять, как такие модели ведут себя именно в телеком-продуктах. GLM, к слову, уже работают под капотом части наших продуктов — обсудили, куда расширять.

Новость, которую уже можно рассказать: мы договорились с Z.ai о совместном хакатоне с Высшей школой экономики. Студенты одного из сильнейших вузов страны вместе с командой мирового вендора поработают руками с GLM-моделями и реальными coding-сценариями. Подробности — когда согласуем даты и формат.

Сессия с Z.AI по использованию GLM в кодинге

Семь этажей китайской Горбушки

Теперь из переговорок — на улицу. В Пекине мы съездили на рынок электроники — по духу это наша Горбушка, только этажей здесь семь, и каждый размером примерно с Горбушку целиком.

Китайская "Горбушка". Здесь можно купить все что связано с техникой

Продаётся всё. Айфоны, комплектующие, готовые сборки, стенды с RTX 5090 в несколько рядов, горы компьютерного железа сложенного стопками, как блины. Мы там закупили линейку транскрибаторов разных форматов — от карточки на MagSafe до самостоятельных устройств, сейчас тестируем (на фото — один из вариантов).

Интерес не случайный. От энтерпрайз-клиентов есть устойчивый запрос: записывать встречи и звонки, доставать из записи любую реплику, получать саммари и спрашивать нейросеть про конкретное совещание или весь день. Мы готовы закрыть эту задачу целиком — поставить устройства и дать софт, встроенный прямо в GPTunneL. Стратегия простая: мы хотим стать внутренним корпоративным стандартом по AI, чтобы всё, что в компании связано с искусственным интеллектом, работало через нас.

Один из видов тестируемых транскрибаторов

Закупили и умные очки — от Qwen (носимое железо Alibaba) до менее известных фирм. Особенно интересны Qwen-очки: синхронный перевод на 89 языков, сменные аккумуляторы прямо в дужках — разрядился, поменял на ходу, — а голосом через них можно заказать еду или вызвать такси. В Китае очки уже превращаются в точку входа в экосистему сервисов, и нам тут интересен не сам гаджет: у Qwen открытая платформа, сторонние приложения подключаются через MCP. Будем разбирать и смотреть, как встроить такие устройства в экосистему GPTunneL.

CTO и CCO GPTunneL примеряются к очкам с AI на Китайском рынке

А теперь прикольное: на витринах, под стеклом, с ценниками маркером на розовых стикерах, лежат серверные и профессиональные карты. Диапазон — от рабочих лошадок прошлых поколений вроде A10, A30 и серверных исполнений 4090 до свежей RTX 6000 Pro на Blackwell, которая формально под экспортными ограничениями. У нас серверные карты добывают через цепочки посредников по всему миру — а тут они просто лежат в рознице, рядом с айфонами. После разговоров с Z.ai про доступ к compute смотреть на эту витрину было особенно забавно.

Касты и «центр вселенной»

Ещё одно место, которое многое объяснило, — район вокруг Цинхуа, откуда родом Z.ai. Я ожидал увидеть кампус с общагами, а увидел эпицентр китайского AI.

Между Цинхуа, Пекинским университетом и Чжунгуаньцунем зажат научный парк TusPark, который местные без иронии называют «центром вселенной»: инкубаторы, венчурные фонды, стартап-акселераторы — прямо на фасадах зданий висят вывески фондов и глобального акселератора Plug and Play. Рядом — целый квартал с говорящим названием AI Origin Community, «квартал, где ИИ берёт начало». И это не пафос девелопера: Z.ai начинались именно здесь — в 2019-м местный технопарк дал молодой команде из лаборатории Цинхуа три месяца бесплатного офиса. Отсюда же родом Moonshot AI и Baichuan, а DeepSeek набирает исследователей в основном из выпускников этих мест. Университет, деньги и стартапы находятся в пешей доступности друг от друга — в этом половина секрета скорости китайского AI.

AI Origin Community рядом с Цинхуа, на фасаде — вывески фондов и акселератора Plug and Play

И тут же наблюдение про людей, которое мы поймали за поездку. Почти все, с кем мы сидели за столом в сильнейших китайских IT-компаниях, закончили один из этих двух вузов — Цинхуа или Пекинский, между которыми идёт вечное соперничество. Это не совпадение, а почти кастовая система: правильный университет в биографии — входной билет в верхний слой индустрии, и на это смотрят всерьёз. В России такого нет: у нас важную позицию в компании может занять кто угодно, хоть с тремя курсами заочки за плечами. Какая система лучше — вопрос открытый, но контраст разительный.

Про роботов: будущее уже продаётся в супермаркете

Мы всё серьёзнее смотрим в сторону оборудования с AI: наработки уже есть, и я хочу довести их до первых продаж. Отдельная идея, с которой носимся почти год, — привезти в СНГ полезного робота и написать под него AI-софт для нашего рынка. Поэтому в Пекине мы поехали не в Запретный город, а в гипермаркет робототехники — Robot Mall в районе Ичжуан, первый в мире «4S-салон» гуманоидных роботов: четыре этажа, около четырёх тысяч квадратов, десятки брендов от Unitree до UBTECH. Формат честно скопирован с автосалона: продажа, сервис, запчасти. Ценник — от пары тысяч юаней за гаджет до нескольких миллионов за серьёзного гуманоида; на витрине среди прочего стоит Эйнштейн примерно за сотню тысяч долларов.

Первое ощущение — шоурум будущего. Второе, потрезвее: это уже розница. Роботов покупают, чинят, к ним продают запчасти. Китай в 2024-м выпустил больше полумиллиона промышленных роботов и держит около двух третей мировых патентных заявок по робототехнике, а государство готовит под AI и роботов фонд на триллион юаней. На этом фоне магазин гуманоидов — просто логичный следующий шаг.

А теперь три бытовых наблюдения, которые в новости не попадают.

Первое. Гуманоидного робота нельзя купить просто так — попросят паспорт. Покупка идёт с идентификацией личности: Китай заранее строит учёт того, у кого какие роботы. Пока весь мир спорит о регулировании AI в чатах, здесь уже регулируют AI с руками и ногами.

Второе. Роботы в Китае действительно повсюду — отели, рестораны, салоны красоты, торговые центры; жёлтые роботы-курьеры возят заказы по Пекину так давно, что на них никто не оборачивается. Но в самые обычные работы роботов при этом не пускают. Уборка улиц осталась за людьми: намусорили — через две минуты подходит живой уборщик, а не машина. Профсоюзы всерьёз отбивают простые рабочие места у автоматизации. Парадокс: страна, которая производит больше всех роботов в мире, осторожнее всех подпускает их к обычной работе. Моя трактовка: это управляемое внедрение — технологию пускают туда, где она усиливает экономику, и придерживают там, где бьёт по социальной стабильности.

Третье, совсем бытовое, но оно меня добило. Пластик. В Китае везде очень качественный пластик. Открываешь обычное печенье из супермаркета — а тактильно это как распаковка последних наушников Bose: плотные материалы, подогнанные крышечки, приятные фактуры. Мелочь, конечно. Но она объясняет, почему китайские гуманоиды выглядят серийным продуктом, а не прототипом: за ними производственная культура, где даже упаковку печенья делают с точностью, о которой многие производители только мечтают. Дешёвая рабочая сила давно не главное преимущество Китая. Главное — фабричная точность в масштабе целой страны.

Скамейка роботов в Robot Mall. Я - единственный на фото, кому нужны еда, сон и зарплата. Кстати, всех этих роботов можно купить прямо в магазине. Цена около 1 млн.рублей.

Каждое печенье упаковано в пластик уровня упаковки топовых наушников Bose

Роботизированный ресторан на территории Robot Mall

Общий вывод: второй рынок AI уже сложился

Соберу всё вместе.

Спорить о том, догнал Китай Америку в AI или нет, можно долго — соперничество между ними никуда не делось, и обе стороны внимательно следят друг за другом. Но сам этот спор не так важен. Важно, что в Китае сложился полноценный второй рынок AI — со своими моделями, своим железом, своей инфраструктурой и своим темпом. У него другая экономика инференса, свои форматы контента вроде вертикальных сериалов, своё отношение к роботам. Это давно не копия западного рынка с отставанием — он живёт по собственным правилам.

Маркетинг китайцы, к слову, тоже умеют — TikTok тому доказательство. Но сильнее всего меня зацепило другое: скорость, с которой технология проходит путь от демо до работы в проде. Под это существуют целые агентства и партнёрские сети — они помогают быстро тестировать продукты, собирать обратную связь и доводить их до массового рынка. Дистанция от «вау, это возможно» до «окей, это уже работает» в Китае короче, чем где-либо, где я был.

Что это значит для нас лично (для GPTunneL). Нас часто спрашивают, кого мы считаем конкурентами. Локальные аналоги мы, конечно, отслеживаем. Но ориентируемся на сильнейшие AI-компании мира — на тех, кто строит не только продукт, но и инфраструктуру и рынок вокруг себя. И если делаешь AI-компанию в 2026-м, смотреть только на американский рынок — значит видеть половину картины.

Задача GPTunneL в этой картине простая: не подключать «все новые модели» ради витрины, а отбирать те, которые превращаются в решения для нашего рынка — контент, голос, видео, enterprise-сценарии. И привозить из таких поездок не новости про AI, а технологии, которые можно внедрять. Из поездки уже есть конкретные результаты: доступ к новым моделям в продукте, доработка моделей под русский язык, хакатон с ВШЭ. Следующим пунктом в этом списке я хочу видеть робототехническое решение под конкретные задачи на территории СНГ.

Как обычно: это личный взгляд, спорить в комментариях — приветствуется, ради этого и пишу.

Если хотите следить за такими вещами вживую, не дожидаясь статей, — у меня есть телеграм-канал https://t.me/kliment_vikulov : там я показываю изнанку (ту, что не под NDA) — поездки, переговоры, тесты моделей и иногда очень неожиданных пользователей нашего сервиса.