Comments 31
Сбер объяснил наконец, каким образом создал с нуля Gigachat 3 на своих A100, и почему поведение получилось дипсика, со всей унаследованной от GPT русофобией?
До этого ни о каких российских LLM говорить смысла нет. У Яндекса квен за безумные деньги - тоже ни о чем.
Там вообще сплошная фобия. Меня забанили за безобидный вопрос по философии Хайдеггера (именно по философии, по БиВ, а не по его политическим взглядам). Человеческие админы подтвердили бан. Пытаюсь понять, это что вообще было? 451 градус какой-то
Модель АвтоВАЗа это максимум на что можно рассчитывать в нашем государстве сейчас.
Ну или москвич 3)
Тут не могу сказать. Лучше у самого Сбера спросить. В целом мы подобный вопрос с ними обсуждали - но они настаивают что у них своя модель полностью обученная с нуля (во что, лично я, слабо верю)
Типичный взгляд представителя бизнес-слоя, который судорожно пытается спасти умирающую модель чистого агрегатора под соусом партнерства с МТС. Но если убрать пиар-глянец ЦИПРа и посмотреть на текст глазами системного инженера, то автор находится в глубочайших и опасных заблуждениях.
Он пишете про дуализм Сбера и Яндекса, но на самом деле никакого дуализма нет. То, что две огромные компании монополизировали рынок, завезли по параллельному импорту стойки с H100 и выкатили закрытые облачные API, ровным счетом ничего не значит. В реальные мозги промышленности они не пошли и пойти не могут.
Весь пассаж про то, что гонять инференс на датацентровых картах, это возить пиццу на КамАЗе, и предложение строить enterprise-контур на потребительских RTX 5090 выдает человека, который никогда не держал под реальной нагрузкой (high concurrency) боевые системы с жестким SLA.
На инференсе больших моделей главным бутылочным горлышком (bottleneck) является не вычислительная мощность ядра, а пропускная способность памяти (Memory Bandwidth) при генерации токенов. Игровые карты с их GDDR-шиной сольют датацентровым картам с HBM3e памятью на первом же серьезном батче (Batch Size). Latency улетит в космос. На потребительских картах нет полноценной коррекции ошибок памяти. В режиме 24/7 под нагрузкой случайный переворот бита (bit flip) от перегрева, это норма. Для геймера это вылет текстуры. Для ИИ-агента в банке или на производстве, это невалидный json, перепутанная цифра в счете и сломанная база данных. Попробуйте засунуть четыре прожорливые RTX 5090 с их гигантскими воздушными кулерами в стандартную серверную стойку 19", они расплавят сами себя. Датацентровые шасси (SXM5/OAM) спроектированы под сквозной продув и жидкое охлаждение не просто так. Автор радуется, что ОАК или ОДК тестируют GigaChat. Но ни один вменяемый архитектор критической инфраструктуры никогда не пустит внешнюю закрытую модель (black box) через облачный API в реальный технологический контур. Если проектирование деталей или контроль сборки зависит от удаленного сервера Сбера или Яндекса, это не суверенитет, это критическая уязвимость системы (а если сеть моргнет, а если веса на сервере обновят и модель начнет галлюцинировать?). Реальной промышленности нужен On-Premise и Open-Source (по типу Llama-3, Qwen и собственные дообученные модели), развернутые локально, внутри своего закрытого контура, а не ваши ИИ-Фабрики и Нейрошлюзы. Его так же удивляет засилие лоукода и тому, что Россия на полтакта позади от мирового Vibe Coding. А как иначе? Конструкторы вроде перетащи кубик, соедини стрелочкой тоннами закупаются ИТ-директорами легаси-структур ровно потому, что их можно красиво показать на слайдах министерствам. Реальные автономные ИИ-агенты, работающие напрямую с кодовой базой, тестами и компиляцией, требуют жесткой, суровой инженерной культуры разработки. Корпоративная машина ленива и неповоротлива, ей проще купить обертку над чужим API, назвать это ИИ-Фабрикой и продолжать штамповать неэффективный софт.
Вся статья по сути, это прекрасный маркер паники агрегаторов, чью маржу схлопнули серый рынок снизу и облачные монополисты сверху. Но не нужно выдавать попытки коммерсантов продать губернаторам обертки над GigaChat за реальное технологическое развитие отрасли. Настоящие мозги ИИ создаются на уровне оптимизации инференса в компиляторах и железе, а не на выставках и показах высокому начальству.
Совершенно сугубо. По хорошему крупняк должен не фигнёй страдать, из серии яша/сбер запили нам своё. А открывать специализированные отделы а то и депы, проектирующие интеграцию с ИИ. На крайняк - нанимать профи для настройки процессов и поддержания потом, но это такое. "приходящий сисадмин" актуален для компании в 10 человек, но аутсорсить айти для корпорации - нонсенс. Тут ровно всё так-же, и лишь костность мышления ЛПР компаний сдерживает от бурного роста. Да, с железом есть сложности, но решаемые на уровне корпораций.
Спасибо за разбор по делу, приятно читать такие комментарии :)
Где вы правы - там не спорю. HBM против GDDR, bandwidth как боттлнек на больших батчах, ECC, bit flip от перегрева - всё так.
Про перегрев именно четырых 5090 в стаднатрных 19 дюймах серверных юнитах - пока лично я не могу сказать, тк мы как раз в изучении данного вопроса. Но есть заявление, как минимум, одного поставщика, что так работать может и уже проведены нагрузочные тесты. Как узнаю - напишу результат.
Под задачи на 7–32B, а их в корпоратах большинство — спокойно живут на потребительском железе, и там оно дешевле. Фронтир и 70B+ требуют датацентровых карт с NVLink и ECC - я так и писал.
Далее Вы пишите что корпам нужен on-premise в закрытом контуре. ИИ-Фабрика - это и есть on-premise в контуре заказчика, данные не покидают периметр. Возможно, вы упустили это в моем тексте.
Про «панику агрегатора», чтобы обвинить меня в том, что агрегатор мёртв, надо пропустить целый абзац в моей статье и не читать мои другие статьи на хабре, где я пишу что на чистом агрегаторстве, как это массово сложилось сейчас в России (обертка поверх чужих апи) - бизнес не построишь, и мы уже давно не там. Я это говорю с начала 2025 года :)
Спасибо за комментарий, еще раз!
А почему у вас в gptunnel кэшированные токены не тарифицируются отдельно, если что, они обычно в 10 раз дешевле ;)
А модель уровня 30B в квантизации спокойно живёт на потребительском Blackwell — RTX 5090 с 32 ГБ
И сколько клиентов такой сервер одновременно обслужит?
Обучение конкурентоспособной фронтир-модели - это, по оценкам, которые звучали на форуме, расходы порядка триллиона рублей
А чего не квадралион?
А то вот чуваки из Стэнфорда не знают, говорят LLaMA 3 400 B всего за 75M $ обучили
https://www.youtube.com/watch?v=9vM4p9NN0Ts&t=3496s
Сверху маржу давят крупные игроки с собственной инфраструктурой. Когда у тебя свои дата-центры, доступ к моделям перестаёт быть отдельным бизнесом и становится копеечной услугой поверх того, что и так есть.
А почему же у них тогда цены в сто (или в тысячу?) раз дороже, чем в остальном мире?
У Ростелекома есть Нейрошлюз. Билайн пошёл к малому бизнесу и ИП: доступ к топовым моделям — Claude, Seedance 2.0, Veo, NanоBanana и тд — можно подключить прямо в личном кабинете оператора; ход, на мой взгляд, разумный.
А покупать у Билайна чатгпт который забанил РФ это надежное решение?) Кстати где у Билайна Seedance?
подключить Claude для написания кода... ИИ-Фабрика делает ту же задачу внутри собственного контура компании
ну чудеса)
Данные у вас - а не в Клоде. Клод - api, которое потом можно еще и на GLM в своем контуре, например, переключить.
Яндекс зашёл с другой стороны — со стороны продукта для людей
Вот когда Алиса AI подойдёт к уровню DeepSeek по практическому применению для реальных инженерных задач , тогда этот тезис станет истинным.
А пока - с Алисой только поиграться .
Всю статью можно поместить в десяток хороших абзацев, но тогда придётся бахнуть весь нейрослоп. Чудовищный жест, ничего не скажешь. Будем читать нейрослоп.
За статью спасибо. Хотя она интересна не оценками, а информацией, поверх которой эти оценки делаются.
Действительно, в России пока никаких более менее заметных подвижек с ИИ не видно и не предвидится. Не вовремя мы с колен начали вставать, уж извините за такое проявление нелояльности.
И, кстати, дежурное уже "но специалисты у нас все равно клевые" не сильно соответствует действительности. Разработчики действительно клевые, но они такие везде, а вот другие слои, которые должны этих разработчиков направлять и оборачивать - в полном Ж.
Спасибо. И спасибо отдельно за «интересна информацией, а не оценками» — это ровно то, чего я и хотел: оценки мои личные, верно. А вот по фактуре каждый может сделать свои выводы.
Про «слои, которые оборачивают разработчиков» - соглашусь, но смягчу. Не везде Ж. Там, где продуктом занимаются люди, которые сами понимают технологию, а не пересказывают её с чужих слайдов, то там получается нормально. Но проблема в том, что таких пока мало.
Весь промышленный ИИ в России сегодня держится на двух компаниях — на Сбере и Яндексе.
Но ЦИПР — форум не про общие модели, а про промышленный ИИ.
Явное противоречие в этих фразах. Раз уж “промышленный ИИ” это общее понятие, а не только про генеративные модели, то “промышленный ИИ” никак не сводится к двум компаниям.
И вот тут ключевая мысль всего текста.
Промышленный ИИ в России сегодня нельзя купить как готовый продукт. Потому что это пока и не продукт — это серия партнёрств вокруг доступа к данным. ОАК пускает партнёра к своим данным по нервюрам — и тот обучает модель. ОДК пускает к данным с производства двигателей — и появляется компьютерное зрение. Каждый промышленный кейс — это отдельная сделка про данные, а не покупка лицензии.
Ключевая мысль сгенерирована ИИ ?
Объединённая двигателестроительная корпорация (ОДК) делает со Сбером компьютерное зрение
Компьютерным зрением начали заниматся задолго до распространения генеративных моделей. Компаний, которые занимаются компьютерным зрением, явно больше чем две.
Банально, но ИИ это дорого. В странах, с которыми мы постоянно сравниваемся, деньгами заливают ошибки инженеров и менеджеров. По сложившейся традиции заимствуем, повторяем и улучшаем, с запазднием. Хотим дёшево и быстро, а потом ругаемся на качество.
В части баснасловных сумм. Представьте, что у вас штат 1000+ в RnD и их нужно занимать чем-то где есть спрос. Не следует трактовать эти цифры будто это исключительно инвестиции. Часто это OPEX и небольшие (по меркам корпораций) вложения под ожидаемую выручку. Не прибыль. Выручку. Далее маркетинг делает своё дело и появляются истории для всех целевых аудиторий:
для чиновников ради субсидий;
для разработчиков ради найма;
для пользователей ради хайпа.
Итого, вы просто перераспределили бюджет прошлого года. Далее, например, придумали такую смелую историю как "коммерциализация". Идея в том, чтобы начать продавать то, что делается внутри и для собственных нужд организации. Улучшая собственные процессы вы пытаетесь отбить затраты делая Продукты, заключаете партнёрства и подписываете соглашения о намерениях для дальнейшей продажи/внедрения. Выглядит как правильное дело! Если вы продуктовая компания, то даже проще.
В заключении, эффект от всех перечисленных историй крайне сложно посчитать, а в силу отсутствия конкуренции в стране денежные потоки оборачиваются и оборачиваются. Тот самый эффект подтверждается под честное слово. Бюджет переносится в новый год. Бонусы за отечественный ИИ платятся. Всем выгодно, кроме конечного потребителя, но куда мы денемся благодаря помощи государства в лице РКН и прочих лобистов, кому не выгодно терять тот самый бюджет?
ЦИПР хорош. Выводы делает каждый сам.
"""Любопытно, что отставания в кадрах и фундаментальной науке эксперты на форуме как раз не фиксируют """ - а оно им надо??? В МГУ открыли факультет ИИ. Интересно узнать мнение Автора статьи о предполагаемых зарплатах выпускников, насколько меньше доставщиков пиццы?
"С кем из корпоратов ни заговоришь про ИИ, за спиной у него либо Сбер, либо Яндекс"
вопрос оптики. Вы говорите с теми, кто плохо знаком с промышленным ИИ. Да, рынок молодой, не все решения зрелые и упакованы как продукт. Но компаний, которые пушат эту тему, более чем достаточно. Просто они не готовы сливать бюджеты на выставочные стенды как Сбер.
Справедливо - "вопрос оптики". Конкретно ЦИПР показывает тех, кто на ЦИПР приехал.
Опять же, повторюсь, возможно, картину я вижу не всю. Будет фактура, которая её поправит - скидывайте, с удовольствием разберу.
Вот статья, которая человеческим языком раскрывает все тайны Российского ИИ: https://www.comnews.ru/content/245257/2026-05-14/2026-w20/1008/vychislitelnyy-tupik-pochemu-rossiyskiy-ii-ostaetsya-bez-moschnostey
Вкратце. За единицу приняли H100. В России (как примерно и у автора) 20.000 карт. А дальше сравните порядки цифр: и всё становится ясно. Никаких отечественных моделей не существует, и дело не в данных.
Сергей Миневич назвал топ стран по ИИ-вычислениям (TRG Datacenters / Forbes, сентябрь 2025):
1. США (39.7 млн H100e)
2. ОАЭ (23.1 млн H100e) - за счёт масштабных госпрограмм и партнерства с Microsoft (G42)
3. Саудовская Аравия (7.2 млн H100e)
4. Южная Корея (5.1 млн H100e)
5. Франция (2.4 млн H100e)
6. Индия (1.2 млн H100e)
7. Китай - в официальном рейтинге Epoch AI Китай занижен из-за "темных вычислений", но реальные оценки (GeoCoded) ставят его на уверенное второе место.
так, стоп, не ныть! Мы тут сверх (всего) держава! у нас самые стойкие оловянные солдатики и самый мудрый пендальф-правитель! а вы тут со своим ИИ лезете! кому надо - тот стойки привез откуда нада! вместо писательства -все валим на заводы - собирать стимпанк-дроны!
Поделитесь пожалуйста опытом. Вот вы 32B модель раскатываете на RTX5090. А под нагрузкой параллельных запросов от пользователей куда деваете KVкэш?
Спасибо за обзор, приятно читать, хотя местами показалось водянисто.
Не ясно почему тот же Сбер и Яндекс не строят Цоды - купить H200 по паралельному не сложно. Все есть в наличии. Возможно вопрос договоров на коммерческие поставки.
Яндекс со своими ценами в 100 раз выше на модели чем западные компании идет в лес.
Вместо того чтобы занять поляну розничного инференса, которая освобождается в свете блокировок западных компаний, кажется они всеми силами делают все наоборот. Ощущение что развитие ИИ и ИТ отрасли специально тормозят.
И тот же Сбер буксует, скорее всего из за лютой бюрократии и не понимания менеджмента. Гигачат который успешно стартанул в прошлом году, сейчас отстал, и давно не обновлялся. Статьи сравнения, можно найти тут на хабре.
Два игрока на весь российский рынок ИИ: что показал ЦИПР-2026