Posts / Profile of Xronofag / Habr

Дал большое интервью изданию Tazabek (деловое медиа Кыргызстана, входит в группу АКИpress) — про то, как мы с командой, начав с мобильного оператора, за пять лет собрали полноценную экосистему «Мой О!»: 3,5 млн клиентов и 10+ млн загрузок при населении страны около 7 млн.

Поговорили о том, что обычно остаётся за кадром историй успеха:

Почему телеком-финтех редкая история масштабного успеха не зависимо от географии, ведь стратегии и технологии у всех примерно одинаковые, но экосистемы получились не всех.
Какое архитектурное решение мы приняли на старте и ни разу не пожалели – про «сквозные», но не единые буквально данные, идентификацию и клиентский опыт.
Как устроенбаланс между скоростью и регулятором, и почему регуляторная песочница Национального банка — история не только про нас, но и про всю страну.
Трансграничные коридоры с Kaspi и Uzum — первые прямые финтех-коридоры в Центральной Азии.
Куда всё движется дальше: AI в каждом домене – от скоринга и антифрода до регуляторики.

И главный вывод, к которому мы пришли за эти годы: люди важнее технологий. Все провалившиеся проекты имели лучшие в мире технологии. Не хватило людей, которые собрали бы из этого работающую экосистему под конкретную страну.

Полный текст

А пока вопрос к вам: какие локальные финтех- или экосистемные проекты в ЦА и СНГ вы видели вблизи — и на чём они споткнулись? Интересны конкретные кейсы.

Xronofag

Apr 24 at 18:477.1K

Artificial Intelligence

DeepSeek V4: 8 технических инноваций, de-NVIDIAfication и что это значит для рынка

Вчера OpenAI выпустил GPT-5.5. Сегодня DeepSeek выложил V4 – открытые веса, MIT-лицензия, 1М токенов контекста. Тайминг, конечно...

8 технических инноваций

Техническое описание V4 впечатляет не столько отдельными решениями, сколько плотностью инноваций – DeepSeek упаковал в один релиз больше новых техник, чем большинство лабораторий выпускают за год. Не все из них обязательно окажутся одинаково эффективными, но уровень инженерной амбиции – зашкаливающий.

1. Гибридное внимание (CSA + HCA)

Классический механизм Attention был серьёзно доработан. Теперь используется комбинация Compressed Sparse Attention и Heavily Compressed Attention, заменившая Multi-head Latent Attention из V3 и DeepSeek Sparse Attention из V3.2. У этого есть свои ньюансы и "цена". Эксперты пишут, что это может серьезно влиять на применимость модели в задачах с легаси кодом, так как компрессия контекста будет приводить к тому, что Дипсик 4 сможет корректно работать только с тем, кодом, который написал сам, а на легаси могут быть сюрпризы.

Результат: на окне в 1 миллион токенов модель потребляет лишь 27% вычислений и 10% памяти (KV-кэша) по сравнению с V3.2. Читать целые кодовые базы и книги стало экстремально дешево.

2. Оптимизатор Muon на триллионном масштабе

Индустрия привыкла к оптимизатору AdamW – он де-факто стандарт для обучения трансформеров. DeepSeek перевёл большую часть параметров на Muon – это первый публично известный случай применения Muon на модели масштаба 1.6T параметров.

Muon дал более быструю сходимость и стабильность при обучении гигантской MoE-архитектуры. Ранее он валидировался только на существенно меньших масштабах.

3. Гиперконнекции (mHC)

Классические остаточные связи (residual connections) между слоями нейросети были заменены на Manifold-Constrained Hyper-Connections. С помощью проекции на многообразие Биркгофа через итерации Синкхорна–Кноппа они устранили риск того, что сигналы "взорвутся" при обучении очень глубокой сети – проблему, которая убивала предыдущие попытки сделать обучаемые остаточные связи.

Накладные расходы: всего ~6.7% дополнительных вычислений. Техника была впервые опубликована DeepSeek в январе 2026 года.

4. Слияние знаний через On-Policy Distillation (OPD)

Вместо того чтобы в конце обучать модель всему одновременно (что приводит к размыванию компетенций), авторы пошли двухэтапным путём:

Сначала обучили 10+ узких ИИ-экспертов (отдельно математик, отдельно кодер, отдельно логик и т.д.) через SFT + GRPO (reinforcement learning).
Затем через On-Policy Distillation аккуратно "перелили" знания каждого эксперта в единую финальную модель.

Это устранило проблему, когда знания из одной области мешают другой – так называемое cross-domain interference.

5. Генеративный судья (GRM)

Для обучения сложным задачам DeepSeek отказался от классических скалярных "оценщиков" (как в стандартном RLHF). Вместо числовой оценки "хорошо/плохо" модель теперь сама текстово анализирует свои шаги – Generative Reward Model. Это качественно более богатая обратная связь при обучении.

6. Три режима мышления "из коробки"

Глубиной рассуждений модели можно управлять:

Non-Think – быстрый интуитивный ответ
Think-High – вдумчивый анализ
Think-Max – "выжми педаль в пол": модель расписывает все гипотезы, ищет краевые случаи и доказывает свой ответ (требует ≥384K контекста)

Think-Max – это режим, в котором DeepSeek замеряет свои лучшие бенчмарки. На HLE он поднимает score с 34.5 до 37.7, на SimpleQA-Verified – с 46.2 до 57.

Information

Specialization