Примечание по просьбе AvitoTech и PR-команды Авито: мы не являемся аффилированными с Авито, а представляем команду независимых энтузиастов ИИ. В статье изложена наша оценка релиза модели A-Vibe, которая может не совпадать с официальной позицией компании. Наш Telegram-канал: https://t.me/cocal_ai

Модель A-Vibe разработанная командой Авито, заняла первое место среди моделей до 10 млрд параметров в независимом русскоязычном бенчмарке MERA, обойдя аналоги от OpenAI, Google и Anthropic.

Ключевые достижения A-Vibe:

  • Генерация кода: на 25% лучше, чем Gemini 1.5 Pro с 8 млрд параметров.

  • Ведение диалогов: точность на 32% выше по сравнению с Llama 3.1 (405 млрд параметров).

  • Анализ текста: на 23% точнее, чем Claude 3.5 Haiku.

A-Vibe создана на базе Qwen 2.5 7B с заменой стандартного токенизатора на собственный, что ускорило обработку русского языка в 2 раза и улучшило качество генерации текста.

Модель уже помогает продавцам создавать привлекательные описания товаров, генерировать резюме и ускоряет коммуникацию в мессенджере платформы. До конца года планируется внедрение ещё 20 сценариев использования ИИ.

В перспективе компания рассматривает возможность открытия исходного кода A-Vibe для сообщества.

Почему токенизация решает?

Один из самых недооценённых аспектов современных LLM — токенизация. Это способ, которым модель разбивает текст на элементы, с которыми работает. Почти все модели используют вариации BPE (Byte-Pair Encoding), обученные на англоязычных корпусах. Но вот проблема: русский язык — морфологически сложный и фонетически “глубокий”. А значит, стандартный токенизатор с ним работает плохо.

Что не так со стандартными токенизаторами?

Например, фраза: “информационно-аналитическое обеспечение деятельности” в GPT или стандартном Qwen 2.5 токенизаторе может быть разбита на 13–16 токенов, примерно так:

ин, форма, ционно, -, анал, ит, ичес, кое, об, есп, ечение, де, ятель, ности.

Это растягивает контекст, снижает точность понимания и увеличивает стоимость inference (особенно в длинных диалогах).

Что сделала команда Авито?

Создала собственный токенизатор, обученный на русскоязычном корпусе — это позволило:

  • Уловить естественные границы слов и морфем.

  • Сократить количество токенов на фразу в 1.5–2 раза.

  • Сильно ускорить обработку: меньше токенов = меньше шагов = быстрее и дешевле.

Переобучили embedding-слой модели, чтобы он соответствовал новому токенизатору. Это непростое решение: изменение токенизатора ломает всю архитектуру — модель больше не может использовать старые веса. Поэтому команды редко идут на это, особенно без full retraining. Авито пошли и получили настоящую русскую LLM, а не просто “английскую модель с русскими данными”.

Сколько стоит разработать такую модель, как A-Vibe?

Создание A-Vibe — это не обучение LLM с нуля, а грамотный fine-tuning существующей модели (Qwen 2.5 7B) с глубокой адаптацией под задачи и язык. Ниже — наша оценка затрат, которую можно использовать как ориентир для реальной стоимости обучения.

1. Подготовка датасета

  • Объём: 50–300 млн строк на русском.

  • Источники: общедоступные тексты, чат-логи, объявления, новости, синтетические данные.

  • Этапы: очистка, фильтрация, приведение к формату instruction/response (если SFT).

  • Инструменты: Dolma, Oscar, clean-text, Pile scripts.

Оценка:

  • ЗП команды (1–2 NLP-специалиста): $5k–15k

  • Очистка и обработка: $1k–3k
    Итого: $6k–18k

2. Разработка токенизатора

  • Обучение BPE/Unigram токенизатора на собственном корпусе.

  • Анализ coverage на тестах (википедия, юридические тексты, технические описания).

  • Проверка: насколько новый токенизатор “сжимает” текст по сравнению со старым.

Пример:

  • "оптимизация распределённых вычислений"

    • В старом — 8–9 токенов

    • В новом — 4–5 токенов

Оценка:

  • Специалист на 3–4 недели: $4k–8k

  • GPU-тесты и ретренинг: $1k
    Итого: $5k–9k

3. Обучение модели под новый токенизатор

Переобучение эмбеддингов (и иногда – 10–20% всей модели), чтобы она “поняла” новые токены.

  • Объём: ~10–15% параметров → 700M–1B из 7B.

  • Датасет: 50–100B токенов.

  • Инфраструктура: A100 кластер, 4–8 машин, ~3–7 дней.

GPU cost:

  • 20k–40k GPU-часы * $1.2/час = $24k–$48k

  • С оптимизациями (Deepspeed, FlashAttn): ~$20k–30k
    Итого: $20k–30k

4. Instruction tuning (SFT)

  • Обучение модели следовать инструкциям, диалогам, стилям общения.

  • Датасет: 100k–1M примеров (частично сгенерированы другой LLM).

Пример:

  • Инструкция: “Сделай продающее описание для холодильника LG…”

  • Ответ: “Надёжный, вместительный холодильник LG с функцией No Frost…”

Оценка:

  • GPU (2k–4k часов): $2.5k–4k

  • Обработка, проверка, фильтрация: $4k–8k
    Итого: $7k–15k

5. Оценка и бенчмаркинг

  • Подключение к MERA

  • Прогонка по тестам, анализ слабых мест, ретюнинг

  • Вывод метрик, сравнение с другими моделями

Оценка: $3k–5k

6. MLOps и DevOps

  • Пайплайны обучения, валидации, версионирование моделей

  • Автоматизация запуска на кластерах, логгирование, мониторинг

  • Вывод модели в production внутри Авито

Оценка: $10k–30k

7. Менеджмент и коммуникации

  • Координация между R&D, продуктом, юристами, маркетингом

  • Демки, интеграции, документация

Оценка: $10k–20k

Итоговая смета:

Этап

Реалистично

Данные

$6k–18k

Токенизация

$5k–9k

Переподготовка модели

$20k–30k

SFT

$7k–15k

Бенчмаркинг

$3k–5k

MLOps

$10k–30k

Менеджмент

$10k–20k

ИТОГО: $90k–190k
Максимум (корпоративный оверхед, интеграция в продукт, поддержка): $250k+

Кто ещё так делал?

A-Vibe — не единственный случай, когда кастомизация и работа с токенизацией приносили выдающийся результат. Ниже — несколько примеров, где не полный pretraining, а тонкая доработка существующей модели привела к прорыву:

  1. MistralOrca-Mistral от Microsoft) Используют open-source архитектуру с дообучением на продуманном SFT-корпусе. В Orca-Mistral применялась донастройка с фокусом на reasoning и цепочки размышлений (CoT), что позволило ей показать выдающийся результат в reasoning-бенчмарках при размере всего 7B.

  2. DeepSeek-VL Модель от китайского проекта DeepSeek. Команда собрала собственный токенизатор и проводила multi-modal tuning (текст + визуал), добившись качества, сравнимого с GPT-4-Vision, на базе модели до 20B.

  3. TURBO.AI (Тинькофф) Российский пример: команда не раскрывала архитектуру, но известно, что они использовали Mistral и проводили частичный retraining + SFT + кастомную токенизацию под финансы и юридическую лексику. Получили качественный чат-ассистент внутри банка.

  4. YandexGPT 3 Пример от Яндекса: кастомный токенизатор + мультиязычность + доменные данные. Несмотря на закрытость, на тестах вроде MERA показывает уверенные позиции среди моделей 10–30B.

Заключение: эпоха умных кастомизаций

История A-Vibe показывает: чтобы создать конкурентоспособную языковую модель, не обязательно начинать с нуля и жечь миллионы на pretraining.
Можно:

  • Взять мощную open-source основу (Qwen, Mistral, LLaMA),

  • Продумать токенизацию под язык/нишу,

  • Провести качественный SFT и оценку на релевантных задачах,

  • И получить модель, которая побеждает продукты от OpenAI и Google в конкретном контексте (например, русском языке).

Порог входа в разработку LLM снижается. Но выигрывает не тот, у кого больше GPU — а тот, кто тоньше понимает задачу и пользователя.

Наш телеграм канал с новостями и туториалам про нейронки: https://t.me/cocal_ai