A-Vibe от Авито, токенизация и оценка стоимости / Habr

Примечание по просьбе AvitoTech и PR-команды Авито: мы не являемся аффилированными с Авито, а представляем команду независимых энтузиастов ИИ. В статье изложена наша оценка релиза модели A-Vibe, которая может не совпадать с официальной позицией компании. Наш Telegram-канал: https://t.me/cocal_ai

Модель A-Vibe разработанная командой Авито, заняла первое место среди моделей до 10 млрд параметров в независимом русскоязычном бенчмарке MERA, обойдя аналоги от OpenAI, Google и Anthropic.

Ключевые достижения A-Vibe:

Генерация кода: на 25% лучше, чем Gemini 1.5 Pro с 8 млрд параметров.
Ведение диалогов: точность на 32% выше по сравнению с Llama 3.1 (405 млрд параметров).
Анализ текста: на 23% точнее, чем Claude 3.5 Haiku.

A-Vibe создана на базе Qwen 2.5 7B с заменой стандартного токенизатора на собственный, что ускорило обработку русского языка в 2 раза и улучшило качество генерации текста.

Модель уже помогает продавцам создавать привлекательные описания товаров, генерировать резюме и ускоряет коммуникацию в мессенджере платформы. До конца года планируется внедрение ещё 20 сценариев использования ИИ.

В перспективе компания рассматривает возможность открытия исходного кода A-Vibe для сообщества.

Почему токенизация решает?

Один из самых недооценённых аспектов современных LLM — токенизация. Это способ, которым модель разбивает текст на элементы, с которыми работает. Почти все модели используют вариации BPE (Byte-Pair Encoding), обученные на англоязычных корпусах. Но вот проблема: русский язык — морфологически сложный и фонетически “глубокий”. А значит, стандартный токенизатор с ним работает плохо.

Что не так со стандартными токенизаторами?

Например, фраза: “информационно-аналитическое обеспечение деятельности” в GPT или стандартном Qwen 2.5 токенизаторе может быть разбита на 13–16 токенов, примерно так:

ин, форма, ционно, -, анал, ит, ичес, кое, об, есп, ечение, де, ятель, ности.

Это растягивает контекст, снижает точность понимания и увеличивает стоимость inference (особенно в длинных диалогах).

Что сделала команда Авито?

Создала собственный токенизатор, обученный на русскоязычном корпусе — это позволило:

Уловить естественные границы слов и морфем.
Сократить количество токенов на фразу в 1.5–2 раза.
Сильно ускорить обработку: меньше токенов = меньше шагов = быстрее и дешевле.

Переобучили embedding-слой модели, чтобы он соответствовал новому токенизатору. Это непростое решение: изменение токенизатора ломает всю архитектуру — модель больше не может использовать старые веса. Поэтому команды редко идут на это, особенно без full retraining. Авито пошли и получили настоящую русскую LLM, а не просто “английскую модель с русскими данными”.

Сколько стоит разработать такую модель, как A-Vibe?

Создание A-Vibe — это не обучение LLM с нуля, а грамотный fine-tuning существующей модели (Qwen 2.5 7B) с глубокой адаптацией под задачи и язык. Ниже — наша оценка затрат, которую можно использовать как ориентир для реальной стоимости обучения.

1. Подготовка датасета

Объём: 50–300 млн строк на русском.
Источники: общедоступные тексты, чат-логи, объявления, новости, синтетические данные.
Этапы: очистка, фильтрация, приведение к формату instruction/response (если SFT).
Инструменты: Dolma, Oscar, clean-text, Pile scripts.

Оценка:

ЗП команды (1–2 NLP-специалиста): $5k–15k
Очистка и обработка: $1k–3k
Итого: $6k–18k

2. Разработка токенизатора

Обучение BPE/Unigram токенизатора на собственном корпусе.
Анализ coverage на тестах (википедия, юридические тексты, технические описания).
Проверка: насколько новый токенизатор “сжимает” текст по сравнению со старым.

Пример:

"оптимизация распределённых вычислений"
- В старом — 8–9 токенов
- В новом — 4–5 токенов

Оценка:

Специалист на 3–4 недели: $4k–8k
GPU-тесты и ретренинг: $1k
Итого: $5k–9k

3. Обучение модели под новый токенизатор

Переобучение эмбеддингов (и иногда – 10–20% всей модели), чтобы она “поняла” новые токены.

Объём: ~10–15% параметров → 700M–1B из 7B.
Датасет: 50–100B токенов.
Инфраструктура: A100 кластер, 4–8 машин, ~3–7 дней.

GPU cost:

20k–40k GPU-часы * $1.2/час = $24k–$48k
С оптимизациями (Deepspeed, FlashAttn): ~$20k–30k
Итого: $20k–30k

4. Instruction tuning (SFT)

Обучение модели следовать инструкциям, диалогам, стилям общения.
Датасет: 100k–1M примеров (частично сгенерированы другой LLM).

Пример:

Инструкция: “Сделай продающее описание для холодильника LG…”
Ответ: “Надёжный, вместительный холодильник LG с функцией No Frost…”

Оценка:

GPU (2k–4k часов): $2.5k–4k
Обработка, проверка, фильтрация: $4k–8k
Итого: $7k–15k

5. Оценка и бенчмаркинг

Подключение к MERA
Прогонка по тестам, анализ слабых мест, ретюнинг
Вывод метрик, сравнение с другими моделями

Оценка: $3k–5k

6. MLOps и DevOps

Пайплайны обучения, валидации, версионирование моделей
Автоматизация запуска на кластерах, логгирование, мониторинг
Вывод модели в production внутри Авито

Оценка: $10k–30k

7. Менеджмент и коммуникации

Координация между R&D, продуктом, юристами, маркетингом
Демки, интеграции, документация

Оценка: $10k–20k

Итоговая смета:

Этап	Реалистично
Данные	$6k–18k
Токенизация	$5k–9k
Переподготовка модели	$20k–30k
SFT	$7k–15k
Бенчмаркинг	$3k–5k
MLOps	$10k–30k
Менеджмент	$10k–20k

ИТОГО: $90k–190k
Максимум (корпоративный оверхед, интеграция в продукт, поддержка): $250k+

Кто ещё так делал?

A-Vibe — не единственный случай, когда кастомизация и работа с токенизацией приносили выдающийся результат. Ниже — несколько примеров, где не полный pretraining, а тонкая доработка существующей модели привела к прорыву:

Mistral (и Orca-Mistral от Microsoft) Используют open-source архитектуру с дообучением на продуманном SFT-корпусе. В Orca-Mistral применялась донастройка с фокусом на reasoning и цепочки размышлений (CoT), что позволило ей показать выдающийся результат в reasoning-бенчмарках при размере всего 7B.
DeepSeek-VL Модель от китайского проекта DeepSeek. Команда собрала собственный токенизатор и проводила multi-modal tuning (текст + визуал), добившись качества, сравнимого с GPT-4-Vision, на базе модели до 20B.
TURBO.AI (Тинькофф) Российский пример: команда не раскрывала архитектуру, но известно, что они использовали Mistral и проводили частичный retraining + SFT + кастомную токенизацию под финансы и юридическую лексику. Получили качественный чат-ассистент внутри банка.
YandexGPT 3 Пример от Яндекса: кастомный токенизатор + мультиязычность + доменные данные. Несмотря на закрытость, на тестах вроде MERA показывает уверенные позиции среди моделей 10–30B.

Заключение: эпоха умных кастомизаций

История A-Vibe показывает: чтобы создать конкурентоспособную языковую модель, не обязательно начинать с нуля и жечь миллионы на pretraining.
Можно:

Взять мощную open-source основу (Qwen, Mistral, LLaMA),
Продумать токенизацию под язык/нишу,
Провести качественный SFT и оценку на релевантных задачах,
И получить модель, которая побеждает продукты от OpenAI и Google в конкретном контексте (например, русском языке).

Порог входа в разработку LLM снижается. Но выигрывает не тот, у кого больше GPU — а тот, кто тоньше понимает задачу и пользователя.

Наш телеграм канал с новостями и туториалам про нейронки: https://t.me/cocal_ai