A-Vibe от Авито, токенизация и оценка стоимости
Примечание по просьбе AvitoTech и PR-команды Авито: мы не являемся аффилированными с Авито, а представляем команду независимых энтузиастов ИИ. В статье изложена наша оценка релиза модели A-Vibe, которая может не совпадать с официальной позицией компании. Наш Telegram-канал: https://t.me/cocal_ai
Модель A-Vibe разработанная командой Авито, заняла первое место среди моделей до 10 млрд параметров в независимом русскоязычном бенчмарке MERA, обойдя аналоги от OpenAI, Google и Anthropic.
Ключевые достижения A-Vibe:
Генерация кода: на 25% лучше, чем Gemini 1.5 Pro с 8 млрд параметров.
Ведение диалогов: точность на 32% выше по сравнению с Llama 3.1 (405 млрд параметров).
Анализ текста: на 23% точнее, чем Claude 3.5 Haiku.
A-Vibe создана на базе Qwen 2.5 7B с заменой стандартного токенизатора на собственный, что ускорило обработку русского языка в 2 раза и улучшило качество генерации текста.
Модель уже помогает продавцам создавать привлекательные описания товаров, генерировать резюме и ускоряет коммуникацию в мессенджере платформы. До конца года планируется внедрение ещё 20 сценариев использования ИИ.
В перспективе компания рассматривает возможность открытия исходного кода A-Vibe для сообщества.
Почему токенизация решает?
Один из самых недооценённых аспектов современных LLM — токенизация. Это способ, которым модель разбивает текст на элементы, с которыми работает. Почти все модели используют вариации BPE (Byte-Pair Encoding), обученные на англоязычных корпусах. Но вот проблема: русский язык — морфологически сложный и фонетически “глубокий”. А значит, стандартный токенизатор с ним работает плохо.
Что не так со стандартными токенизаторами?
Например, фраза: “информационно-аналитическое обеспечение деятельности” в GPT или стандартном Qwen 2.5 токенизаторе может быть разбита на 13–16 токенов, примерно так:
ин, форма, ционно, -, анал, ит, ичес, кое, об, есп, ечение, де, ятель, ности.
Это растягивает контекст, снижает точность понимания и увеличивает стоимость inference (особенно в длинных диалогах).
Что сделала команда Авито?
Создала собственный токенизатор, обученный на русскоязычном корпусе — это позволило:
Уловить естественные границы слов и морфем.
Сократить количество токенов на фразу в 1.5–2 раза.
Сильно ускорить обработку: меньше токенов = меньше шагов = быстрее и дешевле.
Переобучили embedding-слой модели, чтобы он соответствовал новому токенизатору. Это непростое решение: изменение токенизатора ломает всю архитектуру — модель больше не может использовать старые веса. Поэтому команды редко идут на это, особенно без full retraining. Авито пошли и получили настоящую русскую LLM, а не просто “английскую модель с русскими данными”.
Сколько стоит разработать такую модель, как A-Vibe?
Создание A-Vibe — это не обучение LLM с нуля, а грамотный fine-tuning существующей модели (Qwen 2.5 7B) с глубокой адаптацией под задачи и язык. Ниже — наша оценка затрат, которую можно использовать как ориентир для реальной стоимости обучения.
1. Подготовка датасета
Объём: 50–300 млн строк на русском.
Источники: общедоступные тексты, чат-логи, объявления, новости, синтетические данные.
Этапы: очистка, фильтрация, приведение к формату instruction/response (если SFT).
Инструменты: Dolma, Oscar, clean-text, Pile scripts.
Оценка:
ЗП команды (1–2 NLP-специалиста): $5k–15k
Очистка и обработка: $1k–3k
Итого: $6k–18k
2. Разработка токенизатора
Обучение BPE/Unigram токенизатора на собственном корпусе.
Анализ coverage на тестах (википедия, юридические тексты, технические описания).
Проверка: насколько новый токенизатор “сжимает” текст по сравнению со старым.
Пример:
"оптимизация распределённых вычислений"
В старом — 8–9 токенов
В новом — 4–5 токенов
Оценка:
Специалист на 3–4 недели: $4k–8k
GPU-тесты и ретренинг: $1k
Итого: $5k–9k
3. Обучение модели под новый токенизатор
Переобучение эмбеддингов (и иногда – 10–20% всей модели), чтобы она “поняла” новые токены.
Объём: ~10–15% параметров → 700M–1B из 7B.
Датасет: 50–100B токенов.
Инфраструктура: A100 кластер, 4–8 машин, ~3–7 дней.
GPU cost:
20k–40k GPU-часы * $1.2/час = $24k–$48k
С оптимизациями (Deepspeed, FlashAttn): ~$20k–30k
Итого: $20k–30k
4. Instruction tuning (SFT)
Обучение модели следовать инструкциям, диалогам, стилям общения.
Датасет: 100k–1M примеров (частично сгенерированы другой LLM).
Пример:
Инструкция: “Сделай продающее описание для холодильника LG…”
Ответ: “Надёжный, вместительный холодильник LG с функцией No Frost…”
Оценка:
GPU (2k–4k часов): $2.5k–4k
Обработка, проверка, фильтрация: $4k–8k
Итого: $7k–15k
5. Оценка и бенчмаркинг
Подключение к MERA
Прогонка по тестам, анализ слабых мест, ретюнинг
Вывод метрик, сравнение с другими моделями
Оценка: $3k–5k
6. MLOps и DevOps
Пайплайны обучения, валидации, версионирование моделей
Автоматизация запуска на кластерах, логгирование, мониторинг
Вывод модели в production внутри Авито
Оценка: $10k–30k
7. Менеджмент и коммуникации
Координация между R&D, продуктом, юристами, маркетингом
Демки, интеграции, документация
Оценка: $10k–20k
Итоговая смета:
Этап | Реалистично |
Данные | $6k–18k |
Токенизация | $5k–9k |
Переподготовка модели | $20k–30k |
SFT | $7k–15k |
Бенчмаркинг | $3k–5k |
MLOps | $10k–30k |
Менеджмент | $10k–20k |
ИТОГО: $90k–190k
Максимум (корпоративный оверхед, интеграция в продукт, поддержка): $250k+
Кто ещё так делал?
A-Vibe — не единственный случай, когда кастомизация и работа с токенизацией приносили выдающийся результат. Ниже — несколько примеров, где не полный pretraining, а тонкая доработка существующей модели привела к прорыву:
Mistral (и Orca-Mistral от Microsoft) Используют open-source архитектуру с дообучением на продуманном SFT-корпусе. В Orca-Mistral применялась донастройка с фокусом на reasoning и цепочки размышлений (CoT), что позволило ей показать выдающийся результат в reasoning-бенчмарках при размере всего 7B.
DeepSeek-VL Модель от китайского проекта DeepSeek. Команда собрала собственный токенизатор и проводила multi-modal tuning (текст + визуал), добившись качества, сравнимого с GPT-4-Vision, на базе модели до 20B.
TURBO.AI (Тинькофф) Российский пример: команда не раскрывала архитектуру, но известно, что они использовали Mistral и проводили частичный retraining + SFT + кастомную токенизацию под финансы и юридическую лексику. Получили качественный чат-ассистент внутри банка.
YandexGPT 3 Пример от Яндекса: кастомный токенизатор + мультиязычность + доменные данные. Несмотря на закрытость, на тестах вроде MERA показывает уверенные позиции среди моделей 10–30B.
Заключение: эпоха умных кастомизаций
История A-Vibe показывает: чтобы создать конкурентоспособную языковую модель, не обязательно начинать с нуля и жечь миллионы на pretraining.
Можно:
Взять мощную open-source основу (Qwen, Mistral, LLaMA),
Продумать токенизацию под язык/нишу,
Провести качественный SFT и оценку на релевантных задачах,
И получить модель, которая побеждает продукты от OpenAI и Google в конкретном контексте (например, русском языке).
Порог входа в разработку LLM снижается. Но выигрывает не тот, у кого больше GPU — а тот, кто тоньше понимает задачу и пользователя.
Наш телеграм канал с новостями и туториалам про нейронки: https://t.me/cocal_ai