Anastasiya_Rysmyatova 24 окт 2024 в 09:00

Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

Средний

7 мин

10K

Блог компании AvitoTechIT-компанииМашинное обучение*Искусственный интеллект

Обзор

+29

Комментарии 15

azzas 24 окт 2024 в 11:20

Вы бы лучше точный адрес продавца вернули в объявление, сделали чтобы область поиска не сбрасывалась после ввода поискового запроса, откровенно мошеннические и спамерские объявы блокировали, аккаунты не блочили на ровном месте.

А вот эта балалайка для сайта с объявлениями нафиг не нужна.

Стойкое ощущение что толпе разработчиков просто надо давать какие то задачи вот и появляется такой "функционал", чтобы не сидели без дела.

С каждым обновлением что приложения что сайта становится все менее удобно пользоваться.

troublehabr 24 окт 2024 в 12:03

Точный адрес — это тот, где продаваны указывают «Охотный ряд», сидя в Бибирево или ближайшее метро, когда товар надо забирать в Подмосковье? Мне вот не сложно уточнить у продавца, где он реально находится, а не по адресу в объявлении.

А про то, что «разработчикам надо делать задачи» — мне оч нравится автозаполнение, удобная штука, особенно когда много объявлений выкладываешь.

alexxxdevelop 24 окт 2024 в 11:43

Спасибо за полезную статью. Ничего не понятно конечно, но очень интересно. Это из-за отсутствия опыта у меня по нейронным сетям. А в качестве отправной точки статья вполне годится как инструкция.

Вопрос: для обучения модели вы использовали свои наработки на питоне или какие-то готовые инструменты?

Anastasiya_Rysmyatova 24 окт 2024 в 14:31

Спасибо! Для обучения моделей мы используем различные OS библиотеки, например transformers. Часть кода дописываем, переопределяем некоторые методы.

DSkorinkin 24 окт 2024 в 12:39

Например, пользователь продает костюм Adidas — LLM тоже находит модель этого костюма.

У вас на картинке при этом написано "Модель нашла **Слово пацана** " :) Это такая переменная для артикула этого конкретного костюма или что? Она точно нашла?

Anastasiya_Rysmyatova 24 окт 2024 в 14:46

LLM решила, что модель данного костюма "Слово пацана".

LLM научилась вытаскивать название товара, которое указал пользователь. В данном объявлении с костюмом Adidas не была указана модель товара, но пользователь сам придумал название этому товару и LLM смогла его определить :)

d00m911 24 окт 2024 в 16:58

А настолько ли критично было дообучать и использовать 7b модели вместо, скажем, новых моделей qwen 2.5, которые гораздо лучше владеют русским языком?

Anastasiya_Rysmyatova 24 окт 2024 в 19:00

Когда дообучали qwen 2.5 еще не вышла. А так постоянно выходят новые модели, но их тоже можно адаптировать под наш домен и подменить токенизатор.

Даже если модель хорошо владеет русским языком, подмена токенизатора позволяет ускорить инференс. А это очень важно в нашем случае.

ENick 24 окт 2024 в 17:02

На каком железе модели запускали? Какие временные затраты?

Advisory 24 окт 2024 в 17:30

Так написано же: "Дальше мы взяли Mistral-7B-v0.1 и дообучили её на этих данных на задачу next token prediction. Нам было доступно 72 GPU A100 80GB на ML Space. Одна эпоха обучения длилась 15 дней."

Не знаю сколько стоит для внешних клиентов аренда GPU на платформе ML Space (это облачная платформа для машинного обучения от Сбера), но средние коммерческие расценки $2-4 в час в зависимости от провайдера.

Если сделать приблизительный расчет:
72 GPU × 24 часа × 15 дней × $3/час (среднее) = около $77 760 за одну эпоху обучения по коммерческим расценкам облачных провайдеров.

"Оказывается, можно довольно дешево получать адаптированный LLM под ваш домен — использовать подход continual pre-training и прикручивать новый токенизатор. Это позволяет растить метрики языковой модели внутри вашего домена."

vkom76 27 окт 2024 в 21:23

Подколол, красавчег! Настя, скажите, порядок суммы хотя бы совпадает или у Авито льготные тарифы?

Anastasiya_Rysmyatova 1 ноя 2024 в 12:28

Здравствуйте, такой информацией не можем делиться

Graid 24 окт 2024 в 20:20

А экономику кто-то считал? Ну вот инференс в полтора раза дороже и медленнее, но модели сейчас клепают как пирожки, и через месяц выйдет модель, бьющая все усилия разработчиков и компьют на претрейн. Успело вложенное окупиться за этот месяц или стоило потратить больше на более крупные и "умные" модели, а потом свичнуться на новую модель, не повторяя все заново и не отставая всегда на поколение?

KonstantinKosvintsev 30 окт 2024 в 16:39

Очень круто, здорово. Интересно сравнение вашей новой обученной модели с моделями GigaChat и YaGPT - там-же тоже дообученные модели на русском домене. Или с учетом специфики ваших задач - ваша специализированная модель в любом случае будет лучше работать?

KazakovDenis 7 апр в 16:14

Когда ждать Авито на HuggingFace? 😊

Зарегистрируйтесь на Хабре, чтобы оставить комментарий