Как стать автором
Обновить

Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров10K
Всего голосов 27: ↑26 и ↓1+29
Комментарии15

Комментарии 15

Вы бы лучше точный адрес продавца вернули в объявление, сделали чтобы область поиска не сбрасывалась после ввода поискового запроса, откровенно мошеннические и спамерские объявы блокировали, аккаунты не блочили на ровном месте.

А вот эта балалайка для сайта с объявлениями нафиг не нужна.

Стойкое ощущение что толпе разработчиков просто надо давать какие то задачи вот и появляется такой "функционал", чтобы не сидели без дела.

С каждым обновлением что приложения что сайта становится все менее удобно пользоваться.

Точный адрес — это тот, где продаваны указывают «Охотный ряд», сидя в Бибирево или ближайшее метро, когда товар надо забирать в Подмосковье? Мне вот не сложно уточнить у продавца, где он реально находится, а не по адресу в объявлении.

А про то, что «разработчикам надо делать задачи» — мне оч нравится автозаполнение, удобная штука, особенно когда много объявлений выкладываешь.

Спасибо за полезную статью. Ничего не понятно конечно, но очень интересно. Это из-за отсутствия опыта у меня по нейронным сетям. А в качестве отправной точки статья вполне годится как инструкция.

Вопрос: для обучения модели вы использовали свои наработки на питоне или какие-то готовые инструменты?

Спасибо! Для обучения моделей мы используем различные OS библиотеки, например transformers. Часть кода дописываем, переопределяем некоторые методы.

Например, пользователь продает костюм Adidas — LLM тоже находит модель этого костюма.

У вас на картинке при этом написано "Модель нашла **Слово пацана** " :) Это такая переменная для артикула этого конкретного костюма или что? Она точно нашла?

LLM решила, что модель данного костюма "Слово пацана".

LLM научилась вытаскивать название товара, которое указал пользователь. В данном объявлении с костюмом Adidas не была указана модель товара, но пользователь сам придумал название этому товару и LLM смогла его определить :)

А настолько ли критично было дообучать и использовать 7b модели вместо, скажем, новых моделей qwen 2.5, которые гораздо лучше владеют русским языком?

Когда дообучали qwen 2.5 еще не вышла. А так постоянно выходят новые модели, но их тоже можно адаптировать под наш домен и подменить токенизатор.

Даже если модель хорошо владеет русским языком, подмена токенизатора позволяет ускорить инференс. А это очень важно в нашем случае.

На каком железе модели запускали? Какие временные затраты?

Так написано же: "Дальше мы взяли Mistral-7B-v0.1 и дообучили её на этих данных на задачу next token prediction. Нам было доступно 72 GPU A100 80GB на ML Space. Одна эпоха обучения длилась 15 дней."

Не знаю сколько стоит для внешних клиентов аренда GPU на платформе ML Space (это облачная платформа для машинного обучения от Сбера), но средние коммерческие расценки $2-4 в час в зависимости от провайдера.

Если сделать приблизительный расчет:
72 GPU × 24 часа × 15 дней × $3/час (среднее) = около $77 760 за одну эпоху обучения по коммерческим расценкам облачных провайдеров.

"Оказывается, можно довольно дешево получать адаптированный LLM под ваш домен — использовать подход continual pre-training и прикручивать новый токенизатор. Это позволяет растить метрики языковой модели внутри вашего домена."

Подколол, красавчег! Настя, скажите, порядок суммы хотя бы совпадает или у Авито льготные тарифы?

Здравствуйте, такой информацией не можем делиться

А экономику кто-то считал? Ну вот инференс в полтора раза дороже и медленнее, но модели сейчас клепают как пирожки, и через месяц выйдет модель, бьющая все усилия разработчиков и компьют на претрейн. Успело вложенное окупиться за этот месяц или стоило потратить больше на более крупные и "умные" модели, а потом свичнуться на новую модель, не повторяя все заново и не отставая всегда на поколение?

Очень круто, здорово. Интересно сравнение вашей новой обученной модели с моделями GigaChat и YaGPT - там-же тоже дообученные модели на русском домене. Или с учетом специфики ваших задач - ваша специализированная модель в любом случае будет лучше работать?

Когда ждать Авито на HuggingFace? 😊

Зарегистрируйтесь на Хабре, чтобы оставить комментарий