Комментарии / Профиль dshelukh / Хабр

Дмитрий@dshelukh

Инженер-программист

dshelukh 3 фев 2024 в 09:47

Потому что для задач, на которых мы тестировали, только российские модели отказались отвечать на вопросы. Вопросы были связаны с выделением названий организаций, имён и фамилий из текста новости. Вариации запроса проблему решить не помогали. А так да, у многих моделей есть цензура, но во многих реальных задачах эта цензура не помешает получить ответ

Обзор по LLM

dshelukh 3 фев 2024 в 09:37

Когда мы смотрели на Mistral, он показывал себя довольно слабо на русском языке. А вот интеловский neural, основанный на Mistral, действительно показывает хорошие результаты. Ещё есть mixtral 8x7b - тоже перспективная модель с количеством параметров 46.7B (но для каждого токена используется не более 12.9B параметров). Её мы толком ещё не посмотрели