Комментарии 8
Что конкретно могут делать маленькие модели достаточно хорошо? С генерацией пересказом переводом текста они не справляются даже близко
На конфе показывали сценарии:
patreon: выжимка важной информации из непрочитанных сообщений в чате
grammarly: умные подсказки по улучшению написанного текста
Реальные задачи какие. У маленьких моделей маленькое окно и плохое владение языком, как на них можно делать пересказ, выжимку?
В приложении Google Recorder сделали выжимку из аудио (только для английского языка), так что это вполне возможно. Я не проверял, насколько хорошо у них это получилось, но сам факт, что выжимка работает, уже есть. Модель Gemini Nano обучают так, чтобы она решала одну конкретную задачу. Важную роль играет тонкая настройка (LoRA) и данные, на которых обучается модель.
Внезапно - Mixtral-8x7b-32768 вполне себе прилично справляется с пересказом текста, и ответом по нагугленным текстам. Помогает когда джемини фейлится из за цензуры.
7b это же значит всего 7млрд параметров, а русский язык понимает и пишет нормально.
Groq дает ее нахаляву.
.
С обработкой текстов ок понятно, вопрос - а можно использовать для распознавания того же текста на картинках? Как "дообучить" модельку в этом случае (текст на картинке) для своих кейсов (они есть)?
Также, изображение, это набор данных, собираешь большой набор изображений, содержащих текст. Создаешь данные примерно такого вида (привел пример), циферки - это расположение текста (например прямоугольник), ну и сам текст, который на изображении. Дальше запускаешь обучение и тестишь.
{
"image1.jpg": [
{"bbox": [50, 30, 200, 80], "text": "Пример текста"},
{"bbox": [55, 100, 250, 150], "text": "Другой текст"}
],
"image2.jpg": [
{"bbox": [10, 20, 150, 70], "text": "Ещё пример"}
]
}
Генеративный ИИ в Android и эффективность фоновой работы приложения — важное с Google I/O 2024