alenusch 15 сен 2023 в 11:00

GigaChat против всех — тестируем языковую модель на генеративных задачах

10 мин

6.4K

Блог компании SberDevicesNatural Language Processing*Машинное обучение*Искусственный интеллект

Комментарии 6

niccolo2019 15 сен 2023 в 14:09

Алёна, я бы посоветовал переписать статью на нормальном русском языке, раз уж о нём речь, вместо кривого, с кучей заимствований, с которыми вы боретесь, «типа-русского» языка итишников.
Рерайтинг - в советской школе на уроках русского языка это называлось изложением.
Суммаризатор - аннотатор; суммаризирование — аннотирование, резюмирование
Симплификация — упрощение, упрощённое изложение, лаконичное изложение
бейзлайн ??? (обычно говорят и пишут через «с»). Да и тут это заимствование совсем не оправдано.
претрейн — подготовка
Было бы интересно посмотреть на то, как ваша система исправит вашу статью от англицизмов и заимствований.

Во-вторых, я конечно понимаю смысл слова «генеративный» но изложение другого материала частично другими словами не является созданием.... Это скорее инструмент плагиаторов и прочих бумагомарателей для обеспечения соответствия требованиям к уникальности текста.....

В-третьих, меряние достоинствами для кого-то здорово, для кого-то глупо, но хотелось бы увидеть примеры решения с вашей системой реальных задач? Помните цитату, приписываемую Фейнману «Если вы ... не можете ... объяснить ... ребёнку, чем вы занимаетесь, — вы шарлатан.
Без реальных практических задач, кроме «облагораживания» плагиата, ваша статья напоминает типичную шарлатанскую шумиху вокруг ИИ.

В-четвёртых, пример с архиепископом не совсем удачный. Система исказила смысл в принципе несложного предложения (архиепископом пострижен кто-то и архиепископ принял постриг), что поднимает массу вопросов к реальной зрелости технологии ...

-3

alenusch 15 сен 2023 в 15:38

Спасибо за Ваши комментарии

Поясню, в научном сообществе приняты термины и постановки задач определенным образом. Для того, чтобы корректно сравниться с известными решениями по ряду прикладных задач есть датасеты и рейтинги систем, описанные в научных статьях (ссылки на которые мы прикладываем в тексте). Там же описаны базовые решения, с которыми мы сравниваемся и соотвествующие автоматические метрики. Для просты изложения, в данной статье мы старались соблюдать названия, принятые в международной литературе.

Попробуйте использовать GigaChat для замены англицизмов или задачи парафраза той части хабр-статьи, которая вас смущает. Это действительно хороший практический пример!

niccolo2019 16 сен 2023 в 22:12

Алёна
1. Когда говорят приняты, подразумевают некий документ, которым они приняты, например терминологический стандарт. Пока уместнее говорить о терминологии, используемой в вашей компании или русскоязычном сообществе разработчиков ИИ.
2. Хабр - скорее околонаучное сообщество, примерно как в советское время подписчики журнала «Наука и жизнь». Почитайте его на досуге хотя бы для общего развития.
3.Для сравнения с другими системами есть наборы тестов. Это понятно... Но речь идёт о датасетах для тренировки/обучения модели... Получить из одних наборов данных с примерно одинаковыми подходами и квалификацией кардинально разные результаты - надо постараться. Скорее всего борьба будет за проценты и доли процентов, которые пользователи не заметят (пример - проценты улучшения распознавания в новых версиях Файнридер уже 15 лет, которые всё никак не достигнут 100%). Чего вы добиваетесь? Не сизифов ли труд делаете?
4. По поводу принятого для темы, которую стали раскручивать меньше года назад, я бы рекомендовал использовать другое слово - используемые.
5. Скажите, зачем пользователям пробовать ваши решения для ваших задач? Пользователям нужно решать свои задачи. Вот поэтому я и спрашиваю, а какая работа проделана с потенциальными пользователями в плане определения их задач, допустимой цены и условий их решения, и какие шаги предпринимаются для удовлетворения потенциальных пользователей, а не соревнований непонятно с кем в циферках?

Как я вижу, подобные системы могли бы быть очень эффективны в автоматическом исправлении орфографических ошибок / ошибок распознавания в тексте за счёт огромной базы, покрывающей все возможные варианты. Если ошибка в слове может быть исправлена 3 способами, то расширение охвата проверки на словосочетание позволит исключить большинство неверных альтернативных вариантов...

Но опять-таки, учитывая закат ОРФО-Информатика и невысокий потенциальный интерес к такой функции онлайн (кто захочет проверять свои документы, отправляя их непонятно кому) я не вижу здесь даже таких финансовых перспектив, которые бы позволили окупить разработку на текущем уровне (даже купить пару H100)
Второе, что вижу, как уже написал - изложение/рерайтинг для антиплагиата и написания текста/перевода на русский неносителями.... Тоже ниша так себе....

Напишите - для решения каких пользовательских (причём желательно без наличия RTX4090) задач вы разрабатываете продукт и какие понятные цели (не циферки с процентиками) вы планируете достичь?

PS. Мне тут минусцов накидали, поэтому могу писать только 1 пост в сутки. Поэтому если дискуссия продолжится, она не будет особо активной.

-2

vagon333 15 сен 2023 в 18:23

ChatGPT более эффективен с англоязычными текстами.
Было-бы правильнее сравнивать ваш GigaChat используя русскоязычный и англоязычный текст.

alex50555 19 сен 2023 в 18:25

Ну, по поводу подбора промтов, почему бы не использовать P-tuning? Яндекс тоже сначала с промптами стучался, а потом на P-tuning перешёл, была здесь, на Хабре, статья.

А попробовать, пробовал и как ассистентом им пользоваться пока не реально, ML, математику, химию не понимает, бред пишет, на замечания не реагирует, дошло даже до того, что знакомый писал про мышей, которые "живут в норках", а GigaChat ему ответил про компьютерные мыши.

Модель маловата конечно, побольше нужна, но на большую нужно на инференс больше тратить) Я вот что предлагаю, почему бы не поиграться с прунингом? Недавно вот либа для этого появилась https://github.com/horseee/LLM-Pruner. Сыровата правда пока, но можно просто попробовать, взять туже llama2 70b и прунить итеративно до 13b, типа такого: 70b -> 60b + fine-tuning -> 50b + fine-tuning и тд. Ну и сравнить с обычной llama2 13b. Если зайдёт, то можно уже про своё подумать. А кажется, что зайдёт.

alenusch 25 сен 2023 в 10:21

Да, разумно
Кажется, что можно как вариант использовать P-tuning с адаптерами в связке, что тоже говорят даёт неплохой буст
Касательно GigaChat, мы работаем над его улучшением (качества ответов в первую очередь). Прунинг уменьшит модель, да скорее не улучшит качество, но спасибо большое за идею, посмотрим тоже!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий