Комментарии 11
Спасибо за статью. Whisper, который SOTA для Speech-to-Text, на русском вроде в том числе, сам расставляет и знаки препинания, и заглавные буквы. Только что проверил. Рекомендую посмотреть на него, тем более на днях третья версия опенсорснулась.
Улучшить модель можно добавив разметку частей речи. Попробуйте.
Спасибо за совет. А как вы рекомендуете размечать части речи в исходных текстах? Какой-нибудь другой моделью? Если так, то не получится ли, что ошибки этой модели повлекут за собой и ошибки пунктуатора?
От перемножения ошибок качество не улучшается, конечно. То есть, для лучших результатов нужно использовать один (ваш) датасет, с разметкой и частей речи, и пунктуации одновременно. Открытых моделей не встречал. Обучите сами.
Для морфологического анализа русскоязычного текста есть Mystem от Яндекса, и Python-привязка к нему.
Спасибо за статью!
У чатжпт галлюцинации можно легко отследить. Вы же даете известный текст, результат от чатжпт переводите обратно в нижний регистр и удаляете все знаки и сравниваете два текста. Если отличаются, там галлюцинации. Можно этот только кусок дать еще раз.
А так написали про Whisper. И вот его можно натравить на всяких блогеров, интервьюверов и насобирать еще больше датасета. Там возможно домен будет еще ближе к решаемым задачам.
А за статью и исходники большое спасибо.
Вот что выдает https://openchat.team/
Очень интересная статья, спасибо. Было бы здорово услышать (возможно - через какое-то время) о реальных случаях использования. Сейчас, если честно, не до конца понятно (для человека со стороны) - для чего это нужно :) например, режим «реального времени» - он для чего?
Интересная статья! Способ получения датасета необычный) Одно но: для опенсурсных моделей это работает, но вот стоило ли заниматься файнтюнингом ChatGPT? Кажется, с небольшим промптом GPT-4 и так бы справился. Надо проверить и этот вариант. Плюс, как указали выше, ещё есть натренированный Whisper.
А для опенсурсных решений классно!
Улучшаем пунктуатор на стенограммах