Как стать автором
Обновить

Комментарии 11

Спасибо за статью. Whisper, который SOTA для Speech-to-Text, на русском вроде в том числе, сам расставляет и знаки препинания, и заглавные буквы. Только что проверил. Рекомендую посмотреть на него, тем более на днях третья версия опенсорснулась.

Спасибо. Думаю, из сравнения качества пунктуации у BERT и Whisper можно будет сделать отдельную статью.

Улучшить модель можно добавив разметку частей речи. Попробуйте.

Спасибо за совет. А как вы рекомендуете размечать части речи в исходных текстах? Какой-нибудь другой моделью? Если так, то не получится ли, что ошибки этой модели повлекут за собой и ошибки пунктуатора?

От перемножения ошибок качество не улучшается, конечно. То есть, для лучших результатов нужно использовать один (ваш) датасет, с разметкой и частей речи, и пунктуации одновременно. Открытых моделей не встречал. Обучите сами.

Для морфологического анализа русскоязычного текста есть Mystem от Яндекса, и Python-привязка к нему.

У чатжпт галлюцинации можно легко отследить. Вы же даете известный текст, результат от чатжпт переводите обратно в нижний регистр и удаляете все знаки и сравниваете два текста. Если отличаются, там галлюцинации. Можно этот только кусок дать еще раз.
А так написали про Whisper. И вот его можно натравить на всяких блогеров, интервьюверов и насобирать еще больше датасета. Там возможно домен будет еще ближе к решаемым задачам.

А за статью и исходники большое спасибо.

Очень интересная статья, спасибо. Было бы здорово услышать (возможно - через какое-то время) о реальных случаях использования. Сейчас, если честно, не до конца понятно (для человека со стороны) - для чего это нужно :) например, режим «реального времени» - он для чего?

Интересная статья! Способ получения датасета необычный) Одно но: для опенсурсных моделей это работает, но вот стоило ли заниматься файнтюнингом ChatGPT? Кажется, с небольшим промптом GPT-4 и так бы справился. Надо проверить и этот вариант. Плюс, как указали выше, ещё есть натренированный Whisper.

А для опенсурсных решений классно!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории