DenisBerezutskiy14 ноя 2023 в 00:37

Улучшаем пунктуатор на стенограммах

Средний

29 мин

3.6K

Data Mining * Машинное обучение * Искусственный интеллектNatural Language Processing *

Из песочницы

+13

Комментарии 11

Kristaller486 14 ноя 2023 в 06:49

Спасибо за статью. Whisper, который SOTA для Speech-to-Text, на русском вроде в том числе, сам расставляет и знаки препинания, и заглавные буквы. Только что проверил. Рекомендую посмотреть на него, тем более на днях третья версия опенсорснулась.

DenisBerezutskiy 14 ноя 2023 в 07:54

Спасибо. Думаю, из сравнения качества пунктуации у BERT и Whisper можно будет сделать отдельную статью.

MMik 14 ноя 2023 в 07:13

Улучшить модель можно добавив разметку частей речи. Попробуйте.

DenisBerezutskiy 14 ноя 2023 в 07:53

Спасибо за совет. А как вы рекомендуете размечать части речи в исходных текстах? Какой-нибудь другой моделью? Если так, то не получится ли, что ошибки этой модели повлекут за собой и ошибки пунктуатора?

MMik 14 ноя 2023 в 08:30

От перемножения ошибок качество не улучшается, конечно. То есть, для лучших результатов нужно использовать один (ваш) датасет, с разметкой и частей речи, и пунктуации одновременно. Открытых моделей не встречал. Обучите сами.

pacupa 14 ноя 2023 в 14:34

Для морфологического анализа русскоязычного текста есть Mystem от Яндекса, и Python-привязка к нему.

Heimerdingirl 14 ноя 2023 в 14:34

Спасибо за статью!

AigizK 15 ноя 2023 в 08:24

У чатжпт галлюцинации можно легко отследить. Вы же даете известный текст, результат от чатжпт переводите обратно в нижний регистр и удаляете все знаки и сравниваете два текста. Если отличаются, там галлюцинации. Можно этот только кусок дать еще раз.
А так написали про Whisper. И вот его можно натравить на всяких блогеров, интервьюверов и насобирать еще больше датасета. Там возможно домен будет еще ближе к решаемым задачам.

А за статью и исходники большое спасибо.

AigizK 15 ноя 2023 в 08:30

Вот что выдает https://openchat.team/

konstantin-s-yakovlev 15 ноя 2023 в 09:56

Очень интересная статья, спасибо. Было бы здорово услышать (возможно - через какое-то время) о реальных случаях использования. Сейчас, если честно, не до конца понятно (для человека со стороны) - для чего это нужно :) например, режим «реального времени» - он для чего?

timurunrun 4 дек 2023 в 05:44

Интересная статья! Способ получения датасета необычный) Одно но: для опенсурсных моделей это работает, но вот стоило ли заниматься файнтюнингом ChatGPT? Кажется, с небольшим промптом GPT-4 и так бы справился. Надо проверить и этот вариант. Плюс, как указали выше, ещё есть натренированный Whisper.

А для опенсурсных решений классно!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий