Pull to refresh
-5
0
Megakazbek @Megakazbek

User

Send message

Улучшаем пунктуатор на стенограммах

Level of difficulty Medium
Reading time 29 min
Views 1.8K

Привет, Хабр! Сегодня я расскажу о том, как натренировать качественный русскоязычный пунктуатор и капитализатор для стенограмм (то есть, модель, превращающую только что распознанный Speech-to-Text’ом “привет хабр” в литературный “Привет, Хабр!”). Задача эта давно известная и в последние годы кое-как решаемая с помощью нейросетей-трансформеров, например, BERT. Ключевое слово здесь – “кое-как”. Мы пробовали множество открытых доступных моделей (подробности ниже), но результат сильно не дотягивал до нужного нам уровня. Пришлось доделывать модель самим.

Некоторые энтузиасты LLM сразу спросят: а зачем отдельно тренировать пунктуатор в 2023-м, когда есть универсальный ChatGPT? Одна из проблем в том, что ChatGPT работает только на зарубежных серверах, и как они там собирают данные – никому не известно. И это не говоря ещё о риске перевирания текста и высокой стоимости.

Если к вам обращаются заказчики за автономной системой протоколирования митингов, то ни о каком ChatGPT не может идти и речи. Что касается других LLM (Llama 2, T5 и т.д.), то они постоянно страдают галлюцинациями, потребляют в разы больше памяти и работают в десятки, а то и сотни раз медленнее, чем стандартный пунктуатор на BERT. Подробнее об экспериментах с использованием генеративных LLM – в разделе ниже.

В отличие от генеративных сетей, архитектура BERT в принципе хорошо подходит для расстановки знаков и заглавных букв: гарантия от галлюцинаций и быстрая работа, даже на CPU. Однако результат очень сильно зависит от того, на каких данных их обучали. Например, как мы выяснили на собственном опыте, пунктуаторы, натренированные на типичных больших русскоязычных корпусах (новости, энциклопедии, литература, рандомный кроулинг) очень редко ставят точки. Причём, как показали дальнейшие эксперименты, та же по строению модель справлялась намного лучше, если учить её на правильно подобранном датасете.

Читать далее
Total votes 13: ↑13 and ↓0 +13
Comments 11

Что означает DIPM для SSD дисков

Reading time 5 min
Views 37K
Рассматривая различные характеристики SSD дисков, достаточно часто можно встретить упоминание об DIPM в характеристике энергопотребления твердотельного дисков. Если SSD используется или планируется использовать в desktop-ах, то на это значение можно не обращать внимания, а если в notebook-ах и netbook-ах? Вот тут все зависит от того, насколько вам небезразлично время автономной работы мобильного устройства от аккумулятора. Что же, попробуем разобраться в вопросе, что такое DIPM и для чего он нужен SSD.
Читать дальше →
Total votes 40: ↑38 and ↓2 +36
Comments 13

Information

Rating
Does not participate
Registered
Activity