Pull to refresh

Comments 16

PinnedPinned comments

Докатили новую версию, обновили наши метрики, снимать всё уже не стали заново по АПИ (это ещё и платно, надо уже новое сравнение делать тогда с новой статьёй), раскатили в наши сервисы.

Количественные и качественные выводы:

  • Отрыв от лучших сравнимых по скорости моделей 2-3 пп или около 20%;

  • На такси разница с Яндексом нематериальна;

  • По сути догнали на Сбер умной колонке (на публичном датасете, понятно, что внутри они постоянно данные собирают на длинном хвосте терминов);

  • На чисто длинном хвосте адресов - Яндекс всё ещё лучше чуть менее, чем на 1 пп;

  • Сейчас из 31 тестового сета, на последних тестах, модель лучшая на 23, на 8 оставшихся - у большинства разница менее 1 пп;

Интересно, почему для Умной колонки:
- Tinkoff одинаково плохо для "близко" и "далеко"
- Sber и Yandex одинаково хорошо для "близко" и "далеко"

Ну тут понятно +/-, потому что Tinkoff давно опрашивали и у них нет умной колонки и модель плохо на нее генерализовалась, поскольку данных из домена для обучения не было.

Загадка. Так как умные колонки разговаривают человеческим голосом, а не систезированным (явно нечеловеческим).

А как голос, которым разговаривает умная колонка (100% там синтез, ведь не актриса же там всем отвечает сидит) связан с телеметрией, которую она собирает?

Данные для синтеза и распознавания же нужны разные. Для распознавания - корпорации собирают речь покупателей своих колонок и на этом дальше тренируются алгоритмы.

Для синтеза обычно пишут актёры, ну или данные нужны более близкие к идеалу, не что-то из колонки там вдалеке.

А GIGA AM какую использовали? GigaAM-CTC или GigaAM-RNNT?

у RNNT качество лучше судя по их метрикам.

Возможно рапортуемые метрики там чутка повыше, но понятно что мы не знаем, что прячется за другими АПИ сервисами, но модели также выбирались по принципу продуктовости - то есть там в идеале должно быть рекуррентных элементов. То есть один прогон на всё грубо говоря.

Тут это не совсем применимо, так как когда я тестировал (может что-то изменилось) большие рекуррентные сетки для STT всё равно были хуже по качеству (и как минимум на полтора-два порядка медленнее), но в пределе, например в синтезе, можно тестировать решения отличающиеся в миллион раз по стоимости создания, обладания и запуска, когда по факту на практике будет очень мало разницы.

Сервисы-то сервисами, а вот приложение для ПК можете посоветовать?

Мы решили не включать его, а включить GigaAM CTC по ряду причин.

Когда я тестировал базу и тюненные на более крупной русской датке варианты, были следующие проблемы:

  • Маленькие якобы "быстрые" модели никуда не годятся по качеству;

  • Модель сама по себе рекуррентная, даже в адаптациях и оптимизациях;

  • Большие модели на полтора - два порядка медленее продуктовых решений;

  • Галлюцинации иногда возникают на пустом месте, особенно на реальных, шумных или неидеальных данных;

  • Модель выдает так называемый "translatese" (название авторов), то есть не имея возможности сделать нормальную нормализацию данных, они сделали как получилось.

По идее все эти недостатки можно исправить, но тут получим следующие грабли:

  • Нужно героически править чужие ошибки;

  • Часть стека будет не поддерживаема в принципе;

  • Тренировка рекуррентных моделей сильно мене приятна.

Понятно, что всё это можно героически решить, но нужно ли?

Я может что-то не понимаю, но зачем исправлять ошибки и тренировать рекурентную модель? Я думал, что датасет (звуковые файлы) скрамливается этому приложению, текст на выходе сверяется с ожидаемым и формируется циферка для таблички.

Зачем сравнивать? Чтобы показать, все то, что описано выше (Галлюцинации, translatese, ...) в каких-то цифрах. Тогда проще принимать решение какое решение использовать: сойдет качество на бесплатном ПО или лучше доплатить и получить лучше качество.

Я может что-то не понимаю, но зачем исправлять ошибки и тренировать рекурентную модель? Я думал, что датасет (звуковые файлы) скрамливается этому приложению, текст на выходе сверяется с ожидаемым и формируется циферка для таблички.

Тут речь идёт про эксплуатацию, поддержку, отлажку, поиск ошибок и повышение качества на нужных доменах.

Ладно, не важно, мы в каких-то разных мирах живем. Я исключительно как выбор одной из коробок (и для этого табличка выше вполне подходит), вы хотите еще улучать коробки.

> эксплуатацию, поддержку, отлажку

ну, девопсы запустили очередной микросервис, ничего особенного

> поиск ошибок и повышение качества на нужных доменах

вот этим "прикладники" как раз редко занимаются: либо считается, что работает, либо выбирают другое решение, либо вообще отключают функционал.

я правильно понимаю, что Yandex/Сбер/Т сервисы позволяют себя дообучать? Если да, то не знал, может быть даже интересно на свой голос и лексикон дообучить.

Докатили новую версию, обновили наши метрики, снимать всё уже не стали заново по АПИ (это ещё и платно, надо уже новое сравнение делать тогда с новой статьёй), раскатили в наши сервисы.

Количественные и качественные выводы:

  • Отрыв от лучших сравнимых по скорости моделей 2-3 пп или около 20%;

  • На такси разница с Яндексом нематериальна;

  • По сути догнали на Сбер умной колонке (на публичном датасете, понятно, что внутри они постоянно данные собирают на длинном хвосте терминов);

  • На чисто длинном хвосте адресов - Яндекс всё ещё лучше чуть менее, чем на 1 пп;

  • Сейчас из 31 тестового сета, на последних тестах, модель лучшая на 23, на 8 оставшихся - у большинства разница менее 1 пп;

Sign up to leave a comment.

Articles