Как стать автором
Обновить

Комментарии 34

Как разработчик сервиса «Ашманова» хочу заметить, что доступ к веб интерфейсу закрытый, сам сайт исключительно демонстрационный, крутится на CPU, не предполагает нагрузки. Документация есть, клиентам мы её направляем, на сайт не успели её выложить, поддержаны протоколы wss, gRPC, MRCP обеих версий.

snakers4 Вы сравнивали в бенчмарке обе демонстрационные модели, 8000 и 16000?

Мы использовали модель по-умолчанию

На звонках гораздо лучше работает модель 8000, некорректно тестировать модель одного домена на другом
Также просто для информации: этот демо сервис работает на AWS инстансе типа t3a.2xlarge, и к нему подключен t.me/voicybot, который тоже генерирует какую-то постоянную нагрузку, пусть и не очень высокую

Ну на примере того же Сбера и нашего сервиса я бы с этим поспорил, но значит в следующий раз протестируем две модели

Насчет Google думаю, что на английском они должны получше выступить) Интересно, а вы не пробовали такое же сравнение провести для распознавания английского языка? (среди моделей, которые его распознают)

На английском естественно все сильно лучше, да и там миллион моделей (несколько базовых + пара премиум моделей + одна модель каждую страну).
Между строк читается, что без явного согласия юзера они как бы берут звонки из звонилки (звонилка по умолчанию на Андроиде это приложение Гугла).


Сравнение мы естественно делали, но там так много работы, что сил и ресурсов хватило только на сравнение Гугла и нашей системы — вот ссылка — https://github.com/snakers4/silero-models/wiki/Quality-Benchmarks#en-v3

А почему на КДПВ потёмкинский сэндвич?

Потому что многие красивые на вид вещи зачастую просто имеют хороший маркетинг. Тот же STT Гугла на русском. Вроде Гугл, дорого богато. Но по факту не очень.

А что означает цифра в ячейке в первой таблице? У неё как будто бы отсутствует легенда

Это WER

Подпишите пожалуйста везде под таблицами что-то типа "больше цифра — лучше результат". Или наоборот.

Написал

Привет!

А вы выложите куда-нибудь данные с текстами? Хочется не только WER, но и другие метрики распознавания речи посчитать

Насчёт данных - не стал прямо писать это лишний раз в статье - если сделать вал сеты публичными - то любую сколь угодно вменяемую модель можно оверфитнуть на валидации к любым нужным метрикам. Это много раз наблюдалось в академии в виде так называемого Закона Гудхарта. Самый яркий пример - SOTA метрики на английском и показатели реальных систем. Пример из другой оперы - https://arxiv.org/abs/2003.08505.

Если добавить к этому наши реалии и типовые ценности на фоне макро трендов - то думаю получится ещё веселее.

Поэтому, к сожалению, или верьте методологии и непредвзятости тестов или нет. Кстати а какие метрики хотелось бы посчитать ещё? CER везде это WER // 2 примерно.

Кстати, для сравнения систем, помимо дискретного числа побед, для большей наглядности, можно посчитать средневзвешенный WER по доменам для каждой системы, т.е. ∑ (доля записей в домене от всех записей) * WER_домена

Ну записей, на которых делали тест, в каждом домене примерно по часу. Я не стал этого делать, т.к. средняя тут не особо "правильный" показатель, так как есть домены, где любая система выдает дичь — например стихи и рэп. И получается мы будем усреднять 10% и 40-50%. Как в шутке про 2 курицы и статистику. Но если прямо интересно, то вот средние:


| Домен             | Средняя |
|-------------------|---------|
| Ashmanov          | 38      |
| Google            | 43      |
| Google (enhanced) | 42      |
| Sber              | 33      |
| Silero            | 28      |
| Silero new        | 24      |
| Tinkoff           | 31      |
| Yandex            | 26      |
Подскажите, пожалуйста, я правильно понимаю, что на текущий момент какого-нибудь готового опенсорсного решения (типа yolo для CV) русского STT, которое можно было бы развернуть, с минимальным допиливанием, на условном RPi, чтобы раговаривать со своим умным домом (без привлечения сторонних облаков), — нет?

На языках, отличных от русского у нас самих например есть такое — https://github.com/snakers4/silero-models


На русском конечно есть, но я бы не стал ставить ссылки по двум причинам:


  • В прошлых тестах были сильные проблемы с генерализацией, плюс зачастую OSS сделан на Kaldi;
  • Не раз видел комическую гротескную ситуацию, когда есть тендер на очень круглую сумму. заказчик / вендор сравнивает коммерческое и OSS решение. Первое работает хоть как-то, второе чисто для галочки. Рассказываешь им как пройти путь, чтобы работало классно и юзер был доволен. В итоге они просто берут первую попавшуюся OSS сборку с ужасным качеством… потому, что плевать на пользователей и цель не решить задачу, а несколько иная. В итоге деньги распилены, поставлено неработающее решение, всем плевать, разработчики обоих решений не получили ничего, финансирование идет на следующий распил. Это одна из причин, почему мы не публикуем наши модели для русского языка.
Я вполне понимаю вашу, как коммерческой компании, боль. И, клянусь соседским поросёнком, не собираюсь использовать вашу информацию ни в каких, даже отдалённо коммерческих целях. В то же самое время, не думаю, что наличие «открытых публичных датасетов из реальных данных в разных доменах и публикация претренированных моделей на таких датасетах» (цитата из другого вашего поста) сильно помогает «пилить». Там всё-таки, другие условия, критерии и механизмы, и человек «на откате» (или даже просто «на зарплате») всегда имеет в своём распоряжении оплаченное время во всём разобраться. А вот любителю, без базовых знаний и опыта, тяжело пробиваться через этот «гранит науки» :(

P.S. А чем так провинился Kaldi, что вы его всё-таки упомянули?

Если мы сейчас про датасеты для тренировки (а цитата про них), то пилить она помогает, безусловно. Но независимым авторам датасета публикация датасета гораздо меньше, как выяснилось помогает =)


Если просуммировать не вдаваться в холиворы, в мире по дефолту отсутствует культура поддержки условно полезных открытых проектов, если ты не делаешь какой-то ярый популизм, а пытаешься сделать что-то условно полезное с ненулевой суммой.


P.S. А чем так провинился Kaldi, что вы его всё-таки упомянули?

Я например открывал рецепты тренировки моделей. Как минимум смесь баша, перла, си и еще чего-то + инструкции по установке на страницу как-то сразу не показались привлекательными с точки зрения долгосрочной поддержки и стоимости обладания.

Компании Google аплодирую стоя! Имея худшую модель для распознавания (по результатам теста) они получили наибольший доход за этот тест. Вот что значит умение вести бизнес и настоящая коммерческая хватка!

Еще им можно стоя аплодировать за то, что их ОС стоит на большинстве телефонов в мире (во всем мире, не только в странах золотого миллиарда) и де-факто они кормят свои модели вашими звонками без явного согласия. К плюсам можно отнести, что в глубине настроек вроде появился opt out от этого всего, но каждый раз когда туда заходишь — там всегда все опять переделано.

Мы как-то проверяли через функцию экспорта архива — и были приятно удивлены, количеству аудио, которое Гугл как минимум "говорит что сохранил".

В каком приложении?
Не совсем понятно, про какие звонки вы говорите. Если приложение Телефон в Андроиде, то оно не сохраняет звонки. Сохраняют все звонки в России только ОРИ в рамках всяких законов о СОРМ. Также можно установить дополнительные приложения, которые будут сохранять звонки (может быть и от Google тоже). Могут сохранять всякие мессенджеры, потому что сигнал идет через них. Ну или программы-шпионы в телефоне.

Единственное что здесь можно сделать — это попросить у Гугла свой архив и послушать что там. Если у корпорации нет ответственности за такое поведение, то управляя ОС и приложением для звонков она может делать любые вещи, и поймать за руку будет очень сложно. Практика показывает, что если что-то можно абьюзить, то корпорации будут это абьюзить.

Смотря для чего. Если речь идет о сборе неразмеченных голосовых данных, то есть же огромный массив таких данных на том же их youtube. Нужно качество похуже, без проблем — можно ухудшить до любого качества. Если же речь о слежке каких-то спецслужб, то тут, конечно, возможно всякое.

Обновления / ошибки


Я перепутал, второй раз мы тестировали пропускную способность нашего сервиса на 1080 Ti, а не 2080 Ti. Это важно, так как между поколениями сильнее меняется скорость карточек.

Обновления / ошибки


Именно в Яндекс мы слали данные в формате opus. Мы потестили немного, вроде именно у Яндекса особой разницы между wav и opus нет.

Интересное сравнение. Хотя и методика вызывает ряд вопросов, выкинув систему авторов можно получить относительно несмещенную картинку. В связи с этим, хочу поздравить коллег из Сбера с удачным релизом! Верно ли я понимаю, что в случае Яндекс использовалась модель general? Надеюсь мы все понимаем, что сравнивать производительность подобным способом — очень спорная идея, так как экспериментатор наблюдает только собственную нагрузку на систему, да и резкие скачки по нагрузке могут привести к троттлингу со стороны сервиса. Что касается данных, то Яндекс собирается опубликовать русскоязычный датасет в этом году.

Для контекста людей читающих эти комментарии в будущем, если конечно я правильно сделал деанон, Игорь — сотрудник Яндекса.


Верно ли я понимаю, что в случае Яндекс использовалась модель general?

Скорее всего да, мы использовали текущую модель по умолчанию.


сравнивать производительность подобным способом — очень спорная идея, так как экспериментатор наблюдает только собственную нагрузку на систему, да и резкие скачки по нагрузке могут привести к троттлингу со стороны сервиса

В статье я явно описал очевидные ограничения этой методологии.
Разница в реакции сервисов при разной нагрузке тоже показательна.
У кого-то вообще нет троттлинга, у кого-то примерно одинаково стабильные показатели при разной нагрузке (на выбранном дизайнерами системы уровне производительности), а у кого-то просто система возвращает пустоту без ошибок.


Что касается данных, то Яндекс собирается опубликовать русскоязычный датасет в этом году.

Круто, если тренд действительно поменяется. Я просто вообще не припомню каких-то полезных для публики релизов от Яндекса в обозримом прошлом.

Ну в этом месте я скорее выступаю не только и не столько как «сотрудник Яндекса», скорее как исследователь в этой области и один из основателей РОМИП, целью которого было сравнение поисковых движков на российском рынке. Так что, если тема независимой оценки вам близка, то коллеги из GlowByte устраивают встречу по голосовым технологиям во вторник в 9 вечера (https://t.me/noml_community?voicechat), и можно там продолжить дискуссию.

Честно говоря не могу сказать, что консалтинговые компании и закрытые семинары, спонсируемые корпорациями мне близки, равно как и Яндекс.


Да и я не совсем понимаю, какое РОМИП имеет отношение к теме данной статьи (он последний раз проводился в 2012?).


По крайней мере мое личное мнение — доступ к информации должен быть публичным, а не "кто больше заплатил, того и рекламируем".

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.