ruguevara Sep 5 2008 at 13:57

Симбиоз искусственного разума и дешевой рабочей силы

2 min

757

Удивительный сервис «Всё ли сделал», изготовленный за 7 дней на основе какого-то готовящегося к запуску сервиса по преобразованию голоса в текст (скорее всего это IVOXMAIL) поразил всех своим качеством распознавания. Есть сильные предположения (в комментах), что тут не без человеческих операторов, ведь текущие машинные технологии не могут обеспечить качество распознавания выше 85% (и это с минимальным обучением под диктора).

Мы пообсуждали, поспорили и вот что родили (словами Алексея Кулакова). Как скорее всего устроен сервис IVOXMAIL:

1. Парни действительно слишком чисто распознают русский язык для того чтобы можно было считать что за всем этим стоит робот

2. Поэтому примем что за этим стоит человек.

3. Далее имеем следующую математику. предположим они рассчитывают на базу пользователей около 50000 человек зарегистрированных в первые полгода. Это значит что они должны будут принимать что-то около 10000 звонков в день. Предположим они не дураки и девушки не отвечают на звонок сразу, а просто обрабатывают очередь из записи чтобы экономить. Это значит что им надо около 10 девушек. Предположим девушки надомницы. Это значит что вместе с коллцентром, менеджментом и налогами на это дело будет затрат около полумиллиона в месяц. В принципе это не кошмарная сумма. К тому же этот сервис будет предлагаться всем сотовым операторам. Считаем гипотезу реальной.

4. Чтобы делал я на месте этих парней? Я бы этими девушками обучал нейросеть. Т.е. написал бы такую программу, которая разбивает речь на слова и сопоставляет им набранный руками девушки текст. и обучал бы этим делом нейросеть. и имел бы через годик на выходе распознавалку русского языка и популярный сервис за что-то около 10 миллионов рублей затрат.
похоже на правду?

5. предположим даже, что они не умеют распознавать словарь одного человека и применять его для другого. тогда получается что на каждого нового абонента у них должен быть период обучения, после которого машина научается распознавать текст близко к тому как получается у девочки.

6. чем больше абонентская база тем больше административных затрат на человека и других косвенных трат. Т.е. каждый следующий оператор стоит дороже. Т.е. с определенного момента робот становится дешевле человека.

7. 5 и 6 дают модель обучения под каждого платного абонента робота человеком.

8. если 5 верно то возможно что с накоплением статистики «коллективный» словарь справится с этой проблемой.

Дополнение от меня:
Скорее всего, это устроено с помощью предиктовного ввода текста, который подставляется распознавалкой. Оператору только нужно выбирать между вероятными вариантами или самому писать совсем нераспознанные слова. Таким образом очень сильно ускоряется и ввод и обучение одновременно. А в случае, когда распознавалка срабатывает точно, оператору нужно только нажать одну кнопку.

P.S. После разъяснений про нейросети и системы распознавания голоса, переформулирую:
У них там не просто нейросеть, у них там некая сложная система распознавания речи с нейросетями, всякими штуками и словарями, которая генерирует операторам предиктивный текст с вариантами, а операторы слушают голосовое сообщение и очень быстро с помощью этого предиктивной стстемы набора набирают/выбирают/акцептируют правильный текст, обучая систему своей обратной связью (вспомогательные нейросети и словари).

Ссылки, намекающие на то, как работает SPINVOX (это аналогичный буржуйский сервис):
Комментарии к заметке Стивена Фрая
Патент
Еще анонимные комментарии про SPINVOX (ближе к концу)

Tags:

Hubs:

Cyberpunk