«ВКонтакте» запустила функцию перевода аудиосообщений в текст

    image

    «ВКонтакте» внедрила технологию, которая позволит не слушать, а читать получаемые аудиосообщения. При расшифровке задействован ИИ. Нейросеть распознает речь даже при сложных условиях записи и понимает русскоязычный сленг.

    Функция доступна части пользователей мобильного приложения. У всех остальных она появится в ближайшую неделю. Ее можно будет применять и для отправленных голосовых сообщений длительностью до 30 секунд.

    Кроме того, голосовые сообщения теперь можно будет находить по простому поиску по тексту.

    В будущем планируется внедрить новую функцию и на ПК-версии. Список доступных опций также расширят. В него добавят расшифровку пересылаемых сообщений и более длинных посланий.

    Как отмечает команда разработчиков, работа нейросети рассчитана на высокие нагрузки платформы, так как аудиосообщениями ежемесячно обмениваются 30 млн пользователей. Кроме того, она расшифровывает записи быстрее, чем человек, утверждают представители соцсети.

    «На самом деле мы сделали три нейросети: одна отвечает за распознавание, вторая находит подходящие слова, а третья расставляет знаки препинания. Вместе они станут самым высоконагруженным сервисом по распознаванию речи на русском языке», — заявил Павел Калайдин, директор по исследованиям в области искусственного интеллекта соцсети.
    См. также: «ВКонтакте, МФТИ и ВШМ СПбГУ создали курс по машинному обучению для преподавателей информатики
    Как подчеркивают во «ВКонтакте», распознавание голосовых сообщений полностью автоматизировано, а сотрудники соцсети, как и другие сторонние лица, не обладают доступом к личным сообщениям. Функцию тестировали с марта.
    См. также: «Как происходит рендеринг экрана сообщений ВКонтакте
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 40

      +29

      Давно пора и не только в ВК.


      В последнее время умникам присылающим мне в текстовом чате голосовые сообщения — ответ прикладываю в формате .DOCX

        +4
        Можно ещё снять и отправить видео, как Вы набираете текст ответа в редакторе.
          +5
          А это идея, запись экрана в MIUI есть.
          Можно нечто вроде этого отправлять
          image
          в ответ адептам школы дятла, бомбардирующим десяти-двадцатисекундными голосовыми посланиями, на 50% состоящими из «Эээ, нуу, тут, короче», с интервалом в минуту-полторы. Повбивав бы.
          +3
            0

            На смартфонах давно не проблема открыть DOCX.

              +2
              Это если им пользовались. А так даже предустановленный ворд/эксель на самсунгах требует регистрации. Т.е. минут на 5-10 можно человека занять увлекательным квестом.
                0

                Если ваши адресаты пользуются устройствами на iOS, то им ваши .docx не помеха — предпросмотр документов офиса есть из коробки в операционной системе.

              +1
              Это гениально, возьму на заметку.
                0
                Сообщение удалено
                  0

                  О, а это идея, возьму на вооружение. Уже порядком надоели.

                  +4
                  Можно будет написать бота для бесплатного распознавания голоса?
                    +6

                    Чтение текста занимает меньше времени, чем его написание. С голосовыми сообщениями — нет. Имеем и неуважение к времени собеседника, и отсутствие стимула к нормальной формулировке фраз. Это лично мое мнение, если что.


                    Идея может и хорошая, но слова-паразиты, междометия и прочая вода тоже распознаётся же? Думаю, что не особо приятно будет это читать в большинстве случаев. Хотя от автора все зависит.

                      +7
                      Насколько я понимаю, функция не навязывается. Она исключительное благо, когда собеседник отправил голос, а именно прослушать его нет никакой возможности: шум, нужна тишина, нежелательное нарушение конфиденциальности, нет наушников, их долго доставать и т.п. Или вы предлагаете убрать голос вообще? А он иногда спасает: например, когда нужно передать что-то набегу, проще нажать одну кнопку и сказать пару слов, чем нажимать на клавиатуру «во все руки». Каждому формату своя задача.
                        +2

                        Я сейчас такую америку открою, просто пипец. Если вам некогда отвечать — не отвечайте! :)

                          0
                          Во всех стандартных клавиатурах есть иконка микрофона — жмешь ее и говоришь — текст сам печатается
                            0
                            говоришь — текст сам печатается

                            About temple church resulting you are the most video
                          0

                          Думаю можно приделать штуку, которая будет править и стилистику текста, а там и до поиска смысла и прочего скайнета недалеко

                            +2

                            эта вода всё равно будет лучше в текстовом варианте(если часто читать такое, думаю будет как с баннерной слепотой… глаза пройдут мимо), чем слушать блеяние на 10-15. секунд

                              +1
                              Вот пусть со слов-паразитов краснеют те, кто диктует. Зато это можно не слушать, а просто глянуть.
                              И было бы хорошо, если бы во всех мессенжерах аудиосообщения всегда сопровождались текстовой расшифровкой.
                              –7
                              давно уже есть бот, преобразовывающий сообщения в текст, которого можно добавить в любую беседу, ничем не удивили
                                +24
                                Жаль, что в ВК нет функции запрета получения голосовых сообщений.
                                Что-то вроде, когда вам пытаются отправить подобное, отправителю сразу вылазит надпись «Пользователь ограничил круг лиц, которые могут отсылать ему ГС».
                                Must-have фича, как по мне.
                                  +4

                                  Вообще если некоторым особо буйным в ответ на голосовуху слать это сообщение, то они думают, что такая функция реально есть.

                                    +2
                                    А это идея. Можно даже бота написать, чтобы автоматически отвечал типа «сообщение не доставлено»
                                    0
                                    Можно просто убрать из интерфейса диалога соответствующую кнопочку. И заодно сделать это конфигурируемым, чтобы можно было запретить присылать фото, видео, текст, аудиозаписи, файлы, ссылки, и пр. Списком чекбоксов конечно, настройки по-умолчанию для всех, для друзей, для не-друзей, с возможностью сделать для конкретного собеседника отдельные настройки.
                                      0

                                      В приложении на чужом устройстве? Ну-ну.

                                      +2
                                      Имхо — во всех мессенжерах должен быть белый список на голосовые. Я пользуюсь голосовым если надо что-то срочно, но пользоваться текстом нет возможности, например за рулем или сумки несу. Но у меня 1 голосовое на 1000 текстовых. У многих блин понос из голосовых. Достань наушники, послушай, ответь… И никакого поиска нет — через пару дней фиг найдешь в этом г то что нужно.
                                      –2

                                      А зачем? Почему просто не отключить голосовые сообщения? Те, кому лень набирать могу пользоваться распознаванием голоса в клавиатуре.

                                        +2

                                        Работает в обратную сторону. Вот тебе пришло голосовое, а ты не хочешь(не можешь) его слушать — нажал кнопку и прочитал расшифровку.

                                          +2

                                          Я никогда не хочу слушать голосовые. Если б они переводильсь в текст на стороне отправителя, то ещё и место на серверах и трафик экономился.

                                        –2
                                        Теперь товарищ майор будет получать распечатку ваших разговоров бестрее чем вы будете успевать их прослушивать.
                                        Молодцы, ребята
                                          +5
                                          Датасеты для обучения откуда брали?
                                            +1
                                            Действительно, и мне стало интересно, что содержит соглашение ВК по поводу голосовых сообщений? Их обработку, хранение, передачу и так далее…
                                              0
                                              Подозреваю, что брали через программу тестирования VK Testers
                                            • UFO just landed and posted this here
                                                +7
                                                Товарищу майору просто накладно стало аудио слушать, долго, то пришлось запилить фичу )
                                                  +1
                                                  Не удивлюсь, если где-то госзаказ найдется)
                                                  +1
                                                  Хорошая возможность, удобная, правда не уверен в стабильности её работы, особенно в плане не совсем популярных слов и шумостойкости.

                                                  В священной войне вокруг голосовых сообщений хочу встать на сторону защиты этой функции. Голосовые сообщения — это инструмент. Те, кто страдает косноязычием, и в тексте не шибко приятны: ответы на содержательное текстовое сообщение чем-то вроде «)» или стикера, обилие пунктуационных и орфографических ошибок, неприятная лень в вопросе исправления слов, предложенных автокоррекцией — всё это исходит от тех же людей, которые «ммм ааа аэаэаэээ нннууу вооот» в голосовых.

                                                  Аудиосообщения полезны, как уже упоминалось ранее, для записи сообщения на бегу или в неудобных климатических условиях, для сохранения интонационной окраски послания (ненавижу сарказм в тексте!), для передачи не только непосредственно текста, но и звукового окружения, если это необходимо.

                                                  Слушать их не всегда удобно — и вот тут как раз приходит на помощь та самая возможность из статьи.
                                                    +1
                                                    По поводу шумов то смотря как они их давят, вот недавно не весь интернет забугорный прогремела новая фишка — NVIDIA RTX Voice, судя по видосам творит чудеса, могут вполне себе стоечку закупить и фильтровать через него, а потом уже на распознавалку.
                                                    Вот ссылочка если вдруг не видели www.youtube.com/watch?v=Q-mETIjcIV0
                                                  0

                                                  Мне кажется, если бы запрет аудиосообщений внесли бы в Конституцию, количество голосов "За" резко бы выросло.

                                                  Only users with full accounts can post comments. Log in, please.