Революция в связи? Новый подход позволяет экономить полосу в 100 и более раз при аудио и видеозвонках



    Многие помнят что сериал «Кремниевая долина» рассказывает о программисте Ричарде
    Хендриксе, который случайно придумал революционный алгоритм сжатия данных и решил
    построить свой стартап.

    Консультанты сериала даже предложили метрику, с помощью которой можно оценивать
    подобные алгоритмы – вымышленный коэфициент Вайзмана (Weissman Score).

    Далее по сюжету стартап сделал видеочат, используя это решение.

    Уважаемому сообществу предлагается к обсуждению другой, совершенно необычный
    принцип сжатия данных для аудио и видеозвонков, который решает проблему с новой,
    неожиданной стороны.

    Если вы хотите поучаствовать в обсуждении этого решения, а также узнать что общего у этой
    концепции с Джонатаном Свифтом и произведениями Льва Толстого, прошу под кат.

    Немного теории


    Опишем в общих чертах как работает современная аудиосвязь – принцип одинаков как для
    звонков по GSM сети, так и для мессенджеров и VOIP сетей.

    Звуковые колебания поступают на микрофон смартфона, далее в аналого-цифровой
    преобразователь (АЦП или ADC):



    Далее происходит кодирование разнообразными кодеками (G711, G729, OPUS, GSM и т.д.),
    добавляется или не добавляется шифрование (SRTP, ZPTP и т.д.) и отправляется в среду
    передачи данных.

    Например почти все мессенджеры (WhatsApp, Viber и т.д.) пользуются одними и теми же кодеками (в последнее время это как правило Opus), и практически одними и теми же слегка
    измененными протоколами ( на основе SIP, WebRTC).

    В качестве сети передачи данных может выступать и паблик интернет и GSM сеть или
    интранет:



    Шифрование – необязательный элемент в этой схеме, например в большинстве случаев для
    SIP телефонии шифрование не используется.

    А вот в мессенджерах наоборот — как правило используются своих проприеритарные
    протоколы для шифрования голоса и видео.

    Далее происходит обратный процесс – адресат, получив данные, декодирует полученную информацию, затем сигнал поступает на ЦАП (цифро-аналоговый преобразователь) и потом поступает в звуковой усилитель, подключенный к динамику:



    Характеристики современных кодеков:

    G.711 64 Кб/сек.
    G.726 16, 24, 32 или 40 Кб/ сек.
    G.729А 8 Кб/ сек.
    GSM 13 Кб/ сек.
    iLBC 13.3 Кб/ сек. (30 мс фрейма); 15.2 Кб/ сек. (20 мс фрейма)
    Speex Диапазон от 2.15 до 22.4 Кб/ сек.
    G.722 64 Кб/сек.

    Таким образом например при 7 минутном разговоре по WhatsApp или Скайп будет
    израсходовано порядка 1 МБ.

    Запомним эти цифры — 1Мб на 7 минут разговора, вскоре они нам понадобятся.

    “Лев Толстой как зеркало… революции...”


    Давайте вспомним самый знаменитый роман этого великого русского писателя:

    «Война́ и мир» — роман-эпопея Льва Николаевича Толстого, описывающий русское
    общество в эпоху войн против Наполеона в 1805—1812 годах. Эпилог романа доводит
    повествование до 1820 года.

    Роману «Война и мир» Л.Н. Толстой посвятил семь лет напряженного и упорного труда.О том, как создавалось одно из крупнейших мировых творений, свидетельствуют рукописи
    «Войны и мира»: в архиве писателя сохранилось свыше 5200 мелко исписанных листов.


    Если вы сейчас захотите прочитать этот роман, то его можно легко скачать.

    И это файл весит всего… 1 МБ:



    Форматы fb2 и epub, ровно как и zip, rar в принципе можно рассмартивать как своего рода
    кодеки.

    Давайте задумаемся – 7 минут нашего разговора по WhatsApp равны по объему трафика
    великому произведению, которое писалось 7 лет!

    Разговор 7 минут кодировался кодеком opus, роман кодировался ePub, объем один и тот же –
    1Мб, но какая колоссальная разница!

    Путешествия Гулливера


    Все знают это произведение Джонатана Свифта с детства, но на самом деле эта книга не для
    детей.

    “Путешествия Гулливера” — это политическая сатира для взрослых, конечно в контексте 18
    века.

    Удивительно то, что Свифт, будучи ярым противником другого своего современника –
    Ньютона, в своих “Путешествиях Гулливера” не только предсказал открытие спутников
    Марса (с довольно точным описанием их характеристик), но и описал довольно интересный
    способ коммуникаций между людьми:

    “… проект требовал полного упразднения всех слов;
    автор этого проекта ссылался главным образом на его пользу для здоровья и сбережение
    времени.

    Ведь очевидно, что каждое произносимое нами слово сопряжено с некоторым изнашиванием
    легких и, следовательно, приводит к сокращению нашей жизни.

    А так как слова суть только названия вещей, то автор проекта высказывает предположение,
    что для нас будет гораздо удобнее носить при себе вещи, необходимые для выражения наших
    мыслей и желаний.

    … многие весьма ученые и мудрые люди пользуются этим новым способом выражения своих
    мыслей при помощи вещей.

    Единственным его неудобством является то обстоятельство, что, в случае необходимости
    вести пространный разговор на разнообразные темы, собеседникам приходится таскать на
    плечах большие узлы с вещами, если средства не позволяют нанять для этого одного или
    двух дюжих парней. Мне часто случалось видеть двух таких мудрецов, изнемогавших под
    тяжестью ноши, подобно нашим торговцам вразнос. При встрече на улице они снимали с
    плеч мешки, открывали их и, достав оттуда необходимые вещи, вели таким образом беседу в
    продолжение часа; затем складывали свою утварь, помогали друг другу взваливать груз на
    плечи, прощались и расходились.

    Впрочем, для коротких и несложных разговоров можно носить все необходимое в кармане
    или под мышкой, а разговор, происходящий в домашней обстановке, не вызывает никаких
    затруднений. Поэтому комнаты, где собираются лица, применяющие этот метод, наполнены
    всевозможными предметами, пригодными служить материалом для таких искусственных
    разговоров.

    Другим великим преимуществом этого изобретения является то, что им можно пользоваться
    как всемирным языком, понятным для всех цивилизованных наций, ибо мебель и домашняя
    утварь всюду одинакова или очень похожа, так что ее употребление легко может быть понято.
    Таким образом, посланники без труда могут говорить с иностранными королями или
    министрами, язык которых им совершенно неизвестен...”


    Итак, вы наверное уже догадываетесь к чему я веду :)

    Зачем передавать сотрясения воздуха (звуки) на многие сотни и тысячи километров,
    заморачиваться с кодированием (для того чтобы как можно точнее и качественнее передать эти сотрясения воздуха адресату), держать необходимую полосу пропускания, если смысловая
    нагрузка этой передачи – минимальна, а то и вовсе стремится к нулю?

    Ведь люди коммуницируют между собой не звуками, а значением, контентом, семантикой, мыслями…

    Концепт новой системы коммуникации довольно прост – на стороне источника А звуковые
    колебания также оцифровываются, но не передаются сразу же другой стороне, а
    преобразуются в текст (Speech To Text) и далее передается уже осмысленный текст от
    абонента А, который:

    • может быть передан с минимальной требуемой полосой передачи данных (возможна даже радиосвязь типа КВ и т.д.)
    • может быть зашифрован любым сильными алгоритмом шифрования

    На стороне Б полученные сообщения расшифровываются и воспроизводятся уже как голос от
    абонента А (Text To Speech).

    Также можно загрузить на стороне Б т.н. голосовой аватар абонента А, который бы в
    точности повторял манеру речи абонента А.

    Отдельным каналом можно передавать фоновые шумы и эмоции.



    Все тоже самое справедливо и для видеосвязи – тем более отдельные элементы уже давно
    существуют в приложениях (разнообразные маски, задний фон в Zoom и т.д.).

    Да, есть технические моменты, которые сейчас до конца не реализованы в должном виде –
    например критичной будет скорость преобразования Speech To Text, но используя
    предиктивные AI алгоритмы преобразования можно эту скорость существенно повысить.

    Самое главное преимущество – требуется минимальная полоса пропускания в среде передачи
    данных.

    Т.е. такой принцип можно использовать не только для обычных повседневных
    коммуникаций, но также и для военных и для дальней связи с большими задержками
    (космическая связь, межпланетная – Луна, Марс и т.д. :) )

    Хотя это и описание концепта, но на самом деле в одном нашем проекте уже несколько
    месяцев используется прототип с этим принципом.

    Но об этом в следующий раз…
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 97

      +6
      Не понял, а нового-то что? И что тут неожиданного?
        +4

        Абсолютно ничего нового. Думаю о таком лет 60 назад уже задумывались люди вроде Хаффмана. Проблемой естественно было преобразовать голос в текст и текст в голос. Оно и сейчас ещё проблема.

        +3
        1. Одна и та же фраза может иметь совершенно противоположный смысл в зависимости от интонации.
        2. S2T используется уже давно.
        3. Взломают голосовой аватар и будут звонить от вашего имени.
          +2

          Дип-фейк уже сейчас умеет говорить от любого имени.

            +1

            Дипфейк немного не то.
            Тут надо будет на обеих сторонах организовать верификацию аватаров с эвристическим анализом подлинности голоса. В реальном времени.
            Иначе будет что-то типа "в сеть утекла база сигнатур аватаров" и вот уже вместо смсок "мама я попал в аварию вышли бабла" будет вал звонков с незнакомых номеров, причем с интерактивным общением "голосом".


            Реализация такого точно будет канал связи в меньшей степени забивать? Не говоря о ресурсах самих устройств.

              0
              Реализация такого точно будет канал связи в меньшей степени забивать? Не говоря о ресурсах самих устройств.


              Да, потому что вся обработка S2T будет происходить на смартфоне пользователя, без выхода в сеть.
              В сеть отдается только обработанный текст.
          +6

          Читал я как-то научно-фантастический роман, где космические корабли между собой держали связь через очень узкую полосу пропускания и эта полоса всё истончалась.
          Сначала у них полноценная голографическая передача с качественным звуком была по хорошему каналу, потом канал деградировал, а компьютер строил модели и по накопленной информации восстанавливал несущественные детали: В какой-то момент передавать изображения стало неэффективным и компьютеры перешли на моделирование фигур людей с натягиванием текстур, которые удалось сохранить пока связь была хорошая. С ухудшением связи модели приходилось деградировать, особенно с абонентами, для которых не было накоплено данных. В конце концов всё деградировало до диалогового текстового режима через канал в считанные биты в секунду, пробивающиеся через море помех.

            +1
            там случайно космического юзенета не было?:)
              +7

              Там не закончилось тем, что на обеих сторонах компьютер просто эмулировал собеседника?

                0

                Нет, там, кажется, в Солнце погружались корабли. Помехи были. Связь-то была не просто чтобы поболтать, че-то важное обсуждали. Блин, не могу вспомнить что за произведение.

                  0
                  Вероятно это роман «Пламя над бездной» Вернора Винджа.
                  Там связь пропадала вроде из-за того, что корабли летели из одной зоны в другую, где физические законы несколько отличаются друг от друга. То есть изменялась максимальная скорость света распространения причинности и все такое.
                0
                диалогового текстового режима через канал в считанные биты в секунду

                Векторный гипертекстовый Фидонет™?
                +8
                Когда я разговариваю с кем-то по голосовой связи — я хочу слышать его голос. Не прочитанный диктором текст с наложенными на него шаблонными «эмоциями», а в точности те же звуки, которые издает мой собеседник. Когда сможете предоставить подобную кодировку, потери которой не превысят потери при оцифровке звука — тогда можно будет серьезно об этом говорить.
                P. S. Чуть не забыл — все это должно кодироваться/декодироваться в реальном времени на самой слабой мобилке, при этом желательно, что бы она не грелась.
                  –11
                  В большинстве случае вы слышите голос робота, который пытается повторить вашего собеседника (при плохой связи ярко выделяется). Реальный голос собеседника невозможно передать через цифровой сигнал, очень похожий голос займёт 5-10 Мбит/с. Вокодеры в мобильной связи и вовсе используют особенности уха, чтобы вас обмануть.

                  Тут проблема в том, что не существует таких технологий и такого мощного, энергоёмкого (iphone не выдержит и 7 минут такого разговора) оборудования, которое смогло бы реализовать s2t кодек.
                    +5
                    Ну какие 5-10 Мбит/с, когда даже музыку 320 Кбит/с попробуй еще отличи от lossless, если аппаратура не hi-end. Вы, наверное, 5-10 Кбит/с имели в виду?
                    И мне кажется, что основная проблема не в S2t кодировании, а как раз наоборот в декодировании t2s так, чтобы правильно передать интонации собеседника, чтобы это вообще был похоже на ту речь, что была на входе на стороне говорящего. Если уж идти таким путем, я бы предложил кодировать не в текст, а в фонемы и передавать помимо самих фонем набор модификаторов: информацию о высоте тона, громкости, длительности звучания. Или даже данные кривой изменения каждого из этих параметров на протяжении звучания фонемы.
                    Можно даже так: сначала передаем сами фонемы традиционным способом и некие их идентификаторы, далее при близости новой фонемы к переданной ранее, передаем только ее идентификатор и модификаторы.
                      0
                      Если уж идти таким путем, я бы предложил кодировать не в текст, а в фонемы и передавать помимо самих фонем набор модификаторов: информацию о высоте тона, громкости, длительности звучания. Или даже данные кривой изменения каждого из этих параметров на протяжении звучания фонемы.


                      Хорошая идея.
                        0
                        vak0, Sun-ami, Mobile1
                        Давайте вместе посчитаем: 20 кГц частота звука, 8 байт разрешение импульса/ступени, 2 канала, полный дуплекс, 20% накладные расходы = (20000*2)*(8*8)*2*2*1.2 бит/с = 12 Мбит/с. Конечно, можно использовать сжатие без потерь и дельта-кодирование, это даст, на вскидку, 3 Мбит/с.

                        Можно даже так: сначала передаем сами фонемы традиционным способом и некие их идентификаторы, далее при близости новой фонемы к переданной ранее, передаем только ее идентификатор и модификаторы.

                        Это называется вокодер, широко используется в мобильной связи. Требует порядка 5 кбит/с.
                          0
                          Речь шла о передаче голоса одного человека. Зачем для этого нужен симметричный дуплекс? Зачем нужно 2 канала, ведь передаётся звук от одного источника, а не звуковая картина? Зачем нужно разрешение 64 бита? Человек не способен слышать звуки в диапазоне 385дБ.
                          Типичный вокодер передаёт описание модели речевого тракта при воспроизведении конкретных звуков. А здесь речь о построении модели голоса более высокого порядка. Это, конечно, тоже можно назвать вокодером, но такие методы, насколько мне известно, пока не используются. Это больше похоже на методы сжатия, используемые архиваторами.
                            0
                            Зачем для этого нужен симметричный дуплекс?

                            Если так рассуждать, то зачем передавать запись голоса в битрейте голоса. Ну придёт голосовое сообщение на несколько секунд позже, а мы уже в два раза снизим нагрузку на сеть.

                            Зачем нужно 2 канала, ведь передаётся звук от одного источника, а не звуковая картина?

                            Потому что у человека 2 уха, а речь идёт о передачи максимального похожего голоса. Монофонический канал эквивалентен тому, что собеседник стоит неподвижно, как столб перед тобой, но это уже не максимальное правдоподобие.

                            Зачем нужно разрешение 64 бита?

                            Чтобы различать 9e18 уровней громкости. Очевидно, человек не использует все эти уровни, но ведь он может говорить в малом диапазоне громкости, а плохое разрешение посчитает его голос за шум квантования.

                            Человек не способен слышать звуки в диапазоне 385дБ.

                            Не понимаю, о чём вы. Какая база децибел? Диапазон чего? Стандартный микрофон записывает звук до 22100 Гц, я же использовал 20000 Гц (предел уха обычного человека). По теореме отсчётов частота дискретизации в 2 раза больше.

                            Впрочем, даже 1 Мбит/с — это уже очень много. В любом случае, никто не будет тратить столько трафика ради «правдоподобного» голоса. Вы всегда услышите робота, маскирующегося под собеседника.
                              0
                              Давайте вспомним ваше первоначальное утверждение, которое мы обсуждаем:
                              Реальный голос собеседника невозможно передать через цифровой сигнал, очень похожий голос займёт 5-10 Мбит/с
                              Речь в нём не идёт о двусторонней связи, и передаче звуковой картины — только голоса одного человека. Для двухсторонней конференц-связи может понадобиться симметричный дуплексный канал, и 3, 4 или 8 звуковых каналов для достоверной передачи звуковой картины в помещени — но я не обсуждаю это, потому что для такого обсуждения не определены условия задачи, и решение этой задачи в любом случае — производное от решения задачи достоверной передачи голоса в одном канале. Даже устаревшая низкокачественная кодировка G.711 — это не голос робота, а голос собеседника с наложенным шумом, и заглушенными нижними и верхними частотами — а они могут быть заглушены и в естественных условиях непрямого распространения звука. 1 Мбит/с — это вполне достижимо для местной связи через гигабитную сеть, в том числе и в дуплексе.
                              385дБ — это те самые 9e18 уровней громкости, которые человек физически не может услышать, по крайней мере без необратимого физического повреждения ушей. Для передачи тех уровней громкости, которые могут встретиться в разговоре, достаточно разрешения 24 бита.
                                0
                                О чем Вы вообще говорите?
                                Для передачи речи без кодеков нужна частота дискретизации 7-8 кГц, поскольку верхняя граница полосы человеческого голоса 3,5-4 кГц. И разрешение 8бит. Итого 1 канал с нормальным телефонным качеством без кодеков 56-64 кбит/cек.
                                Какие 1Мбит/с???
                                Кодек GSM из 64 кбит/c делает 13 кбит/сек и никаких роботов.
                                  0
                                  Спектр человеческого голоса шире, чем полоса частот, воспринимаемых человеческим ухом. Вот здесь человек это исследует. Диапазон частот 300..3400Гц считается важным для передачи смысла сказанного, и в общих чертах передаёт особенности голоса. Но тональность голоса при этом искажается, голос кажется более глухим. Особенно это заметно на высоком женском голосе. А разрешение 8 бит не используется, из-за очень заметных шумов квантования. Минимально используемое разрешение — передача отсчётов в виде 8-битных чисел с плавающей запятой с 4-битной мантиссой, 3-битным порядком, и знаком. Это используется в европейской разновидности кодировки G.711, составляя суть её метода сжатия аудиопотока до 64 кбит/cек. Но то, что было хорошо для 70-х годов прошлого века, сейчас устраивает далеко не всегда, при разговоре через спикерфон шумы квантования очень заметны, и это совсем неудивительно для 4-битной мантиссы. Кодек GSM использует линейно-предикативное кодирование, суть которого состоит в построении для каждого звука модели мгновенной конфигурации звукового тракта человека, состоящей из генератора первичного тона, имитирующего голосовые связки, набора резонаторов, имитирующих трахею, ротовую и носовую полости человека (в грубом приближении), и генератора шума для воспроизведения шипящих. То есть это действительно не голос человека, а звуки, воспроизводимые моделью, имитирующей человека. И качество звука при этом даже ниже, чем у G.711, со своими особенностями искажений. Битрейт 13 кбит/с используется в GSM далеко не всегда, при большой загрузке каналов связи используется более низкий битрейт, и тогда искажения типа «голос робота» особенно заметны. Более достоверно речь передаёт кодек Opus на высоких битрейтах — там используется передача звука в частотной области, со сжатием за счёт замены частот, маскируемых более громкими соседними частотами, усилением громкости маскирующих их частот, как в MP3.
                                    0
                                    Применение передачи несжатого звука в связи пока довольно ограниченое, но у него есть свои преимущества. При полнодуплексной конферец-связи с большим числом участников микшер (сервер) конференций перед сложением аудиопотоков должен распаковать звук, а потом снова упаковать. В случае ресурсоёмких кодеков вроде Opus это требует большой вычислительной мощности, и вносит дополнительную задержку. Кодек Opus позволяет выбирать задержку, но чем меньше задержка — тем выше битрейт при одинаковом качестве. А задержка в 50 мс уже ощущается на слух при разговоре. Использование несжатого звука избавляет от этой проблемы и позволяет удешевить терминалы, поскольку их вычислительная мощность может быть низкой. 1 Мбит/с — это, конечно, много, по сегодняшним меркам, актуальны 705..768 кбит/с.
                                    0
                                    Давайте вспомним ваше первоначальное утверждение, которое мы обсуждаем:

                                    Не могу точно рассчитать, но мне кажется, что ваших параметров не хватит для передачи:
                                    Не прочитанный диктором текст с наложенными на него шаблонными «эмоциями», а в точности те же звуки, которые издает мой собеседник.

                                    С другой стороны, это без учёта всевозможных высококачественных методов сжатия. Впрочем, это субъективная оценка. Например, я слушал и 2 кГц — вполне различимо.

                                    p.s.
                                    кодек Opus на высоких битрейтах — там используется передача звука в частотной области, со сжатием за счёт замены частот, маскируемых более громкими соседними частотами, усилением громкости маскирующих их частот

                                    Я не силён в опусе, что они делают с фазовым спектром?
                                      0
                                      Я не силён в опусе, что они делают с фазовым спектром?
                                      К сожалению, я знаю опус поверхносно, не могу ответить на этот вопрос.
                            +1
                            В случае GSM и других LPC-кодеков, в том числе OPUS с низким битрейтом, это действительно речь робота. Но проводная телефония чаще использует G.711, а местами вообще до сих пор аналоговая на уровне одной телефонной станции. Передача голоса в цифре даже с очень высоким качеством займёт 1152кбит/с — использовать больше для монофонического канала нет смысла.
                          +6
                          А не проще ли просто текстовыми сообщениями обмениваться?
                          Голос — это немножко (на самом деле очень намного) больше, чем просто озвученный текст.
                          И это ещё эффект «зловещей долины» если не рассматривать.
                            0
                            Берём Яндекс.Мессенджер (который превращает текстовые сообщения в текст) и добавляем к нему Яндекс.Алису, которая потом это сообщение надиктует. Или не добавляем, потому что прочитать обычно быстрее.
                              –2
                              Яндекс это сделал для асинхронного общения, для обычного удобства, для человека за рулем например.
                              Здесь же речь идет о реалтайме, принципиально другой подход…
                                +1

                                "А товарищу майору ваша шутка с пепельницей понравилась!" ©

                                  0
                                  Яндекс Мессенджер умеет распознавать звук и пишет текст.
                                    0
                                    Да, я опечатался.
                                  +7
                                  Каждые несколько лет очередного хипстера озаряет этой «гениальной» идеей так, что брызги по всему миру разносятся. Сколько можно?
                                    +1
                                    Каждые несколько лет очередного хипстера озаряет этой «гениальной» идеей так, что брызги по всему миру разносятся. Сколько можно?


                                    А напомните предпоследнего пожалуйста…
                                      +1
                                      Я источники не коллекционирую. Впервые эту «новость» я прочитал будучи студентом, в журнале «Мой компьютер» примерно в 2000 году (и на 100% уверен, что и на тот момент это уже был баян).

                                      Далее по регулярности появления с этой фигней соперничает разве что новость о создании очередного супер-пупер-аккумулятора, с которым мобилки будут по пол года работать на одной зарядке.
                                        +2
                                        Я источники не коллекционирую.
                                        Я тоже, но одного персонажа вспомнил: habr.com/ru/post/170487
                                        Цитата:
                                        … а в данный момент трудится над алгоритмом, который будет сжимать фильм размером в 2Gb всего лишь до 2-3kb! Ну что же, пожелаем удачи этому юному таланту в его начинаниях.
                                          –3
                                          Цитата:

                                          … а в данный момент трудится над алгоритмом, который будет сжимать фильм размером в 2Gb всего лишь до 2-3kb! Ну что же, пожелаем удачи этому юному таланту в его начинаниях.


                                          Вы путаете алгоритм, который заключается в математике и принципиальный подход.
                                          Здесь нет никакого алгоритма сжатия и никто им не заморачивается…
                                            +1
                                            Математики самого алгоритма вы не привели в посте. Только громкие рассуждения на тему «Почему если это так, то это не так» и «Вот фантасты предсказывали, а дай-ка я предскажу». Если вы действительно имеете подобные наработки, то вас с руками и ногами возьмут во многие фирмы, только пруфы им предоставь. Потому как хранение данных сегодня, это очень наболевшая тема.
                                              –2
                                              Ну здесь же не про хранение данных…
                                              Вы статью саму читали?
                                                0

                                                А не вы ли в google play на отклики отвечаете?

                                                  –3
                                                  А не вы ли эти отклики пишете?
                                                  :)
                                                    0

                                                    Как там было… "Это ваши проблемы.", "У нас всё работает".
                                                    Работа с клиентами — это важно, да.

                                                      –2
                                                      Так и работайте с клиентами, если это важно для вас.
                                                      Вы работаете в техподдержке?
                                                        0

                                                        Вам будет трудно найти отклик вашим идеям с подобным хамством.


                                                        По сути, вы ещё один товарищ, сосущий деньги за плохой продукт с плохой поддержкой.

                                                          –1
                                                          Вам будет трудно найти отклик вашим идеям с подобным хамством.


                                                          Да?
                                                          А я считаю надменные провокационные тупые вопросы хамством и стараюсь ответить примерно в таком же ключе…

                                                          По сути, вы ещё один товарищ, сосущий деньги за плохой продукт с плохой поддержкой.


                                                          Так не пользуйтесь нашим продуктом, вокруг же полно бесплатного 1 гигабита каждому замечательных сервисов…
                                                            +4

                                                            Собственно вот это и было нужно, чтобы хам назвал себя хамом.


                                                            Не получится у вас с it сообществом, слишком умные тут ребята и девчонки, чтобы не видеть архитектурных недостатков продукта и вашего отношения к людям.


                                                            С же свои вопросы задал, почитав отклики на ваше приложение и не сомневался, что вы сорветесь, как срываетесь на своих клиентах.

                                                              –2
                                                              Не получится у вас с it сообществом, слишком умные тут ребята и девчонки, чтобы не видеть архитектурных недостатков продукта и вашего отношения к людям.


                                                              Рекомендую вам отвечать только за себя, не прикрываться за другими.

                                                              С же свои вопросы задал, почитав отклики на ваше приложение и не сомневался, что вы сорветесь, как срываетесь на своих клиентах.


                                                              Также настоятельно рекомендую попробовать вам написать и опубликовать на Хабре хотя бы одну статью, получить за нее много минусов и потом поотвечать на вопросы в комментариях.
                                                              Возможно тогда к вам придет дзен :)
                                                                0
                                                                Также настоятельно рекомендую попробовать вам написать и опубликовать на Хабре хотя бы одну статью, получить за нее много минусов и потом поотвечать на вопросы в комментариях.
                                                                Возможно тогда к вам придет дзен :)
                                                                А кто виноват в том, что Вы нахватали минусов? Окружающие люди? Читатели? Полагаю, что нет.
                                                                Почему у Вас в других статьях нет минусов, хотя люди те же?
                                                                Люди минусуют, показывая, что Вы чушь написали. И не владеете даже определениями понятий, имеющих отношение к теме.
                                  +2
                                  Текхнически — оно как бы частично реализуемо. Но:
                                  1. на выходе получите полнейшую фигню, потому что для Speech2Text — нужен сильный ИИ — а он пока не изобретен. Иначе, в лучшем случае, рискуете сказать «Мама», а отправить «Корова».
                                  2. Latency — анализ контекста, даже для сильного ИИ — требует времени, т.е. принятия полной фразы. Потому указанное вами не применимо для RT связи
                                    –4
                                    на выходе получите полнейшую фигню, потому что для Speech2Text — нужен сильный ИИ — а он пока не изобретен.


                                    Сильный ИИ как раз таки не нужен, у нас нет задачи чтобы ИИ понимало нас.
                                    Нам нужно чтобы ИИ правильно передало то что мы сказали.

                                    Latency — анализ контекста, даже для сильного ИИ — требует времени, т.е. принятия полной фразы. Потому указанное вами не применимо для RT связи


                                    Да, вот это проблема и я упомянул о ней.
                                    Но по идее можно предиктивно убыстрять передачу слов.
                                      +4
                                      … у нас нет задачи чтобы ИИ понимало нас.
                                      Нам нужно чтобы ИИ правильно передало то что мы сказали

                                      Для того, чтобы правильно передать текстом сказанное, надо сначала сказанное правильно понять. А вот для того, чтобы правильно понять, надо именно что сильный ИИ. Думаю, задача полноценной правильной конвертации Speech-to-Text без правильного полноценного понимания сказанного не решаема. Ну и, как уже говорилось выше, передача ударений (которые могут менять смысл слов), пауз (казнить нельзя помиловать), тона, интонации и т.д. вообще не рассмотрена.
                                        0
                                        Для того, чтобы правильно передать текстом сказанное, надо сначала сказанное правильно понять. А вот для того, чтобы правильно понять, надо именно что сильный ИИ. Думаю, задача полноценной правильной конвертации Speech-to-Text без правильного полноценного понимания сказанного не решаема.


                                        В том то и дело, что нет задачи понимания.
                                        Если мы будем смотреть на ИИ, как на собеседника, то да, от ИИ нужно понимание, но у нас на другом конце сидит человек, он поймет :)

                                        Тут такая аналогия — например вы разговариваете с не носителем языка.
                                        Он путает падежи, неправильно ставит ударения, использует не совсем правильные слова, но вы же все равно его понимаете, понимаете что он хочет сказать, ну в 99% случаях.
                                        То же самое и здесь — окончательную информацию воспринимает человек.
                                          0
                                          А как вы собрались передавать смысл без понимания смысла?
                                        0

                                        Проблема сжатия голоса — это удаление шума из голоса, и шума окружающей среды. Это можно решить большим количеством микрофонов и алгоритмом отсечения шума. И микрофоны должны "знать", где находиться говорящий человек, чтобы фокусироваться именно на нём (это можно рассчитать по задержке распространения звука). И вуаля, у вас уже чистый голос в 1кб/сек.


                                        Без такого старта думать об распознавании t2s — просто игрушка, которая будет постоянно ошибаться.

                                          0
                                          Проблема сжатия голоса — это удаление шума из голоса, и шума окружающей среды. Это можно решить большим количеством микрофонов и алгоритмом отсечения шума.


                                          НетЪ.
                                          Нет проблемы сжимать голос, это не нужно.
                                          Нужно передавать контент, который занимает очень мало места, а не звуки.
                                          В этом принципиальная разница.
                                          Много микрофонов есть у смарт спикоров -Alexa Echo, Яндекс. Станция и т.д.
                                          Но они там используются для других задач.
                                          Основная идея совсем другая — передавать контент из голоса, а не сам голос.
                                          Голос потом восстановить на устройстве приема.
                                            0

                                            Чтобы передать "контент", нужно сначала вырезать "не контент" как можно более точно. А это уже уменьшит объём данных в любом случае.


                                            Выше уже предложили бить на фонемы, но я подозреваю, что чем то похожим голосовыйе кодеки и занимаются. Да и вы не сможете нормально передать или понять язык обычным t2s, письменность которого основана на кандзи.

                                            0

                                            Помнится что скайп хочет улучшит качество аудио с испольщованием нейросетей. Но там не идет речь про s2t, а про удаление шумов и усиление голоса на рядовых микрофонах.


                                            [новость на английском] (https://www.google.com/amp/s/venturebeat.com/2020/04/09/microsoft-teams-ai-machine-learning-real-time-noise-suppression-typing/amp/)

                                        +1

                                        Касательно канала связи. Звоню я на незнакомый номер первый раз в жизни. Там нет моего аватара. Сколько места должен занимать t2s аватар, или там коэффициенты для нейронки, чтобы реалистично воспроизвести голос? И когда он будет передаваться, учитывая, что канал связи заточен именно под передачу только текстового содержания речи (передача аватара потребует совершенно другой ёмкости канала). Это противоречие концептуальное. Комфортным считается установление соединения при звонке менее, чем за 1 секунду — и связано это с психологией человека, эту величину нельзя сильно увеличить. Для GSM канала это 13,6 кбит, для КВ — ещё меньше. В общем, это пока дело весьма далёкого будущего.

                                          0
                                          Вы зачем то упомянули криптографию, но не упомянули помехоустойчивые коды. Например, код Рида-Соломона. Без исправления ошибок, чем сильнее сжат поток, тем меньшая ошибка приведет к большим искажениям.
                                            –3
                                            Вы зачем то упомянули криптографию, но не упомянули помехоустойчивые коды. Например, код Рида-Соломона. Без исправления ошибок, чем сильнее сжат поток, тем меньшая ошибка приведет к большим искажениям.


                                            О каких искажениях идет речь и о каких ошибках?
                                            Подразумевается что на стороне А не будет ошибок, как слово было сказано, так оно и будет потом шифроваться.
                                            Про избыточные коды для исправления ошибок мы сейчас не говорим, естественно все там будет по умолчанию.
                                              0
                                              В абзаце «немного теории» Вы написали, про аналого-цифровое преобразование, сжатие, шифрование, -канал передачи-, затем дешифрование, декомпрессия, цифро-аналоговое преобразование.
                                              Но упустили важный момент — кодирование помехоустойчивыми кодами.
                                                0
                                                Я там много еще чего пропустил, подразумевая что это всем известно.
                                                Зачем расписывать непринципиальные вещи?
                                                Давайте еще структуру байтов будем описывать, а заодно все протоколы TCP, UDP и т.д.
                                                Для меня важно было донести принцип, а не навалить кучу второстепенной технической информации…
                                                  +1
                                                  Принцип очень давно известен, но до сих пор не реализован. Странно, почему бы это.

                                                  Возможно Вы верите в магию ИИ, которой нет. Это нормально. В религиях тоже верят в тех кого нет.
                                            0

                                            Мне кажется будет не оправдан сэкономленный трафик по отношению к затраченным ресурсам на все эти преобразования. Вон с помощью 5G уже людей чипуют, а вот квантовый компьютер/смартфон еще далек от масс)

                                              +4

                                              Сделайте лучше утилиту которая голосовые сообщения в чате в текст переводит, вот точно очень в жизни поможете.

                                                +2

                                                И чего только не придумают, чтобы не учиться быстро печатать на клавиатуре!

                                                  +2
                                                  Цитата из википедии:
                                                  В 1930-х годах работник Bell Labs Хомер Дадли (Homer Dudley), работая над проблемой поиска путей для снижения пропускной способности, необходимой в телефонии, чтобы увеличить её передающую способность, разрабатывает VOCODER (сокращенно от англ. voice — голос, англ. coder — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в том, чтобы проанализировать голосовой сигнал, разобрать его на части и пересинтезировать в менее требовательный к пропускной способности линии. Усовершенствованный вариант вокодера Дадли, VODER, был представлен на Нью-Йоркской Всемирной выставке 1939 года[3].


                                                  Вся страница на вики: ru.wikipedia.org/wiki/Синтез_речи

                                                  Революция в связи?
                                                    –4
                                                    Вся страница на вики: ru.wikipedia.org/wiki/Синтез_речи

                                                    Революция в связи?


                                                    Вы действительно не видите разницы?
                                                    Вокодер — это Text To Speech, ситезированная речь, причем синтезированная искусственно.
                                                    Сейчас же все текст 2спич сделаны на основе какого-то реального голоса.
                                                    И это только один из элементов, причем самый простой, в этом концепте.
                                                    Я же говорю о способе передачи, когда предается вообще не голос, а семантика, причем посредством текста.
                                                    T2S, как впрочем и S2T — здесь просто кубики в конструкции.
                                                    Идея в другом.
                                                      +1

                                                      Вот почитайте https://m.habr.com/ru/post/446656/

                                                        0
                                                        Вот почитайте m.habr.com/ru/post/446656


                                                        Зачем вы ссылаетесь на еще один кодек с низким битрейтом?
                                                        Он как был кодеком, таким и останется, хоть обучи его нейронкой.

                                                        Вы действительно не видите принципиальной разницы?

                                                        В концепте предлагается совершенно иное — голосовые кодеки не нужны.
                                                        Вот это основная мысль, которую почему-то никто никак понять не может…
                                                    0
                                                    Вы действительно не видите разницы?
                                                    Да. Я действительно не вижу разницы. У Вас так и сказано, речь в текст, а потом текст в речь.
                                                    И вот что непонятно:
                                                    … звуковые
                                                    колебания также оцифровываются, но не передаются сразу же другой стороне, а
                                                    преобразуются в текст (Speech To Text) и далее передается уже осмысленный текст от
                                                    абонента А...
                                                    Что означает осмысленный текст? Кто его осмыслил?
                                                    Абонент А?

                                                    Ведь люди коммуницируют между собой не звуками, а значением, контентом, семантикой, мыслями…
                                                    Как раз люди коммуницируют звуками. Но не только. Еще жестами. Что Вы понимаете под «контентом» я не знаю, так что пропущу. А вот насчет семантики и мыслей, категорически не согласен.
                                                    Человек не может передать мысль. Человек может свою мысль проассоциировать со словами, и это будет кодированием. Далее слова услышит другой человек, и возможно эти слова проассоциируются у него в схожие мысли. Я пишу «возможно» поскольку должно совпасть очень много условий, таких как контекст, знания обсуждаемого вопроса, словарный запас, знание языка и т. д.
                                                    Слова (и звуки как их модуляция) это данные. И люди передают друг другу эти данные, но не информацию (мысли). Для извлечения информации из данных, необходимо правило интерпретации. Такое правило есть словарный запас, тезаурус, и вообще опыт общения.
                                                      0
                                                      Я предлагаю не уходить в философские определения — кто и что как может интерпретировать и т.д.
                                                      В вашей вселенной люди общаются звуками, в моей — смыслами.
                                                      В вашей вселенной в книгах есть только буквы, в моей — мысли…
                                                        0
                                                        В вашей вселенной люди общаются звуками, в моей — смыслами.

                                                        Если бы люди могли общаться смыслами, то не требовался бы язык, не требовался перевод с одного языка на другой. Общение смыслами — это телепатия, но я в нее не верю. А Вы верите?
                                                        В вашей вселенной в книгах есть только буквы, в моей — мысли…
                                                        В книге не может быть мыслей, мысль — это процесс протекающий в мозгу человека или животного, хотя насчет животного я не уверен.
                                                          0
                                                          И еще:
                                                          Я предлагаю не уходить в философские определения — кто и что как может интерпретировать и т.д.
                                                          Есть такая наука: ru.wikipedia.org/wiki/Психолингвистика
                                                          Она как раз занимается связью между речью и смыслами. К философии она отношения не имеет.
                                                          Один из ее разделов: исследованием связи между речевыми сообщениями и характеристиками участников коммуникации (превращение намерений говорящего в сообщения, интерпретация их слушающим);
                                                        0

                                                        В спутниковой телефонии это давно реализовано.

                                                          0
                                                          В спутниковой телефонии это давно реализовано.


                                                          Это в какой спутниковой телефонии это реализовано?
                                                          Вы говорите о спутниковых терминалах?
                                                          Имели с ними дело?
                                                          Во большинстве спутниковых терминалов (iDirect, Huges и т.д.) стоит обычный VOIP шлюз со всеми вытекающими.
                                                          0

                                                          Опуская в сторону все очевидные сложности с подходом, я не увидел главного:
                                                          Какую проблему вы решаете? И существует ли эта проблема вообще?

                                                            –2
                                                            Я не знаю почему вы ничего не увидели.
                                                            Проблема существует, если вы не знаете об этом, то я даже не знаю что вам и сказать…
                                                            Объяснение элементарных вещей как-то не входило в задачу этой статьи…

                                                            Полагаю что квази инвесторский надменный менторский подход также неуместен в рамках этой статьи…
                                                              0

                                                              Поискал поиском, обозначения проблемы в статье не нашёл.
                                                              Что решаем?

                                                                –4
                                                                Попробуйте еще, у новичков с первого раза не всегда получается…
                                                                  0
                                                                  Вам так тонко намекают, что пытаться такими извращениями ужать поток, измеряемый в килобитах, когда на пороге «гигабит в каждом телефоне» — это проблема не особо-то актуальная.
                                                                    –1
                                                                    Эта проблема всегда актуальная.
                                                                    Если вы верите всем маркетологам и всей рекламе и лозунгам — то да, для вас этой проблемы не существует.
                                                                    Если включать гойлову — то проблем вокруг много.
                                                                      +1
                                                                      Если включать гойлову, то вокруг много гораздо более важных проблем.

                                                                      И о каких маркетологах и рекламе вы говорите? Вы сейчас сами ведёте себя как типичный маркетолог, пытающийся втюхать никому не нужную революционную хрень.
                                                                      Я за минуту просмотра Ютуба трачу больше трафика, чем на всё голосовое общение за месяц. Чем ваша «революция в связи» принесёт мне столько пользы, что я её хотя бы замечу?
                                                                        –1
                                                                        Если включать гойлову, то вокруг много гораздо более важных проблем.


                                                                        дети в Африке голодают?

                                                                        И о каких маркетологах и рекламе вы говорите?


                                                                        Ну вы же упомянули о гигабите, это же маркетологи 5G в вас говорят

                                                                        Вы сейчас сами ведёте себя как типичный маркетолог, пытающийся втюхать никому не нужную революционную хрень.


                                                                        Если вы не заметили, я предложил просто обсудить концепт.
                                                                        Поэтому и в заголовке зак вопроса.

                                                                        Чем ваша «революция в связи» принесёт мне столько пользы, что я её хотя бы замечу?


                                                                        Хомячки ничего не замечают, они просто пользуются.
                                                                        Вы знаете как заморочился тот же Гугл, чтобы вы могли смотреть свой ютубчик?
                                                                        Достаточно сказать что он в каждой (!) стране, у каждого (!) оператора поставил свои серваки, чтобы у вас все летало и задержка была минимальна.
                                                                        Он заморачивается и выгружает контент ближе к вам, прямо в сеть вашего оператора.
                                                                        CDN технология.
                                                                        Так он экономит полосу.
                                                                        Но он наверное тоже не знает что скоро будет 1G на всех и наступит счастье и все что делает было напрасно :)))
                                                                        Но хомячкам лучше этого не знать, им неинтересно, им интересно другое.
                                                                        Каждому свое.

                                                                          +2
                                                                          Вы знаете как заморочился тот же Гугл, чтобы вы могли смотреть свой ютубчик?
                                                                          Ну вообще-то, если вы вдруг не заметили, я его и привёл как пример того, что реально имеет смысл оптимизировать.
                                                                          Хомячки ничего не замечают,
                                                                          Но хомячкам лучше этого не знать, им неинтересно, им интересно другое.
                                                                          Знаете, с таким подходом вы даже что-то реально нужное никогда не продвинете. Такое презрительное отношение к людям, чьи проблемы вы собираетесь решать, ни на грамм не прибавляет веса вашим словам.
                                                                          Если вы не заметили, я предложил просто обсудить концепт.
                                                                          Поэтому и в заголовке зак вопроса.
                                                                          Вы предлагаете обсудить не концепт, а непонятную абстрактную фантазию человека не разбирающегося ни в чём, что предлагает обсуждать, и не можете даже внятно сформулировать самый главный вопрос, «зачем оно нужно?».
                                                            0
                                                            А пока что с задачей распознавания получения связного текста, особенно в шумных условиях, не справляется даже облачное распознавание, какое там локальное распознавание.
                                                              –1
                                                              На самом деле справляется.
                                                              И даже с видео рекогнишен локально справляется, есть много компаний, которые это делают.
                                                              0
                                                              Есть большая проблема в осмысливании и преобразовании в «тегcд злофф собъезеднига», т.е. любое отклонение от шаблона — и смысловой анализатор уже не сможет победить ситуацию.
                                                              Думается модификатором идеи может стать выделение неких постоянных примитивов в звуковом потоке, и с использованием разных способов кодирования и сжатия ( методов Хаффмана и других столпов кодирования ) передавать данную информацию. Звуковыми примитивами могут быть данные [слот времени + стд. частотная функция + стд. огибающая функция]
                                                              ЗЫ может быть это уже и реализовано в каких-то кодеках?
                                                                0
                                                                Здесь основная идея — вообще уйти от кодеков.
                                                                Т.е. передавать значение, а не то какими звуками оно описано.
                                                                  +2
                                                                  Т.е. передавать значение
                                                                  Чтобы уметь предавать значение, а не просто переводить речь в текст, нужно, чтобы ваш кодировщик знал всё на свете. Вы правда считаете, что есть хоть одна практическая задача, для которой такое решение будет достаточно простое, чтобы вообще его рассматривать?
                                                                    0
                                                                    Я указал на проблему по поводу анализа и преобразования в значение. А по поводу звуковых примитивов — можно создать их конечный набор, и между абонентами передавать только информацию о их коде. Это практически то-же самое, что и передача кода символа, только более универсально, и не привязано к конкретному языку. При этом возможна передача абсолютно любого звукового сигнала.
                                                                  0
                                                                  Все такие критики хоть в даль беги, Автор приложил силы к статье и статья в полне себе несет инфорMацию, ставить такие оценки и критиковать это кощунство, даже не пытаетесь понять и поставить себя на Mесто автора!
                                                                  Спасибо за статью было интерсно ознакоMится, не без критики обошлось но интересно!
                                                                    0
                                                                    Спасибо тебе, добрый человек…
                                                                      0

                                                                      тонко, жертва купилась

                                                                      0

                                                                      Вот злесь описан кодек 1.6 кб/с с образцами его звучания.
                                                                      https://habr.com/ru/post/446656/

                                                                        0
                                                                        Я думаю подобных патентов уже пруд пруди с 90х.

                                                                        Only users with full accounts can post comments. Log in, please.