ФСБ учится распознавать кавказцев по голосу

    ФСБ России объявило тендер на «Создание автоматизированного атласа национальных языков РФ» (НИР «Д-2010-08-4.3») с начальной ценой контракта 24 млн руб. и сроком 29 месяцев (тактико-техническое задание в PDF). Заказ размещён от имени части 68240, принадлежность которой к ФСБ известна по анализу информации из открытых источников.

    В рамках тендера требуется разработать справочник, который может стать основой для автоматической системы, способной по речи надёжно распознавать язык говорящего. Например, с помощью такой системы можно оперативно выявлять разговоры на кавказских языках среди всех сотовых переговоров в Москве (при условии их одновременной прослушки через коммутаторы операторов сотовой связи).

    Первыми языками, для которых должно быть «проведено исследование особенностей устной речи информантов-носителей», в ТТХ называются шесть языков: аварский, ингушский, кабардино-черкесский, карачаевский, балкарский, даргинский. Для каждого языка должно быть минимум 20 информантов с разными каналами фиксации речи: микрофон, телефон и т.д., минимум по 10 сеансов записи для каждого канала более 40 секунд. Затем нужно провести анализ звукозаписей, после чего составить лингвистические паспорта языков.
    Support the author
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 62

      0
      Интересно… Я как-то раньше считал, что СОРМ работает немного по-другому — прослушиваются заранее выбранные телефонные переговоры. А тут похоже на то, что официально готовятся слушать вообще всё?
        +1
        Слушать и распознавать язык говорящего, очевидно же.
        То есть в базу звонков добавится и поле «предполагаемый язык разговора».
          +1
          Ну и на кой? Как я предполагаю, прослушка заказывается на конкретного субъекта. Не на «неизвестный номер, по которому хрен знает кто, о чем и на каком языке говорит». Т.е. персонаж известен и, скорее всего, известны все языки, на которых он может говорить.
          Поэтому я и пытаюсь допереть, насколько эффективна эта разработка будет в тех условиях работы СОРМ, которые я предполагаю.
            0
            Ну вот например… Свидетель заметил что подозреваемый говорил по телефону на каком-то «не нашем» языке в таком-то месте. Если все звонки по данной БС были обработаны такой системой (предположим, с большой вероятностью «попадания») — тогда резко сужается круг номеров, которые надо бы проверить. А может там за это время и вообще один звонок такой окажется.
            Да много применений еще думаю можно придумать, а 24 млн. в рамках такой разработки — не считаю что есть повод опять кричать «распил», вполне адекватная сумма как мне кажется.
              0
              законы РФ не разрешают прослушивать абонента без разрешения суда. пока что…
                +3
                С учётом того, что СОРМ никак не проконтролировать, закон тут не особо помогает.
                  +1
                  запрещает ли закон РФ определять национальность абонентов без протоколирования содержания разговора, вот в чем вопрос…
                    +1
                    законы РФ не разрешают прослушивать абонента без разрешения суда. пока что…

                    ru.wikipedia.org/wiki/СОРМ
                    В соответствии со статьёй 23 Конституции России ограничение тайны связи допускается только по решению суда. В то же время в законе упоминается возможность использования СОРМ до решения суда, «в случаях, установленных федеральными законами».
                      +2
                      На самом деле раньше каждый оператор должен был иметь специальную комнатку для проведения оперативных мероприятий. Сейчас же от каждого оператора идёт волокно до ФСБ и что там они делают — никому не известно. Так, что закон этот чистая фикция.
                    • UFO just landed and posted this here
                      +1
                      СОРМ настраивается заранее, а не постфактум. Допустим, известно место, где будет находиться подозреваемый. Если неизвестен его номер — то неизвестен и оператор, а значит, заранее нужно выводить в СОРМ-каналы звонки с БС всех операторов в округе. Причем в городе это будет гораздо больше 3х станций.
                      Таким образом ФСБ кроме звонка подозреваемого фактически прослушает разговоры совершенно посторонних людей, что является нарушением их права на неприкосновенность частной жизни. Вот в этом-то и загвоздка, если применение системы будет именно таким, как вы предполагаете.
                      Стандартное применение прослушки — по согласованию, в рамках оперативно-розыскных мероприятий, для конкретного товарища. А тут — всех под замах.
                      Вот про это я в первом комментарии и писал.
                      0
                      Для того что бы более оперативно можно было сделать стенограмму разговора с адекватным переводом
                        0
                        Почитайте про американский ЭШЕЛОН. Вас тоже слушают. Попробуйте в международном звонке чего-нить про взрывчатку рассказать (на русском языке), сразу на галочку поставят.
                      +2
                      вы правильно думали. и на самом деле так сейчас и работает… Обработать весь телефонный трафик мне реальным не представляется…
                        0
                        Пруф?
                        Я, например, думал, что хранить телефонные разговоры — проблематично из-за объёма, оказалось — нет. С учётом специальных алгоритмом сжатия, заточенных под голос, записи занимают совсем чуть.
                      –47
                      За такие бабки я выучу эти языки, пришью себе еще десяток ушей и буду год сидеть, слушать разговоры, выявляя дагистанцев и прочих понаехавших.

                      А по-серьезу, желаю удачи в освоении бюджета! Блять.
                        –3
                        Выб русский для начала выучили, в качестве proof of concept, так сказать :)
                          –24
                          Перед тем, как умничать за орфографию, проверь свой псто на очепятке, Luke.
                          +8
                          Для стоящей системы, позволяющей делать то, что описанно в ТЗ это нормальные деньги
                            0
                            Если бы делали с нуля с научными исследованиями — то да. Но ведь возьмут существующие разработки, подпилят чуток и, вуаля, переводите деньги!
                              +1
                              ну а кто вам мешает это сделать? Есть заказчик, есть вполне определенная задача, возьмите существующие разработки, подпилите и в перед, в путь, к светлой жизни на канарах.
                                +1
                                Чувствую себя Шелдоном, это, типа, ирония? Или вы серьёзно?

                                Если, вдруг, серьёзно: у нас большой «бузинесс» всё решает в саунах, в которые я не вхож, поэтому «взять и сделать» можно, но «вуаля и на канары» уже не выйдет.
                                0
                                Зачем делать с нуля, если уже есть существующие разработки? Кстати какие открытые разработки на эту тему вы знаете?

                                Почитайте еще раз ТЗ по тенедеру — там требуется провести научно-исследовательскую работу + разработать специализированный софт под эту работу.
                                  0
                                  «существующие разработки» обычно очень затратны и не окупаются с одного проекта

                                  если есть фирмы у которых есть адекватные существующие разработки — то абсолютно адекватно им заплатить )
                                  чтобы им хватило денег на следующие «существующие разработки» :)
                                –2
                                Ничесе я высер такой дал! О_о
                                0
                                Мне кажется что создать подобное крайне сложно. Если у них что-то и получится, то процент ошибок будет достаточно велик.
                                  +2
                                  Насколько мне известно, подобные решения уже существуют и вполне работают. Вот, например

                                  Интересно, кто будет участвовать в тендере?
                                    0
                                    А здесь вроде и так ясно — только ЦРТ!
                                      +1
                                      Ну да, судя по протоколам — прошли МГУ и ЦРТ.
                                      Но у МГУ какие-то совсем странные условия — 5.5 млн и 19 месяцев. Такое ощущение, что они только по своим студентам речевые базы собирать планируют.
                                      –6
                                      Роснано. Они сделают нанораспознователи.
                                    +4
                                    Скоро объявят тендер на автоматизированную систему создания тендеров
                                      0
                                      Я так понял, второй абзац это Ваши домыслы?
                                        +33
                                        Вполне нормальный тендер. Буду рад если его выиграет какой-нибудь НИИ из РАН или обычный университет. По данной теме можно написать и защитить достаточно много хороших диссертаций. Интересная научная работа. Это вам не быдлосайты клепать.
                                          –7
                                          Видимо в посте намекается не на научность работы, а на то кого собираются прослушивать и связанную с этим дискриминацию. Это примерно как сейчас в мвд заявляют, что в метро досматривают документы не по принципу национальностей.

                                          А так можете исследовать что угодно, пока это не используют в извращенном виде.
                                            +2
                                            Ашманов возьмется за дело
                                              0
                                              «можно написать и защитить достаточно много хороших диссертаций»

                                              принимал на работу как-то одного такого молодого представителя отечественного академического планктона:

                                              он с порога заявил, что заниматься программированием,
                                              а конкретно разработкой компонентов для информационной системы имеющей веб интерфейс (т.е. работать над «быдло сайтиками») он не будет

                                              он заявил что будет работать только над академически интересными вещами,

                                              Но этот человек ни одного сложного API не смог освоить, даже когда было надо (MathLab API)

                                              вот таких я и называю
                                              представителями отечественного академического планктона

                                              • UFO just landed and posted this here
                                                +3
                                                Даже не сомневался, кто автор статьи.
                                                  0
                                                  Хм, нормальное распознавание речи, аспектов каждого отдельного индивида(а так же отсутствие разных зубов этих индивидов или ангина) и акцент — это как раз та проблема, которая затрудняет голосовые команды на качественном уровне для бытовых приборов и прочего. Неужели если ФСБ попросило — эти проблемы сразу же решат за 29 месяцев?
                                                    0
                                                    Это при условии, что этот самый акцент есть. Остается понять, что делать они будут, если акцента нет вообще.
                                                      +1
                                                      Проблема даже не в этом.

                                                      >> способной по речи надёжно распознавать язык говорящего. Например, с помощью такой системы можно оперативно выявлять разговоры на кавказских языках среди всех сотовых переговоров в Москве.

                                                      Судя по контексту, имелось в виду конкретно язык, на котором говорят, а не родной язык говорящего(а если в детстве двум сразу учили? бывает и такое).

                                                      А тут уже легче ловить по чаще всего используемым словам того или иного языка, поэтому акцент может даже усложнить задачу распознания языка. Например, человек без передних зубов произносит русское слово «Я» по произношению похожим на немецкое «ja».
                                                        0
                                                        Или дагестан к примеру, у них чуть ли не каждое село со своим диалектом, не то что акцентом…
                                                        Это гиганский объём работы.
                                                        Ещё интересно что прошёл ингушский, а чеченский нет. Языки родственные и очень близки.
                                                          0
                                                          Дагестан это ладно, у тайцев если геморрой огромный с выражением в слове, там можно легко маму подруги назвать собакой, не так вытянув гласную, про языки, где слов мало и акцент поставлен на выражении я вообще молчу.
                                                          0
                                                          У меня акцент есть — меня бы точно распознали :(
                                                          Хотя мои национальность и язык можно распознать и по фамилии, на которую записан мой сотовый номер :)

                                                          Но вообще система интересная — ведь это шаг к универсальным переводчикам из научной фантастики!
                                                          +2
                                                          Скорее у какого-то из НИИ есть уже определенные наработки и просто официально пробивается финансирование. Задача действительно интересная и наукоемкая.
                                                            0
                                                            Мне тоже так показалось.
                                                          0
                                                          Вообще-то вроде просто язык надо распознать? Если так, то это намного легче чем акцент.
                                                            +1
                                                            И уже скоро в новой Шарашке новые Нержин и Рубин будут изобретать новый вокодер.
                                                              0
                                                              Это в любом случае сложная задача.
                                                              Сложность ее заключается в сборе речевой базы данных. Именно поэтому срок работ такой длительный.

                                                              На сегодняшний день уже существуют экспертные системы идентификации диалекта диктора. Например «Регион» от ЦРТ.
                                                              Но такие системы полу-ручные. Для работы с ними нужен эксперт.

                                                              Для топик-стартера — заявленная стоимость тендера не всегда является окончательной. Потрудитесь узнать решение конкурсной комиссии, чтобы не вводить людей в заблуждение.
                                                                –1
                                                                Да бОльшая часть работы сделана уже:
                                                                www.youtube.com/watch?v=ZKiIJtkydT0
                                                                  +7
                                                                  А как будет «бомба» на кабардино-черкесском?
                                                                    –1
                                                                    :D
                                                                      –2
                                                                      Ничего себе какие далекоидущие и конкретные выводы вы сделали. Поздравляю, вы выиграли тендер на самый «жёлтый» заголовок на «Хабре».
                                                                        +3
                                                                        Данный автор давно уже обладатель всех подобных титулов и рангов. Легенда, как никак.
                                                                          +1
                                                                          Вопрос в другом: почему его до сих пор читают и плюсуют?
                                                                            0
                                                                            я плюсую/минусую материал, а не автора. Ализар периодически постит интересные новости, почему бы и не плюсануть? Если жёлтизна или левота — то почему бы и не минусануть? Не смотря на ранги и кармовитость.
                                                                            Как-то так.
                                                                              0
                                                                              А я смотрю и на материал и на автора (и историю его публикаций). Если автор постоянно пишет хорошие статьи, то это одно, а если одну хорошую на 10 таких, как эта, то таким автором можно и принебречь.
                                                                        +1
                                                                        Ну вообще не палятся вообще для чего делают распознавание
                                                                          +1
                                                                          Упс, ночью бред пишу, сори (
                                                                          0
                                                                          нет, я сам не слышал, но мне Рабинович напел.
                                                                            0
                                                                            Не волнуйтесь: скоро Система будет распознавать и рабиновичей.
                                                                            0
                                                                            <на правах шутки>Достаточно просто распознавать «, да?» в конце каждого предложения :)</на правах шутки>

                                                                            Only users with full accounts can post comments. Log in, please.