alizar Aug 10 2010 at 10:56

ФСБ учится распознавать кавказцев по голосу

1 min

2.3K

Information Security *

+43

Comments 62

digreen Aug 10 2010 at 11:01

Интересно… Я как-то раньше считал, что СОРМ работает немного по-другому — прослушиваются заранее выбранные телефонные переговоры. А тут похоже на то, что официально готовятся слушать вообще всё?

Speedimon Aug 10 2010 at 11:40

Слушать и распознавать язык говорящего, очевидно же.
То есть в базу звонков добавится и поле «предполагаемый язык разговора».

digreen Aug 10 2010 at 12:06

Ну и на кой? Как я предполагаю, прослушка заказывается на конкретного субъекта. Не на «неизвестный номер, по которому хрен знает кто, о чем и на каком языке говорит». Т.е. персонаж известен и, скорее всего, известны все языки, на которых он может говорить.
Поэтому я и пытаюсь допереть, насколько эффективна эта разработка будет в тех условиях работы СОРМ, которые я предполагаю.

Speedimon Aug 10 2010 at 12:24

Ну вот например… Свидетель заметил что подозреваемый говорил по телефону на каком-то «не нашем» языке в таком-то месте. Если все звонки по данной БС были обработаны такой системой (предположим, с большой вероятностью «попадания») — тогда резко сужается круг номеров, которые надо бы проверить. А может там за это время и вообще один звонок такой окажется.
Да много применений еще думаю можно придумать, а 24 млн. в рамках такой разработки — не считаю что есть повод опять кричать «распил», вполне адекватная сумма как мне кажется.

d0z Aug 10 2010 at 13:00

законы РФ не разрешают прослушивать абонента без разрешения суда. пока что…

danSamara Aug 10 2010 at 17:13

С учётом того, что СОРМ никак не проконтролировать, закон тут не особо помогает.

mono2k Aug 10 2010 at 17:22

запрещает ли закон РФ определять национальность абонентов без протоколирования содержания разговора, вот в чем вопрос…

danSamara Aug 10 2010 at 17:46

законы РФ не разрешают прослушивать абонента без разрешения суда. пока что…

ru.wikipedia.org/wiki/СОРМ

В соответствии со статьёй 23 Конституции России ограничение тайны связи допускается только по решению суда. В то же время в законе упоминается возможность использования СОРМ до решения суда, «в случаях, установленных федеральными законами».

EvilX Aug 11 2010 at 02:45

На самом деле раньше каждый оператор должен был иметь специальную комнатку для проведения оперативных мероприятий. Сейчас же от каждого оператора идёт волокно до ФСБ и что там они делают — никому не известно. Так, что закон этот чистая фикция.

UFO landed and left these words here

digreen Aug 10 2010 at 13:07

СОРМ настраивается заранее, а не постфактум. Допустим, известно место, где будет находиться подозреваемый. Если неизвестен его номер — то неизвестен и оператор, а значит, заранее нужно выводить в СОРМ-каналы звонки с БС всех операторов в округе. Причем в городе это будет гораздо больше 3х станций.
Таким образом ФСБ кроме звонка подозреваемого фактически прослушает разговоры совершенно посторонних людей, что является нарушением их права на неприкосновенность частной жизни. Вот в этом-то и загвоздка, если применение системы будет именно таким, как вы предполагаете.
Стандартное применение прослушки — по согласованию, в рамках оперативно-розыскных мероприятий, для конкретного товарища. А тут — всех под замах.
Вот про это я в первом комментарии и писал.

UFO landed and left these words here

WondeRu Aug 13 2010 at 20:08

Почитайте про американский ЭШЕЛОН. Вас тоже слушают. Попробуйте в международном звонке чего-нить про взрывчатку рассказать (на русском языке), сразу на галочку поставят.

d0z Aug 10 2010 at 11:45

вы правильно думали. и на самом деле так сейчас и работает… Обработать весь телефонный трафик мне реальным не представляется…

danSamara Aug 10 2010 at 17:16

Пруф?
Я, например, думал, что хранить телефонные разговоры — проблематично из-за объёма, оказалось — нет. С учётом специальных алгоритмом сжатия, заточенных под голос, записи занимают совсем чуть.

UFO landed and left these words here

wazd Aug 10 2010 at 11:23

Выб русский для начала выучили, в качестве proof of concept, так сказать :)

UFO landed and left these words here

HoochieMen Aug 10 2010 at 11:53

Для стоящей системы, позволяющей делать то, что описанно в ТЗ это нормальные деньги

danSamara Aug 10 2010 at 17:18

Если бы делали с нуля с научными исследованиями — то да. Но ведь возьмут существующие разработки, подпилят чуток и, вуаля, переводите деньги!

mono2k Aug 10 2010 at 17:24

ну а кто вам мешает это сделать? Есть заказчик, есть вполне определенная задача, возьмите существующие разработки, подпилите и в перед, в путь, к светлой жизни на канарах.

danSamara Aug 10 2010 at 18:06

Чувствую себя Шелдоном, это, типа, ирония? Или вы серьёзно?

Если, вдруг, серьёзно: у нас большой «бузинесс» всё решает в саунах, в которые я не вхож, поэтому «взять и сделать» можно, но «вуаля и на канары» уже не выйдет.

Bahusss Aug 10 2010 at 19:05

Зачем делать с нуля, если уже есть существующие разработки? Кстати какие открытые разработки на эту тему вы знаете?

Почитайте еще раз ТЗ по тенедеру — там требуется провести научно-исследовательскую работу + разработать специализированный софт под эту работу.

electrocat Aug 10 2010 at 19:49

«существующие разработки» обычно очень затратны и не окупаются с одного проекта

если есть фирмы у которых есть адекватные существующие разработки — то абсолютно адекватно им заплатить )
чтобы им хватило денег на следующие «существующие разработки» :)

UFO landed and left these words here

lightcyber Aug 10 2010 at 11:07

Мне кажется что создать подобное крайне сложно. Если у них что-то и получится, то процент ошибок будет достаточно велик.

StamPit Aug 10 2010 at 11:27

Насколько мне известно, подобные решения уже существуют и вполне работают. Вот, например

Интересно, кто будет участвовать в тендере?

keylase Aug 10 2010 at 12:05

А здесь вроде и так ясно — только ЦРТ!

StamPit Aug 10 2010 at 13:09

Ну да, судя по протоколам — прошли МГУ и ЦРТ.
Но у МГУ какие-то совсем странные условия — 5.5 млн и 19 месяцев. Такое ощущение, что они только по своим студентам речевые базы собирать планируют.

Naps Aug 10 2010 at 13:06

Роснано. Они сделают нанораспознователи.

shiz86 Aug 10 2010 at 11:12

Скоро объявят тендер на автоматизированную систему создания тендеров

vpbar Aug 10 2010 at 11:22

Я так понял, второй абзац это Ваши домыслы?

team_leader Aug 10 2010 at 11:22

Вполне нормальный тендер. Буду рад если его выиграет какой-нибудь НИИ из РАН или обычный университет. По данной теме можно написать и защитить достаточно много хороших диссертаций. Интересная научная работа. Это вам не быдлосайты клепать.

avenu Aug 10 2010 at 12:12

Видимо в посте намекается не на научность работы, а на то кого собираются прослушивать и связанную с этим дискриминацию. Это примерно как сейчас в мвд заявляют, что в метро досматривают документы не по принципу национальностей.

А так можете исследовать что угодно, пока это не используют в извращенном виде.

funt Aug 10 2010 at 14:20

Ашманов возьмется за дело

SeVit Aug 10 2010 at 16:25

«можно написать и защитить достаточно много хороших диссертаций»

принимал на работу как-то одного такого молодого представителя отечественного академического планктона:

он с порога заявил, что заниматься программированием,
а конкретно разработкой компонентов для информационной системы имеющей веб интерфейс (т.е. работать над «быдло сайтиками») он не будет

он заявил что будет работать только над академически интересными вещами,

Но этот человек ни одного сложного API не смог освоить, даже когда было надо (MathLab API)

вот таких я и называю
представителями отечественного академического планктона

UFO landed and left these words here

sashaeve Aug 10 2010 at 11:26

Даже не сомневался, кто автор статьи.

psylostlife Aug 10 2010 at 11:47

Хм, нормальное распознавание речи, аспектов каждого отдельного индивида(а так же отсутствие разных зубов этих индивидов или ангина) и акцент — это как раз та проблема, которая затрудняет голосовые команды на качественном уровне для бытовых приборов и прочего. Неужели если ФСБ попросило — эти проблемы сразу же решат за 29 месяцев?

Hitrusha Aug 10 2010 at 11:51

Это при условии, что этот самый акцент есть. Остается понять, что делать они будут, если акцента нет вообще.

psylostlife Aug 10 2010 at 12:00

Проблема даже не в этом.

>> способной по речи надёжно распознавать язык говорящего. Например, с помощью такой системы можно оперативно выявлять разговоры на кавказских языках среди всех сотовых переговоров в Москве.

Судя по контексту, имелось в виду конкретно язык, на котором говорят, а не родной язык говорящего(а если в детстве двум сразу учили? бывает и такое).

А тут уже легче ловить по чаще всего используемым словам того или иного языка, поэтому акцент может даже усложнить задачу распознания языка. Например, человек без передних зубов произносит русское слово «Я» по произношению похожим на немецкое «ja».

Karabulak Aug 10 2010 at 12:19

Или дагестан к примеру, у них чуть ли не каждое село со своим диалектом, не то что акцентом…
Это гиганский объём работы.
Ещё интересно что прошёл ингушский, а чеченский нет. Языки родственные и очень близки.

psylostlife Aug 10 2010 at 12:24

Дагестан это ладно, у тайцев если геморрой огромный с выражением в слове, там можно легко маму подруги назвать собакой, не так вытянув гласную, про языки, где слов мало и акцент поставлен на выражении я вообще молчу.

Goodkat Aug 10 2010 at 14:46

У меня акцент есть — меня бы точно распознали :(
Хотя мои национальность и язык можно распознать и по фамилии, на которую записан мой сотовый номер :)

Но вообще система интересная — ведь это шаг к универсальным переводчикам из научной фантастики!

OLS Aug 10 2010 at 12:14

Скорее у какого-то из НИИ есть уже определенные наработки и просто официально пробивается финансирование. Задача действительно интересная и наукоемкая.

psylostlife Aug 10 2010 at 12:23

Мне тоже так показалось.

midday Aug 10 2010 at 12:03

Вообще-то вроде просто язык надо распознать? Если так, то это намного легче чем акцент.

Xiongmao Aug 10 2010 at 12:11

И уже скоро в новой Шарашке новые Нержин и Рубин будут изобретать новый вокодер.

jorl Aug 10 2010 at 12:35

Это в любом случае сложная задача.
Сложность ее заключается в сборе речевой базы данных. Именно поэтому срок работ такой длительный.

На сегодняшний день уже существуют экспертные системы идентификации диалекта диктора. Например «Регион» от ЦРТ.
Но такие системы полу-ручные. Для работы с ними нужен эксперт.

Для топик-стартера — заявленная стоимость тендера не всегда является окончательной. Потрудитесь узнать решение конкурсной комиссии, чтобы не вводить людей в заблуждение.

bondbig Aug 10 2010 at 12:43

Да бОльшая часть работы сделана уже:
www.youtube.com/watch?v=ZKiIJtkydT0

p1xel Aug 10 2010 at 13:35

А как будет «бомба» на кабардино-черкесском?

SwampRunner Aug 10 2010 at 13:57

bolk Aug 10 2010 at 14:08

Ничего себе какие далекоидущие и конкретные выводы вы сделали. Поздравляю, вы выиграли тендер на самый «жёлтый» заголовок на «Хабре».

bondbig Aug 10 2010 at 14:22

Данный автор давно уже обладатель всех подобных титулов и рангов. Легенда, как никак.

sashaeve Aug 10 2010 at 14:57

Вопрос в другом: почему его до сих пор читают и плюсуют?

bondbig Aug 10 2010 at 15:10

я плюсую/минусую материал, а не автора. Ализар периодически постит интересные новости, почему бы и не плюсануть? Если жёлтизна или левота — то почему бы и не минусануть? Не смотря на ранги и кармовитость.
Как-то так.

sashaeve Aug 10 2010 at 15:19

А я смотрю и на материал и на автора (и историю его публикаций). Если автор постоянно пишет хорошие статьи, то это одно, а если одну хорошую на 10 таких, как эта, то таким автором можно и принебречь.