Comments 76
Оказывается, для того чтобы обучать модели нужно размечать данные.рассказал нам авторитетный доверенный источник из OpenAI.
Зачем читать лицензионное соглашение продуктов и сервисов которыми пользуешься? Амазону точно не важны репутационные потери, они слушают наши разговоры втайне от нас и не страхуются юридически!утверждает широко известный в узких кругах инфоблоггер-журналист.
обращаясь к Alexa мало кто знает о том, что запись через некоторое время станет доступна сотрудникам Amazon.говорит анонимный пользователь только что проскролливший EULA за 4 секунды и нажавший кнопку «я прочитал и согласен с условиями пользования».
В общем, никогда такого не было — и вот опять. Скандалы, интриги, расследования!
Ха, удивили, на яндексовской толоке вообще кто угодно выполняет такие задания, а не только сотрудники
-Нет, кожаный ублюдок.
Если добровольно покупаешь и устанавливаешь жучок у себя дома, то какие могут быть вопросы к Амазон?
Ну не знаю как амазон, а Яндекс.Станция мне очень понравилась, особенно прикольно подключение к ТВ, для пожилых людей. Я вот точно поставлю родителям, с планшетом они еле еле справляются, а сказать Алисе — включи радио, или ТВ канал (а их там сотни) — очень просто и удобно. Подслушивать их я думаю, бесполезно, даже в коммерческом плане, учитывая размер их пенсии :-(. Вообще я думаю колонки д.б. в каждой больнице + желательно в них добавить коммуникатор типа скайпа (Вызвать сестру, отправить сообщение врачу, позвонить домой ..)
А на чем основано ваше предположение? Спрашиваю как хозяин колонки от Яндекса.
Они не распознают речь постоянно, они слушают только ключевую фразу, а потом уже отправляют на распознавание фразу. Ключевая фраза всего одна (ну или несколько, в любом случае нейронные сети именно на них натренированы). Само этого, распознование ведётся именно на сервере. И если бы был постоянный потом трафика, это быстро бы спалили.
А теперь объясните мне, каким образом при таких условиях, мне покажут рекламу кофемашин, если я буду говорить дома о кофе?
Не важно, насколько это сожмется, но это большой палево. Сдампить трафик с колонки в своей локальной сети — особых знаний не нужно. Учитывая что гики часто их покупают, не думаю что это осталось бы незамеченным.
Сертификат как подменить?
Достойно как минимум знать что он есть. Если колонка при неактивности периодически что то отправляет достаточно крупное, это другое дело. А отправлять придется много, это не короткая фраза типа "погода на завтра", это многочасовые беседы. Напомню, внутри колонки не идёт распознование, у них железо совсем не такое
Напомню, внутри колонки не идёт распознование, у них железо совсем не такое
С каких пор Cortex-A53 — «не такое» железо?
Если что древний Cortex-A7 в малине без проблем справляется с сфинксом, не особо замечая его существование.
UPD: Отдельный вопрос, зачем девайсу, являющемуся по вашему утверждению всего лишь онлайн микрофоном проц с четырьями ядрами на полтора гигагерца каждое. Онлайн мультимедиа решения вполне успешно делают на базе ESP8266. Вот там точно нет локального распознавания голоса.
UPD2:
НАвскидку решение, которое не вызовет подозрений:
Пишем всё локально, параллельно сжимая. Когда пользователь активирует колонку — одним пакетом отсылаем и то что писали и то, что записано конкретно сейчас. Делаем вид, что это всё свежее. Поймать такое на основе анализа размеров пакетов без содержимого- мало реально. Особенно если разрабы грамотно всё сделали.
Десятки людей имеют доступ к исходникам, сотни работают с инфраструктурой и сервисами и точно заметят, если где-то циркулируют большие потоки данных непонятного назначения. Это всё сложно сохранить в секрете.
Впрочем, колонку я себе всё равно не поставлю.
Кроме того, на смарт всякий говнософт, типа фейсбуков и банковских приложений, я не ставлю — сложнее пропихнуть вредоносное обновление.
насколько я знаю в стандарте GSM телефонов штатно заложена отладочная функция для дистанционного включения микрофона телефона. Этим давным давно пользовалось ЦРУ при прослушке например политиков в Греции. https://www.newsru.com/world/06sep2007/telefony.html
позволяло злоумышленникам «принимать» чужие телефонные разговоры на 14 своих мобильных телефоновчто никак не подтверждает ваше
штатно заложена отладочная функция для дистанционного включения микрофона
Разговоры с абонентом что скрывать — их и так всегда пишет СОРМ/Prism или что там ещё есть.
Даже если бы можно было слушать нонстоп все разговоры не палясь и не боясь юридических последствий, то релевантность этих данных будет ничтожна.
Я могу сказать что кофе горький, поэтому я его не пью (например). Разговаривать могут при этом не только я, но и гости, скайп, телевизор и т.д…
Процессорное время тоже денег стоит, что бы его тратить на распознавание пустого трепа
Если распознавать голос вокруг нон-стоп, статистически обработанный результат можно продавать как тренды в определённой географической локации — о чём больше говорят на кухнях в Воронеже, а о чём — в Саратове. С привязкой к профилям пользователей (демографические данные и прогнозируемые доходы), очень даже дорогая информация.
Релевантность запросов очень высока. Если я что то ищу в Гугле, значит это мне интересно как минимум. Если я (точнее кто то рядом с колонкой) говорю какие то слова, то в большинстве случаев это не значит ничего для рекламодателей, а разбирать смысл и контекст всего сказанного ИИ ещё не умеет.
Эти же чуваки плакались по поводу бредовых законов вроде пакета яровой, что нельзя весь трафик хранить.
Что значит всю инфу? Через них проходят гигабайты в месяц на одного абонента.
Что то они безусловно хранят, но не "всю инфу"
А вы уверены что это кровать скрипит? А вы уверены, что человек сейчас дома, а не в съемной квартире, например? А вы уверены что это не жена храпит? А вообще у человека есть жена? И откуда вы знаете ее контакты?
Собаки чешутся постоянно, как и другие животные. И как вы по звуку определите что это собака чешется? Может это хозяин брюки чистит?
А теперь представьте себе рекламодателя, который продает кровати и рекламу которого подсовывают людям у которых где то что то там звучит похожее на какой то скрип. Он за это деньги платит, между прочим.
Любая инфа — деньги? Правда? У меня несколько терабайтов инфы всякой прикольной с фото и видео. Кому продать?
Другими словами вы предлагаете из морской воды золото добывать (оно там есть), конечно это возможно, но немного не рентабельно.
А вы уверены, что человек сейчас дома, а не в съемной квартире, например? А вы уверены что это не жена храпит?Ну без этой инфы релевантность рекламы новой нескрипящей кровати — 0.05%, а с этой инфой — 80% (скорее всего, предположение верное, в противном случае, надо было выдвигать такие предположения, которы в большинстве случаев верные).
Ну вот вам уже нужна ещё инфа, что б кровать человеку впарить. ИИ как то должен догадаться как эту инфу всю вместе сопоставить. Ещё надо понять что это кровать скрипит, а не пол и не новый кожаный диван и самое главное, что человека этот скрип вообще волнует.
И ради чего это все? Если человеку нужна будет кровать он сам это скажет колонке, либо полезет в гугл
Это вообще работать не будет сколько нибудь адекватно до тех пор, пока ИИ не научится распознавать контекст разговоров и посторонних звуков на уровне близком к человеческому. И даже в этом случае рентабельность будет под вопросом, а незаконность постоянной прослушки и доверие пользователей к такой штуке точно под вопросом не будет.
И так далее.
Ваши данные структурированы и персонализированы хотя бы на 1к чел? Смело выставляйте на продажу. Если просто подбор прикольных фоток и котиков с порнухой — тоже можно продать рублей за 500.
AllexIn
> Постоянный поток не нужен. Нужно только когда есть что-то похожее на звук передавать.
Постоянный поток при разговоре точно так же детектится, да и сколь бы хорошо ни сжимался голос, трафик нулевым не будет.
> Как вы трафик сдампите?
Легко, сертификат не нужен — факт наличия определяется без него.
> проц с четырьями ядрами на полтора гигагерца каждое
Микрофон, который воспроизводит видео как минимум. Микрофоном вы его назвали, взяв одну из функций. Локально такие штуки распознают ограниченное количество фраз и переспрашивают при несовпадении с шаблоном (да даже онлайн не всегда распознаётся — андроид авто тому пример).
> Когда пользователь активирует колонку — одним пакетом отсылаем
Размер пакета ограничен, придётся слать много. Алгоритм для проверки (мы же помним на ком бремя доказательств) — говорить много рядом без ключевой фразы, потом произнести фразу и посмотреть сколько отправит.
А у меня к вам вопрос, как к обладателю колонки — а какая ваша польза от колонки?
Ну допустим свой адрес я сам сообщил колонке, потому что мне полезно спросить «сколько мне ехать до работы?» и пр. А как она узнает день рождения моего ребенка, если я не скажу ей об этом сам?
Колонка слушает вас постоянно, чтобы вовремя отозваться на обращение к ней. Значит она анализирвует всё произносимое, чтобы выловить в потоке мемент, когда обращаются к ней. Ну, а раз анализирует — значит делает выводы.
Да, она постоянно слушает, но она не может разобрать речь, она натаскана ТОЛЬКО на активационную фразу, она умеет делать только это. Далее уже распознование идёт на сервере, куда отправляет кусок аудио.
Значит она анализирвует всё произносимое, чтобы выловить в потоке мемент, когда обращаются к ней. Ну, а раз анализирует — значит делает выводы.
она ждет кодовое слово, а не анализирует все произносимое и тем более никакие выводы не делает. До скайнета еще далеко, можно не париться
Это настолько очевидно всегда было что даже не смешно.
Именно поэтому лично у меня используется локальный sphinx для распознавания голоса. Да, работает хуже распознавалок от Яндекса или Амазона. Но вполне достаточно.
Конечно, очень хотелось использовать API Яндекса, когда всё собирал. Но это даже не рассматривалось всерьез.
Поставить у себя в доме жучок подконтрольный совершенно левым людям — это надо быть большим… скажем так, оптимистом.
Телефон на ОС собранной из исходников — сторонняя прошивка на базе AOSP.
ОДно время часы-телефон носил, они показали движение неопознанного трафика, после чего были на уровне оператора отключены от инета.
Сейчас из неподконтрольного у меня только одна камера в детской. Я не особо парюсь по поводу того, что к камере имеют доступ левые люди или что её взломают- она не видит и не слышит ничего что я бы боялся показать или озвучить. Учитывая что через пару месяцев она перестанет быть нужна — я не заморачиваюсь с её огораживанием.
При этом я не то чтобы параноик в плане приватности. Просто минимальную гигиену поддерживаю. Ту же прошивку на телефоне я лично не проверял. Мне достаточно знать что она опенсорсная. Что не отменяет возможность слежки, но для моего уровня паранои достаточно.
А вот добровольно жучок себе в дом ставить… Ну такое…
Но на хабре то в основном как раз не рядовые потребители.
Телефон на ОС собранной из исходников — сторонняя прошивка на базе AOSP.Это вообще ничего не значит, потому что модем в SoC не опен-сорсный. А у него свой процессор, своя ось (размером в сотни мегабайт), и полный доступ ко всему оборудованию. Если прятать закладки — то туда.
Что получит производитель SoC от прослушки — не понятно.
Постоянно вряд ли слушает, а вот обязанность оставить бекдор для спецслужб — вполне себе правдоподобная гипотеза.
Я не говорю о проышленных секретах дома, я не планирую стать депутатом, мне наплевать если сотрудник Амазона узнает, что я сегодня утром не покакал, или что я хочу плюнуть в морду моему начальнику. Повторюсь, это всё моё личное мнение.
А если у вас какое-то заболевание? Если у вас финансовые проблемы? Те же вопросы по вашим близким родственникам — скольким вы готовы рассказать про такие детали?
Например, высказанное громко желание «плюнуть в лицо начальнику», может обернуться повышенным процентом по кредиту через пару месяцев. Потому что банк,
через условное скоринговое агенство, получит информацию (оценку) о стабильности вашей работы, что вы, возможно, скоро уволитесь и нужно минимизировать риски повысив процент или снизив сумму выдачи.
Сбербанк, например, давно заигрывает с яндексом (у которого поиск и алиса), медициной и телемедициной в частности. Как считаете, узнав, что человек посещал онколога, условный банк окажет ему услуги по страхованию жизни или выдаст ли кредит на длительный срок (например, на срочное лечение)?
Я не верю, что всё происходит именно так, как сейчас написал, но камеру на всякий случай заклеиваю. :)
Но чтобы Гугл сливал мои разговоры в ФСБ или Сбербанк… Риск, безусловно, есть, но вероятность неизмеримо меньше.
Так что Алису я не поставлю, а Google Home — вполне, хоть и русского языка в колонке пока нет, и неизвестно когда появится…
P.S.
узнав, что человек посещал онколога, условный банк окажет ему услуги по страхованию жизни или выдаст ли кредит на длительный срок
Насколько я знаю, при оформлении мед страховки (в т.ч. необходима для получения ипотеки) вы подписываетесь, что не болеете страшными болезнями.
Если же речь о том, что вы болеете, но хотите это скрыть, осознанно идете на незаконные действия, фальсификацию документов… Ну, тогда уровень паранойи повышается, безусловно.
А уж как хакерам надо шифроваться… И то иной раз прокалываются.
но камеру на всякий случай заклеиваю. :)Ну и получите в скоринговых рейтингах максимальный минус. Пометку в личном деле «этот вообще камеру заклеивает, страшно подумать, что у него там происходит» )))
Сотрудники Amazon прослушивают записи разговоров владельцев умной колонки Echo