Pull to refresh
-2
0.3
Жуков Роман @Wicron

Пользователь

Send message

Это вот тот случай, когда видимо в масштабе страны было забыто то, что уже сделано
Пруфы: https://katalog-rek.ru/catalog/96/3558/
https://habr.com/ru/news/t/541340/
Просто нет слов....

Это жалкие обрубки для машинного обучения.

Слава, здравствуйте. Давно не общались, думаю вы соскучились по мне)))
Интересный материал вы опубликовали....
Все же специалист должен быть нишевым. Если получается хорошо писать код - то это позиция разработчика. Если нужно приземлять решения в On-prem, то как это делает Сбер - нанимают devSecOps инженера.
Здесь вы пишите про защиту .so библиотеки шифрованием с помощью HASP ключа, но отвечаете в тексте комментариев о том, что в коде есть функция torch.load. Это на самом деле серьезная утечка для службы безопасности МТС. Дело в том, что тут сразу вскрываются несколько вещей:
- во-первых очевидно, что решение этой задачи могло и должно было быть построено вокруг использования с ключом дополнительно защищенных так называемых .etrt или encrypted ONNX моделей. Ведь обозначив факт использования torch - вы потенциально раскрываете ряд фактов, один из них - что развернутый граф нейронной сети перестает быть зашифрованным, находясь в памяти видеокарты. А там он - это набор констант определенного типа по фиксированным адресам. Получается есть далеко ненулевая вероятность запустится с Hasp ключом, отправить граф в память vRAM GPU и подключив безопасников - веса графа сдампить себе на память.
- во-вторых видно, что Python используется тут как метод короткого инженерного пути и сразу ухудшает потенциальную привлекательность продукта, потому что обозначает cython и как следствие микс 2х языков реализации внутри - Python и биндингов, вероятно с++. Конечно для компании уровня 100% актива МТС это не серьезно и наносит урон её репутации. Ведь конечный продукт будет обладать более низкой надежностью, и вероятно скоростью.
- в-третьих тут есть неплохой комментарий от frazer о том, что диффи-хелман и openssl - вполне себе живые вещи, если готовить правильно. К тому же энкриптер на питоне пишется в 10-20 строк кода. Сам сертификат вполне себе генерируется для on-prem системы.
- в четвертых. Компании в области ИИ значительную часть расходов на НМА (нематериальные активы) несут через списание затрат на наиболее дорогие задачи - такие как ML (серверные ресурсы) и зарплаты ML инженеров. И именно модель нужно защищать, а не код. Код в этой индустрии почти ничего не стоит, особенно когда команда не может написать серверный код на чистом С++.
- даже не сдампив чекпоинт нейронного графа, но определив его архитектуру (полный конфигуратор слоев) можно нанести глубочайший урон публичной компании, ведь сам граф может выдать так называемые open source решения, львиная часть которых заставит опубликовать весь код в исходниках по запросу.
-в-шестых с позиции лицензирования софт в паре с ключом образует не очередную лицензионную копию продукта, а новый продукт на балансе, ведь получается, что .so файл, зашифрованный аппаратным ключом, образует уникальную копию продукта. Сигнатура библиотек уникальная для каждого выпущенного ключа и такой софт уже не является очередной копией продукта, лицензию на который компания ставит по закону на баланс. В этой ситуации юридическая защита On-prem поставок сильно затруднена, ведь поставляется по сути каждый раз уникальное по сигнатурам решение. И такую поставку, если и защищать - то получается каждый раз формировать для этого новый продукт с уникальным названием, не говоря уже про трудности гос. регистрации.
- с позиции защиты самой опасной утечкой является граф классификатора. Пока еще не существует обратного доказательства, на каких данных он обучен, но это еще произойдет в индустрии и тогда вскроется много фактов, из-за которых вероятно будут недовольны к примеру авторы открытых данных и большая аудитория в целом.
- ну и напоследок - HASP ключ отлично прокидывается на удаленную систему через USB IP. В своей практике я моделировал такое и проверял эффективности защиты этим ключом сервисов ASR, поставленных в on prem. Результат был так себе. Клон системы делали одной командой и запускали на удаленной машине как VM, куда с текущей прокидывали hasp ключ, который ничего не подозревал. Так и может работать система заказчика, исполняя код на удаленной системе с прокинутым ключом хоть из Москвы на сервер Пентагона.

Когда-то давно, хотел стать доктором)))
Помню как выглядит потенциальный анамнез. Это когда тело думает, что орган есть, но не чувствует, что ему уже давно конец, как следствие не чувствует ни орган, ни его потребности. В тоже самое время целый орган в запущенной стадии не отдает информацию голове, что является сигналом, что орган уже не нуждается в помощи. В этой ситуации у организма появляется ресурс для поддержания всего остального.
Читая эту статью, не покидает ощущение фантома целой отрасли как органа. Вот тут вижу как "голова" цитата: "..не фиксирует". Думаю, надо срочно проверить как сам орган, так и голову и систему доставки информации к ней. А то кажется, что в опасности не только всё тело, но и составные его части.

Если я правильно понял. То заболотилась сразу вся почва. На юге, севере, востоке , западе. И животные, которые могли обойти 2/3 суши на планете погибли за пару тысяч лет везде.

Чтобы вас поняли, пишите конкретнее. МЦСТ могло стать звеном усиления становления производства 65 нм в РФ. Это? Не было сделано. Пришло время пробовать другим

А ещё я думаю, что компания, которая сейчас владеет производством 5 нм может сделать свой собственный процессор буквально на бонусы от контрактов.

Итак. Процессор, произведенный за пределами страны НЕЛЬЗЯ признать своим

В ситуации, когда появилась компания, которая сможет сделать новую попытку создать обновлённое предложение , нужно отдать должное уважение Ядру. Risc-v как и ARM может быть быть произведен на линиях более грубого техпроцесса. И быть востребованным. Есть применения для операций над данными , речью, текстами , хостингом. Я не понимаю где все это время был мцст, вместо того, чтобы произвести по 65нм свое изделие в РФ

Мне известна печатная плата, которую он ремонтирует — это одна из плат Умной колонки. Искренне жаль человека. И отличная демонстрация потребности в реальном продукте, который можно создать для людей с данным видом расстройства.
Аппаратно AV1 начал появляться только для топовых кристаллов в линейку SoC для чипов на базе Cortex A55, A72, A73, поэтому до массового очень далеко — не менее 2х лет
Отличная статья. Актуальная проблема.
Что касается AV1 — то только выходит в свет.
Метрики качества устроили? С Деном Пуви уже пообщались? Он кстати быстро отвечает, особенно тем, кто «из тусовки». Наиболее впечатляющими цифрами по объему исходного сета как ни странно упоминается в контексте Amazon, затем идет Google. Эталоном объема являются цифры от 100 000 часов (Google), для Amazon цифра может быть большей, я не исключу, что Amazon имеет порядка 170 000 часов для каждого из языков (кажется 7 языков). Baidu и Facebook тоже оперируют цифрами от 100 000 часов на языки, поддерживаемые сервисами. Полагаю, что освоение новых групп языков идет по мере накопления размеченных данных. На этапе, когда данных мало для e2e распознавания работают kaldi-based решения, в момент достижения объема подключаются группы разработчиков e2e решения и заменяют прежние. Конечное решение о релизе применяются на основе метрик, обозначенных ранее с добавлением «экономических» метрик.
CER, CHER, CXER, DEL, GER, HES, IMER, IMERA, INFLER, INFLERA, INS, IWER, IWERA, LMER, MER, MSTAT, NCR, OCWR, PHER, RER, SF, SUB, WER, WLMER, WMER…
Продолжать?
Вы еще студентов учите? Не позавидую результатам.
Для подтверждения информации об объемах датасетов вам нужно изучать публикации Google и Amazon.
А еще вам стоит иметь связи с людьми, которые там делают в прод. Стоит организовать переписку с Деном Пуви (facebook)
Иначе вы будете учить тому, подтверждения чего не имеет сами, это неэффективно.
Ваша статья с самого начала серьезно похожа на оскорбление и ложь, породили ваши доводы, ноль пруфоф, отсутствует позиция автора модели, серьезная путанница в терминах, очень поверхностный подход к оценке качества, нет учета точности измерений. Нет сравнения ваших цифр и цифр из других публикаций. Отсутствуют тесты на аугментированных тестовых данных. Нет методики оценки общего показателя качества на основании нескольких метрик одновременно. Если бы она была, google и яндекс были бы для вас заоблачны и вывод был бы другим (особенно google)
У вас вообще нет цифр. Вы так и не ответили, связались ли с автором и спросили ли про VoxForge? Мои цифры реальные. Исходный датасет и обучающий датасет не одно и то же и я ничего не путал. Нижняя граница обучающего датасета — это объем исходного. Верхняя граница — это исходный + синтетически аугментированный. Все цифры верны. Если вы решили посчитать WER как параметр качества, то учтите, что в открытых источниках качество распознавания оценивается примерно по 15 и более известным метрикам (лично мне). Ваша попытка делать вывод о качестве на основании одной метрики — это реально смешно. Что касается тусовок, то да, кажется вас там не было видно. Однако сути вещей не меняет. Какую цель вы ставите этой публикацией? Таблица сравнения — не очень адекватная, цифры не сходятся с тестами на больших тестовых сетах. Объем тестовой выборки позволяет вам утверждать о точности определения WER только с учетом диапазона. Подскажите, вы оценили точность определения WER? Судя по объему сета и цифрам в таблице точность оценки WER тут вряд ли превышает +-5%. Вы понимаете, что максимальная ошибка ваших выводов эквивалента нескольким годам работы крупных компаний по изменению этих показателей в лучшую сторону? Статья как по мне — пример как забить гвозди микроскопом.
Работаете в Google? Общаетесь с людьми типа Дена Пуви (kaldi)? Начитаны, но не посчитали сумму обучающих сетов из публикаций Google?
— Оценка снизу — 100 000 часов
— Сверху — 1 млн. часов.
Диапазон большой. Коэффициент увеличения искусственными аугментированными сетами — около 10-12.
Общались с руководителями направлений из Яндекс? Как давно?
Калди уже давно не в проде в Я.
Google распознавание — E2E
Утверждение об аналогичности — это также смешно, как и печально.
В нашей тусовке на воскфордже не обучал только конченый…
Вы общались с Шмыревым и уверены в том, что его модель НЕ обучалась на voxforge?
Даже если так, что ждем теста на 10-12 видов аугментации от бытовых шумов до эффектов скорости чтения и посмотрим на показатели.
Полный бред.
1. Нет. Смотрите цены на бирже Шеньчженя.
2. Нет. Разброс параметров Nand как раз существенно влияет на качество выпущенного изделия, блочные устройства стабильнее в этом плане.

Очевидно, что нет. У Шнырева использовался тот же воксфордж плюс ещё столько же. Это маленькая модель. Сам тест бы поставлен неверно, для этой модели он был проведён на обучающих данных. У гугла модель русского языка на почти 1 млн. часов. И она даёт результат лучше, чем маленькая модель на собственных данных. С яндексом схожая история

Information

Rating
1,835-th
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity