Comments / Profile of Wicron / Habr

How to become an author

Жуков Роман @Wicron

Пользователь

Profile Publications 3Comments 237Bookmarks 1

В Минцифры ждут появления первой отечественной базовой станции 4G в течение 2-3 лет

Wicron Aug 19 2022 at 15:06

Это вот тот случай, когда видимо в масштабе страны было забыто то, что уже сделано
Пруфы: https://katalog-rek.ru/catalog/96/3558/
https://habr.com/ru/news/t/541340/
Просто нет слов....

0

Ректор «Сколтеха» заявил о невозможности развития в России связи 6G раньше сетей 5G и без международного сотрудничества

Wicron Aug 14 2022 at 17:41

Вообще якобы еще в 2014 году сделали
https://old.sk.ru/news/b/articles/archive/2014/03/18/malaya-bazovaya-stanciya-ranberry-cell-100-iz-skolkovo-poluchila-novuyu-vneshnost.aspx

+1

Intel представила линейку профессиональных графических процессоров Arc Pro

Wicron Aug 9 2022 at 15:07

Это жалкие обрубки для машинного обучения.

0

Как установить лицензионную защиту кода на Python и обезопасить данные с помощью HASP?

Wicron Jul 31 2022 at 23:44

Слава, здравствуйте. Давно не общались, думаю вы соскучились по мне)))
Интересный материал вы опубликовали....
Все же специалист должен быть нишевым. Если получается хорошо писать код - то это позиция разработчика. Если нужно приземлять решения в On-prem, то как это делает Сбер - нанимают devSecOps инженера.
Здесь вы пишите про защиту .so библиотеки шифрованием с помощью HASP ключа, но отвечаете в тексте комментариев о том, что в коде есть функция torch.load. Это на самом деле серьезная утечка для службы безопасности МТС. Дело в том, что тут сразу вскрываются несколько вещей:
- во-первых очевидно, что решение этой задачи могло и должно было быть построено вокруг использования с ключом дополнительно защищенных так называемых .etrt или encrypted ONNX моделей. Ведь обозначив факт использования torch - вы потенциально раскрываете ряд фактов, один из них - что развернутый граф нейронной сети перестает быть зашифрованным, находясь в памяти видеокарты. А там он - это набор констант определенного типа по фиксированным адресам. Получается есть далеко ненулевая вероятность запустится с Hasp ключом, отправить граф в память vRAM GPU и подключив безопасников - веса графа сдампить себе на память.
- во-вторых видно, что Python используется тут как метод короткого инженерного пути и сразу ухудшает потенциальную привлекательность продукта, потому что обозначает cython и как следствие микс 2х языков реализации внутри - Python и биндингов, вероятно с++. Конечно для компании уровня 100% актива МТС это не серьезно и наносит урон её репутации. Ведь конечный продукт будет обладать более низкой надежностью, и вероятно скоростью.
- в-третьих тут есть неплохой комментарий от frazer о том, что диффи-хелман и openssl - вполне себе живые вещи, если готовить правильно. К тому же энкриптер на питоне пишется в 10-20 строк кода. Сам сертификат вполне себе генерируется для on-prem системы.
- в четвертых. Компании в области ИИ значительную часть расходов на НМА (нематериальные активы) несут через списание затрат на наиболее дорогие задачи - такие как ML (серверные ресурсы) и зарплаты ML инженеров. И именно модель нужно защищать, а не код. Код в этой индустрии почти ничего не стоит, особенно когда команда не может написать серверный код на чистом С++.
- даже не сдампив чекпоинт нейронного графа, но определив его архитектуру (полный конфигуратор слоев) можно нанести глубочайший урон публичной компании, ведь сам граф может выдать так называемые open source решения, львиная часть которых заставит опубликовать весь код в исходниках по запросу.
-в-шестых с позиции лицензирования софт в паре с ключом образует не очередную лицензионную копию продукта, а новый продукт на балансе, ведь получается, что .so файл, зашифрованный аппаратным ключом, образует уникальную копию продукта. Сигнатура библиотек уникальная для каждого выпущенного ключа и такой софт уже не является очередной копией продукта, лицензию на который компания ставит по закону на баланс. В этой ситуации юридическая защита On-prem поставок сильно затруднена, ведь поставляется по сути каждый раз уникальное по сигнатурам решение. И такую поставку, если и защищать - то получается каждый раз формировать для этого новый продукт с уникальным названием, не говоря уже про трудности гос. регистрации.
- с позиции защиты самой опасной утечкой является граф классификатора. Пока еще не существует обратного доказательства, на каких данных он обучен, но это еще произойдет в индустрии и тогда вскроется много фактов, из-за которых вероятно будут недовольны к примеру авторы открытых данных и большая аудитория в целом.
- ну и напоследок - HASP ключ отлично прокидывается на удаленную систему через USB IP. В своей практике я моделировал такое и проверял эффективности защиты этим ключом сервисов ASR, поставленных в on prem. Результат был так себе. Клон системы делали одной командой и запускали на удаленной машине как VM, куда с текущей прокидывали hasp ключ, который ничего не подозревал. Так и может работать система заказчика, исполняя код на удаленной системе с прокинутым ключом хоть из Москвы на сервер Пентагона.

+5

СМИ: Минцифры не фиксирует на рынке дефицита серверного и СХД оборудования

Wicron Apr 25 2022 at 13:39

Когда-то давно, хотел стать доктором)))
Помню как выглядит потенциальный анамнез. Это когда тело думает, что орган есть, но не чувствует, что ему уже давно конец, как следствие не чувствует ни орган, ни его потребности. В тоже самое время целый орган в запущенной стадии не отдает информацию голове, что является сигналом, что орган уже не нуждается в помощи. В этой ситуации у организма появляется ресурс для поддержания всего остального.
Читая эту статью, не покидает ощущение фантома целой отрасли как органа. Вот тут вижу как "голова" цитата: "..не фиксирует". Думаю, надо срочно проверить как сам орган, так и голову и систему доставки информации к ней. А то кажется, что в опасности не только всё тело, но и составные его части.

+9

Производство микросхем в гараже. Студент из Нью-Джерси показал свою домашнюю лабораторию

Wicron Jan 24 2022 at 11:20

Классный! Респект . Вижу путь правильным

+1

Ученые СПбГУ помогли определить причину исчезновения мамонтов в Сибири

Wicron Oct 26 2021 at 17:16

Если я правильно понял. То заболотилась сразу вся почва. На юге, севере, востоке , западе. И животные, которые могли обойти 2/3 суши на планете погибли за пару тысяч лет везде.

+3

А «убивают» ли на самом деле русский Intel?

Wicron Aug 16 2021 at 00:33

Чтобы вас поняли, пишите конкретнее. МЦСТ могло стать звеном усиления становления производства 65 нм в РФ. Это? Не было сделано. Пришло время пробовать другим

А ещё я думаю, что компания, которая сейчас владеет производством 5 нм может сделать свой собственный процессор буквально на бонусы от контрактов.

-1

А «убивают» ли на самом деле русский Intel?

Wicron Aug 15 2021 at 23:26

Итак. Процессор, произведенный за пределами страны НЕЛЬЗЯ признать своим

В ситуации, когда появилась компания, которая сможет сделать новую попытку создать обновлённое предложение , нужно отдать должное уважение Ядру. Risc-v как и ARM может быть быть произведен на линиях более грубого техпроцесса. И быть востребованным. Есть применения для операций над данными , речью, текстами , хостингом. Я не понимаю где все это время был мцст, вместо того, чтобы произвести по 65нм свое изделие в РФ

0

62-летний инженер с тремором рук легко вышел из положения: закрепил паяльник на стабилизации для камеры

Wicron Jun 5 2021 at 16:24

Мне известна печатная плата, которую он ремонтирует — это одна из плат Умной колонки. Искренне жаль человека. И отличная демонстрация потребности в реальном продукте, который можно создать для людей с данным видом расстройства.

+1

WebRTC на Android: как включить аппаратное кодирование на множестве устройств

Wicron May 8 2020 at 12:37

Аппаратно AV1 начал появляться только для топовых кристаллов в линейку SoC для чипов на базе Cortex A55, A72, A73, поэтому до массового очень далеко — не менее 2х лет

0

WebRTC на Android: как включить аппаратное кодирование на множестве устройств

Wicron May 7 2020 at 09:53

Отличная статья. Актуальная проблема.
Что касается AV1 — то только выходит в свет.

+3

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Wicron Oct 9 2019 at 17:59

Метрики качества устроили? С Деном Пуви уже пообщались? Он кстати быстро отвечает, особенно тем, кто «из тусовки». Наиболее впечатляющими цифрами по объему исходного сета как ни странно упоминается в контексте Amazon, затем идет Google. Эталоном объема являются цифры от 100 000 часов (Google), для Amazon цифра может быть большей, я не исключу, что Amazon имеет порядка 170 000 часов для каждого из языков (кажется 7 языков). Baidu и Facebook тоже оперируют цифрами от 100 000 часов на языки, поддерживаемые сервисами. Полагаю, что освоение новых групп языков идет по мере накопления размеченных данных. На этапе, когда данных мало для e2e распознавания работают kaldi-based решения, в момент достижения объема подключаются группы разработчиков e2e решения и заменяют прежние. Конечное решение о релизе применяются на основе метрик, обозначенных ранее с добавлением «экономических» метрик.

0

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Wicron Oct 9 2019 at 16:16

CER, CHER, CXER, DEL, GER, HES, IMER, IMERA, INFLER, INFLERA, INS, IWER, IWERA, LMER, MER, MSTAT, NCR, OCWR, PHER, RER, SF, SUB, WER, WLMER, WMER…
Продолжать?
Вы еще студентов учите? Не позавидую результатам.
Для подтверждения информации об объемах датасетов вам нужно изучать публикации Google и Amazon.
А еще вам стоит иметь связи с людьми, которые там делают в прод. Стоит организовать переписку с Деном Пуви (facebook)
Иначе вы будете учить тому, подтверждения чего не имеет сами, это неэффективно.

0

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Wicron Oct 9 2019 at 13:15

Ваша статья с самого начала серьезно похожа на оскорбление и ложь, породили ваши доводы, ноль пруфоф, отсутствует позиция автора модели, серьезная путанница в терминах, очень поверхностный подход к оценке качества, нет учета точности измерений. Нет сравнения ваших цифр и цифр из других публикаций. Отсутствуют тесты на аугментированных тестовых данных. Нет методики оценки общего показателя качества на основании нескольких метрик одновременно. Если бы она была, google и яндекс были бы для вас заоблачны и вывод был бы другим (особенно google)

-3

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Wicron Oct 9 2019 at 13:07

У вас вообще нет цифр. Вы так и не ответили, связались ли с автором и спросили ли про VoxForge? Мои цифры реальные. Исходный датасет и обучающий датасет не одно и то же и я ничего не путал. Нижняя граница обучающего датасета — это объем исходного. Верхняя граница — это исходный + синтетически аугментированный. Все цифры верны. Если вы решили посчитать WER как параметр качества, то учтите, что в открытых источниках качество распознавания оценивается примерно по 15 и более известным метрикам (лично мне). Ваша попытка делать вывод о качестве на основании одной метрики — это реально смешно. Что касается тусовок, то да, кажется вас там не было видно. Однако сути вещей не меняет. Какую цель вы ставите этой публикацией? Таблица сравнения — не очень адекватная, цифры не сходятся с тестами на больших тестовых сетах. Объем тестовой выборки позволяет вам утверждать о точности определения WER только с учетом диапазона. Подскажите, вы оценили точность определения WER? Судя по объему сета и цифрам в таблице точность оценки WER тут вряд ли превышает +-5%. Вы понимаете, что максимальная ошибка ваших выводов эквивалента нескольким годам работы крупных компаний по изменению этих показателей в лучшую сторону? Статья как по мне — пример как забить гвозди микроскопом.

-3

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Wicron Oct 9 2019 at 11:36

Работаете в Google? Общаетесь с людьми типа Дена Пуви (kaldi)? Начитаны, но не посчитали сумму обучающих сетов из публикаций Google?
— Оценка снизу — 100 000 часов
— Сверху — 1 млн. часов.
Диапазон большой. Коэффициент увеличения искусственными аугментированными сетами — около 10-12.
Общались с руководителями направлений из Яндекс? Как давно?
Калди уже давно не в проде в Я.
Google распознавание — E2E
Утверждение об аналогичности — это также смешно, как и печально.

0

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Wicron Oct 9 2019 at 11:30

В нашей тусовке на воскфордже не обучал только конченый…
Вы общались с Шмыревым и уверены в том, что его модель НЕ обучалась на voxforge?
Даже если так, что ждем теста на 10-12 видов аугментации от бытовых шумов до эффектов скорости чтения и посмотрим на показатели.

0

Опыт создания сборок Linux под одноплатники с поддержкой обновлений

Wicron Oct 9 2019 at 11:24

Полный бред.
1. Нет. Смотрите цены на бирже Шеньчженя.
2. Нет. Разброс параметров Nand как раз существенно влияет на качество выпущенного изделия, блочные устройства стабильнее в этом плане.

0

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

Wicron Oct 8 2019 at 20:38

Очевидно, что нет. У Шнырева использовался тот же воксфордж плюс ещё столько же. Это маленькая модель. Сам тест бы поставлен неверно, для этой модели он был проведён на обучающих данных. У гугла модель русского языка на почти 1 млн. часов. И она даёт результат лучше, чем маленькая модель на собственных данных. С яндексом схожая история

-1

2

3 4 ...